Разработчики OpenAI — о вардах, списке героев и проблемах ИИ

За какую сторону ИИ побеждает чаще? Как именно боты выбирают предметы для покупки? Какого процессора достаточно для запуска готовой версии OpenAI? На эти и другие вопросы ответила команда разработчиков искусственного интеллекта во время сессии ask-me-anything на Reddit, а мы собрали наиболее интересные из них.

— Чем руководствуются боты, когда ставят 4 варда в одном месте или оставляют последнего крипа в лагере в своем лесу?

— У нас есть теория: бот ставит варды, чтобы освободить слоты в инвентаре для более ценных предметов. Так как он самообучаем, мы можем лишь предполагать, почему он решил, что поставить варды — наиболее оптимальное действие в данный момент времени.

— Боты знают, что можно переложить предметы в рюкзак?

— Да, но перекладывание предметов из инвентаря в рюкзак заскриптовано [настроено вручную — прим.].

— Почему? Они не поняли, для чего это нужно, или есть какие-то проблемы, не позволяющие им это использовать?

— Мы провели эксперимент, в ходе которого позволили им этому научиться. Они научились неплохо перекладывать предметы, но пользовались этим навыком не лучше, чем в случае со скриптом, поэтому мы решили убрать его перед матчем с  OG.

— Ради любопытства: почему не оставить их в режиме самообучения? Если в нем они дошли до уровня скрипта, то зачем убирать его?

— Последние несколько недель перед матчем с  OG в модели наблюдались ошибки. Мы подумали, что это из-за новых параметров и действий. В последнюю минуту мы откатили эти изменения и запустили тренировку с предыдущей точки сохранения, но, к сожалению, в ней не было логики перекладывания предметов.

— Логика использования расходников заскриптована, так что бот не выбирает между покупкой вардов и фласок. Когда курьер приносит предмет, который боту не нужен, он его сразу же использует — особенно в том случае, когда слоты его инвентаря заполнены, и он хочет что-нибудь переложить в рюкзак.

Что касается лагерей крипов, не до конца ясно, понимают ли они «правила»: добивание последнего крипа, блокирование спауна. Ещё более непонятно, знают ли они о времени возрождения крипов.

— Значит ли это, что выбор между  Healing Salve и  Tango был сделан вами, а не ботом?

— Мы изначально убрали  Tango (отчасти потому, что поначалу не говорили им о деревьях в игре). Мы тренировали ИИ в течение последнего месяца, но из-за ошибок пришлось вернуть предыдущий вариант перед матчем с  OG.

Что касается выбора, то это результат некоторой комбинации: хотя мы и говорим им, что покупать, поначалу мы наблюдаем за тем, как они справляются под действием скриптов (например, чтобы выяснить, в чём они хороши и что им нравится), и сравниваем проценты побед для выяснения лучшего варианта.

prohjort


Первая победа людей в рамках OpenAI Five Arena

— Есть ли преимущество у той или иной стороны во время тренировок бота? Например, в матчах между людьми наблюдается большая разница: Dotabuff

OpenAI побеждает за Свет на 5% чаще.

— Команда тестировщиков выяснила, что поведение бота при игре за Свет и Тьму различается: в приоритизации строений (например, уничтожение Т1 вышки Сил Света при игре за Тьму они считают очень важным) и конфронтации на линиях, что влияет на результативность, а значит, и долю побед. В целом, смена стороны, видимо, влияет не так, как на людей (например, они не подвержены влиянию угла камеры).

ColonelWilly

— Рассматриваете ли вы возможность заменить текущих ботов в «Доте» на одну из версий OpenAI?

— Нужно будет спросить об этом Valve :)

reapr56

— Возможно ли будет в будущем сыграть с OpenAI снова?

— На данный момент у нас нет планов по публичному тестированию OpenAI Five, к сожалению.

— Главная проблема здесь в том, что понимание игры у Five снижается после каждого патча от Valve.

Plebinator6000

— После этих выходных OpenAI уйдет из «Доты»?

— После этих выходных мы закроем компетитив-часть нашего проекта: после победы над  OG осталось не так много, чего можно достичь, продолжая эксперименты в соревновательном направлении.

jstq

— Кстати, мы спрятали небольшое «пасхальное яйцо» на стадии драфта. До сих пор его не нашли, насколько нам известно!

Спойлер: Ответ
— Нашел: https://i.imgur.com/F9d78M8.png (Omni, Pheonix, Ember, Naga, Ancient Apparation, Invoker)

— Да!

FakePsyho

— Насколько велика модель?

— У нее сейчас приблизительно 167 миллионов параметров.

CaroKann_c6

Победа команды  Wagamama в рамках OpenAI Five Arena

— Сколько ресурсов необходимо для запуска OpenAI после того, как тренировка завершится?

— 32-ядерного процессора достаточно для игры с OpenAI Five.

— Уточню: это 32-поточный Intel Skylake с hyper-threading, так что процессора с 16 физическими ядрами вполне достаточно для запуска матча вместе с ботом.

Yamakasinge

— Как вы выбрали героев для тренировок OpenAI?

— Когда мы начали, мы выбрали тех героев, которых считали наиболее легкими для изучения искусственным интеллектом (с дальним типом атаки, простыми способностями и т.д.). Когда увидели прогресс, мы попытались сбалансировать доступный список, добавляя в него юнитов ближнего боя и саппортов-«четвёрок». Дальше мы планировали внедрить весёлых и интересных героев, но ИИ не научился управлять ими на одном уровне с первоначальными.

Первыми двумя после основных были Drow Ranger Drow Ranger и Huskar Huskar. Когда они достигли уровня героев из первоначального списка, мы добавили Pugna Pugna, Pudge Pudge, Venomancer Venomancer, Mirana Mirana и 
Windranger Windranger, чтобы посмотреть, научится ли ИИ новым механикам, недоступным в первоначальном списке. Также мы попробовали тренировки со списком из около 80 героев, исключая способных призывать суммонов и иллюзии.

У Huskar Huskar наблюдались некоторые проблемы. Искусственный интеллект очень хорошо справляется с одной целью, из-за этого на начальных этапах Huskar Huskar проводил очень много времени мёртвым.

TentacularMaelrawn

— Как вы сотрудничаете с Valve?

Valve помогла нам получить «замороженные» версии игры. Из-за того что с выходом каждого патча ИИ нужно заново учиться и на это может уходить большое количество времени, нам было важно получить версию клиента, которая не будет меняться.

j2i2t2u2

— Планируете ли вы попробовать другие игры?

— На данный момент — нет. С «Дотой» всё еще остались нерешённые вопросы, которые мы можем изучить и использовать в нашем исследовании.

Castature

— Как ИИ видит себя, союзных юнитов и строения? Может ли он «увидеть» это всё одновременно, в то время как человек видит лишь часть, ограниченную собственным восприятием?

OpenAI Five использует специальное API, чтобы отслеживать состояние игры. Мы не можем дать ему видеть в тумане войны, но он одновременно видит всех юнитов в том месте, где они находились последний раз. Это значит, что он в курсе событий, происходящих далеко от него.

Однако мы ограничиваем количество юнитов, которое он может видеть во время игры, и сортируем их по расстоянию до соответствующего бота. Это означает, что когда карта переполнена, он видит только ближайших юнитов.

buck614

Слева — как «Доту» видит человек, справа — взгляд искусственного интеллекта

— Увидим ли мы когда-нибудь бота с возможностью играть за любого героя из «Доты»?

— На данный момент мы не планируем увеличивать доступное количество героев, но если в будущем получится повысить эффективность тренировок, можем рассмотреть этот вариант.

Yamakasinge

— Как боты выбирают предметы для покупки и способности для изучения? Если не ошибаюсь, одна из ранних версий OpenAI работала по готовым сборкам для каждого героя, а боты лишь выбирали одну из них. Что-нибудь изменилось?

— Мы до сих пор используем готовые (заскриптованные) сборки. Во время тренировок они подбираются случайным образом, чтобы модель научилась играть против разных сборок.

Мы экспериментировали с внедрением самообучения по выбору предметов для ботов, и даже появились первые результаты. Но, к сожалению, нам не хватило времени перед шоу-матчем и дальнейшим тестированием.

RogueCarpet

— Можно ли решить проблему ИИ с использованием  Smoke/вардов и невидимости с помощью специальных карт? Например, вместо обычной Dota 2 поместить их на карту, где нужно пройти из точки А в точку Б, оставшись незамеченным.

— Да, мы тестировали несколько способов генерирования случайного окружения, чтобы Five научился вести себя в таких ситуациях. Например, мы меняли количество очков здоровья Рошана, чтобы Five легче понимал, когда стоит его убивать.

HPA97

— Почему вы выбрали Dota 2?

— На это есть ряд причин:

  • популярность (и огромные призовые);
  • то, что реакция и микроконтроль — второстепенные навыки;
  • глубина (сложность);
  • доступность на Linux;
  • API.

Все вышеперечисленные пункты одинаково важны.

Сложность даёт нам интересную проблему для решения. Независимость от скорости реакции делает игру более честной в матче между человеком и искусственным интеллектом. Благодаря популярности и размеру призовых люди вложили в игру бесчисленное количество часов, что позволяет нам эффективно тренироваться. Наконец, поддержка Linux и API делает вещи более эффективными с точки зрения затрат.

Xexos1

Читайте также

В комментариях под материалами на сайте действуют все правила портала, с которыми можно ознакомиться на специальной странице — https://dota2.ru/forum/rules/. Помимо этого, в комментариях к новостям существуют дополнительные ограничения:

  • Запрещены прямые и косвенные оскорбления авторов материалов, как и любые комментарии, не относящиеся к сути новости;
  • Указание на ошибки в материале происходит с помощью специального функционала. Комментарии с таким содержанием будут удалены;
  • Критика — это нормально, но выражать ее нужно без злоупотреблений. Ваши слишком грубые комментарии про личностей, представленных в новостях, могут быть удалены.
Аватар пользователя

"реакция и микроконтроль — второстепенные навыки"

очередное доказательство того, что дота на стим контроллере это норма, а не руин :PekaPled:

Аватар пользователя

Я вообще в доту на танцевальном коврике играю.

Аватар пользователя

Тем не менее у ботов нечеловеческая реакция и прыгнуть с блинком чтобы дать агр ты не сможешь, так как они нажмут на тебя инста еул/хекс или прожмут бкб

Аватар пользователя

подсказка с первой парты (читать шёпотом, приложив ладонь ко рту): "агр акса проходит сквозь бкб".

Аватар пользователя

подсказка с задней парты: акс не успеет дать агр, потому что отлетит за хекс/еул. Про бкб я имел в виду не только влет акса, но и других героев инициаторов со станом, тут моя ошибка.

Аватар пользователя

подсказка со второй парты (читать шёпотом, приложив ладонь ко рту): "когда герой находится под агром, его можно убить магией или продлить агр дизейблом, а когда герой находится под агром в бкб, этого сделать нельзя."

Аватар пользователя

Почему вы выбрали Dota 2?
- то, что реакция и микроконтроль — второстепенные навыки

Аватар пользователя

Главная проблема здесь в том, что понимание игры у Five снижается после каждого патча от Valve.:ISSOU::ISSOU::ISSOU:

Аватар пользователя

— Насколько велика модель?

— У нее сейчас приблизительно 167 миллионов параметров.

Просто жесть, не так давно финансисты хвастались что в их модели 300-400 параметров, просто детворой кажутся, а они с миллиардными оборотами работают

Аватар пользователя

Лучше бы сказали, почему бот вайпер по кд плюёт ультом в нейтральных крипов :FeelsRlyMan:

Аватар пользователя

Потому что они не как про команды с егигмой какой нибудь, которые дают блекхол 1 раз за игру(если дают).
Если кд скилла не слишком большой и ты фармишь крипичков - нафига его держать, если можно увеличить эффективность фарма, давая ульт в больших фармя параллельно маленьких. Даже блекхол енигмы можно сразу реализовать на 6 лвле в одного героя и уйти фармить дальше и он откатиться. Нет, все качают 6-ой и ждут до 20 минуты чтобы попытаться дать в пятерых. А вайпера качают ульт и как дауничи бьют онли автоатакой.

Аватар пользователя

Жизажиза.
Если играю на энигме я, то иду в харду, и катаюсь там как сыр в масле - на 6 лвле сразу же иду на самый загнобленный лайн/туда откуда будет исходить бОльшая опасность/туда где намечается большой замес - и без единой секунды размышлений даю бх, пусть даже в 1 важного врага.
Когда мои тиммейты играют на энигме:
1. Онли лес (99% пикеров);
2. Дырку меньше чем в 3 врагов ему дать западло ибо хочет попасть в дотаВТФ;
3. Миднайт пульс не стелит, но это придирка;
4. "Вы слишком глупые что-бы осознавать важность моей ульты" (С)тиммейт - Именно по-этому первый блек хол был на 41 минуте, когда нам пушили т3. Второй (последний за игру) был дан, когда нам снесли 2 лайна - в одного снайпера - продлился он секунды пол

Аватар пользователя

— OpenAI побеждает за Свет на 5% чаще.
То есть за Редиант у него винрейт 104%? :roflanLico:

Аватар пользователя

У тебя вр за свет может быть 51% а за тьму 50%, но это не значит что общий вр равен 101%. Тебе нужно просто вспомнить немного математику.

Аватар пользователя

У OpenAI винрейт над людьми 99%+, не подливься, чел.

Аватар пользователя

Дружок на @JollyRogerTG, тебе нормально обсирать всех вокруг, забыв при этом снять штаны?

Аватар пользователя

Причем тут вообще это? ВР 99% не противоречит выше сказанному. :FeelsClownMan:

Аватар пользователя
Аватар пользователя

На 5% больше против самих себя :weSmart:
Или по твоему они сыграли миллиард матчей против людей?)

Комментарии
Форум