Разработчики OpenAI — о вардах, списке героев и проблемах ИИ

Автор: ,

За какую сторону ИИ побеждает чаще? Как именно боты выбирают предметы для покупки? Какого процессора достаточно для запуска готовой версии OpenAI? На эти и другие вопросы ответила команда разработчиков искусственного интеллекта во время сессии ask-me-anything на Reddit, а мы собрали наиболее интересные из них.

— Чем руководствуются боты, когда ставят 4 варда в одном месте или оставляют последнего крипа в лагере в своем лесу?

— У нас есть теория: бот ставит варды, чтобы освободить слоты в инвентаре для более ценных предметов. Так как он самообучаем, мы можем лишь предполагать, почему он решил, что поставить варды — наиболее оптимальное действие в данный момент времени.

— Боты знают, что можно переложить предметы в рюкзак?

— Да, но перекладывание предметов из инвентаря в рюкзак заскриптовано [настроено вручную — прим.].

— Почему? Они не поняли, для чего это нужно, или есть какие-то проблемы, не позволяющие им это использовать?

— Мы провели эксперимент, в ходе которого позволили им этому научиться. Они научились неплохо перекладывать предметы, но пользовались этим навыком не лучше, чем в случае со скриптом, поэтому мы решили убрать его перед матчем с  OG.

— Ради любопытства: почему не оставить их в режиме самообучения? Если в нем они дошли до уровня скрипта, то зачем убирать его?

— Последние несколько недель перед матчем с  OG в модели наблюдались ошибки. Мы подумали, что это из-за новых параметров и действий. В последнюю минуту мы откатили эти изменения и запустили тренировку с предыдущей точки сохранения, но, к сожалению, в ней не было логики перекладывания предметов.

— Логика использования расходников заскриптована, так что бот не выбирает между покупкой вардов и фласок. Когда курьер приносит предмет, который боту не нужен, он его сразу же использует — особенно в том случае, когда слоты его инвентаря заполнены, и он хочет что-нибудь переложить в рюкзак.

Что касается лагерей крипов, не до конца ясно, понимают ли они «правила»: добивание последнего крипа, блокирование спауна. Ещё более непонятно, знают ли они о времени возрождения крипов.

— Значит ли это, что выбор между  Healing Salve и  Tango был сделан вами, а не ботом?

— Мы изначально убрали  Tango (отчасти потому, что поначалу не говорили им о деревьях в игре). Мы тренировали ИИ в течение последнего месяца, но из-за ошибок пришлось вернуть предыдущий вариант перед матчем с  OG.

Что касается выбора, то это результат некоторой комбинации: хотя мы и говорим им, что покупать, поначалу мы наблюдаем за тем, как они справляются под действием скриптов (например, чтобы выяснить, в чём они хороши и что им нравится), и сравниваем проценты побед для выяснения лучшего варианта.

prohjort


Первая победа людей в рамках OpenAI Five Arena

— Есть ли преимущество у той или иной стороны во время тренировок бота? Например, в матчах между людьми наблюдается большая разница: Dotabuff

OpenAI побеждает за Свет на 5% чаще.

— Команда тестировщиков выяснила, что поведение бота при игре за Свет и Тьму различается: в приоритизации строений (например, уничтожение Т1 вышки Сил Света при игре за Тьму они считают очень важным) и конфронтации на линиях, что влияет на результативность, а значит, и долю побед. В целом, смена стороны, видимо, влияет не так, как на людей (например, они не подвержены влиянию угла камеры).

ColonelWilly

— Рассматриваете ли вы возможность заменить текущих ботов в «Доте» на одну из версий OpenAI?

— Нужно будет спросить об этом Valve :)

reapr56

— Возможно ли будет в будущем сыграть с OpenAI снова?

— На данный момент у нас нет планов по публичному тестированию OpenAI Five, к сожалению.

— Главная проблема здесь в том, что понимание игры у Five снижается после каждого патча от Valve.

Plebinator6000

— После этих выходных OpenAI уйдет из «Доты»?

— После этих выходных мы закроем компетитив-часть нашего проекта: после победы над  OG осталось не так много, чего можно достичь, продолжая эксперименты в соревновательном направлении.

jstq

— Кстати, мы спрятали небольшое «пасхальное яйцо» на стадии драфта. До сих пор его не нашли, насколько нам известно!

Спойлер: Ответ
4oCUINCd0LDRiNC10Ls6IDxhIGhyZWY9Imh0dHBzOi8vaS5pbWd1ci5jb20vRjlkNzhNOC5wbmciIHRhcmdldD0iX2JsYW5rIiByZWw9Im5vcmVmZXJyZXIgbm9vcGVuZXIiPmh0dHBzOi8vaS5pbWd1ci5jb20vRjlkNzhNOC5wbmc8L2E+ICg8c3Ryb25nPk88L3N0cm9uZz5tbmksIDxzdHJvbmc+UDwvc3Ryb25nPmhlb25peCwgPHN0cm9uZz5FPC9zdHJvbmc+bWJlciwgPHN0cm9uZz5OPC9zdHJvbmc+YWdhLCA8c3Ryb25nPkE8L3N0cm9uZz5uY2llbnQgQXBwYXJhdGlvbiwgPHN0cm9uZz5JPC9zdHJvbmc+bnZva2VyKSA8cD7igJQg0JTQsCE8L3A+IDxwPjwvcD4gPHA+PC9wPiA8cD48L3A+

FakePsyho

— Насколько велика модель?

— У нее сейчас приблизительно 167 миллионов параметров.

CaroKann_c6

Победа команды  Wagamama в рамках OpenAI Five Arena

— Сколько ресурсов необходимо для запуска OpenAI после того, как тренировка завершится?

— 32-ядерного процессора достаточно для игры с OpenAI Five.

— Уточню: это 32-поточный Intel Skylake с hyper-threading, так что процессора с 16 физическими ядрами вполне достаточно для запуска матча вместе с ботом.

Yamakasinge

— Как вы выбрали героев для тренировок OpenAI?

— Когда мы начали, мы выбрали тех героев, которых считали наиболее легкими для изучения искусственным интеллектом (с дальним типом атаки, простыми способностями и т.д.). Когда увидели прогресс, мы попытались сбалансировать доступный список, добавляя в него юнитов ближнего боя и саппортов-«четвёрок». Дальше мы планировали внедрить весёлых и интересных героев, но ИИ не научился управлять ими на одном уровне с первоначальными.

Первыми двумя после основных были Drow Ranger Drow Ranger и Huskar Huskar. Когда они достигли уровня героев из первоначального списка, мы добавили Pugna Pugna, Pudge Pudge, Venomancer Venomancer, Mirana Mirana и 
Windranger Windranger, чтобы посмотреть, научится ли ИИ новым механикам, недоступным в первоначальном списке. Также мы попробовали тренировки со списком из около 80 героев, исключая способных призывать суммонов и иллюзии.

У Huskar Huskar наблюдались некоторые проблемы. Искусственный интеллект очень хорошо справляется с одной целью, из-за этого на начальных этапах Huskar Huskar проводил очень много времени мёртвым.

TentacularMaelrawn

— Как вы сотрудничаете с Valve?

Valve помогла нам получить «замороженные» версии игры. Из-за того что с выходом каждого патча ИИ нужно заново учиться и на это может уходить большое количество времени, нам было важно получить версию клиента, которая не будет меняться.

j2i2t2u2

— Планируете ли вы попробовать другие игры?

— На данный момент — нет. С «Дотой» всё еще остались нерешённые вопросы, которые мы можем изучить и использовать в нашем исследовании.

Castature

— Как ИИ видит себя, союзных юнитов и строения? Может ли он «увидеть» это всё одновременно, в то время как человек видит лишь часть, ограниченную собственным восприятием?

OpenAI Five использует специальное API, чтобы отслеживать состояние игры. Мы не можем дать ему видеть в тумане войны, но он одновременно видит всех юнитов в том месте, где они находились последний раз. Это значит, что он в курсе событий, происходящих далеко от него.

Однако мы ограничиваем количество юнитов, которое он может видеть во время игры, и сортируем их по расстоянию до соответствующего бота. Это означает, что когда карта переполнена, он видит только ближайших юнитов.

buck614

Слева — как «Доту» видит человек, справа — взгляд искусственного интеллекта

— Увидим ли мы когда-нибудь бота с возможностью играть за любого героя из «Доты»?

— На данный момент мы не планируем увеличивать доступное количество героев, но если в будущем получится повысить эффективность тренировок, можем рассмотреть этот вариант.

Yamakasinge

— Как боты выбирают предметы для покупки и способности для изучения? Если не ошибаюсь, одна из ранних версий OpenAI работала по готовым сборкам для каждого героя, а боты лишь выбирали одну из них. Что-нибудь изменилось?

— Мы до сих пор используем готовые (заскриптованные) сборки. Во время тренировок они подбираются случайным образом, чтобы модель научилась играть против разных сборок.

Мы экспериментировали с внедрением самообучения по выбору предметов для ботов, и даже появились первые результаты. Но, к сожалению, нам не хватило времени перед шоу-матчем и дальнейшим тестированием.

RogueCarpet

— Можно ли решить проблему ИИ с использованием  Smoke/вардов и невидимости с помощью специальных карт? Например, вместо обычной Dota 2 поместить их на карту, где нужно пройти из точки А в точку Б, оставшись незамеченным.

— Да, мы тестировали несколько способов генерирования случайного окружения, чтобы Five научился вести себя в таких ситуациях. Например, мы меняли количество очков здоровья Рошана, чтобы Five легче понимал, когда стоит его убивать.

HPA97

— Почему вы выбрали Dota 2?

— На это есть ряд причин:

  • популярность (и огромные призовые);
  • то, что реакция и микроконтроль — второстепенные навыки;
  • глубина (сложность);
  • доступность на Linux;
  • API.

Все вышеперечисленные пункты одинаково важны.

Сложность даёт нам интересную проблему для решения. Независимость от скорости реакции делает игру более честной в матче между человеком и искусственным интеллектом. Благодаря популярности и размеру призовых люди вложили в игру бесчисленное количество часов, что позволяет нам эффективно тренироваться. Наконец, поддержка Linux и API делает вещи более эффективными с точки зрения затрат.

Xexos1

Другие интересные новости

Комментарии

Правила
На данный момент в комментариях у нас действуют следующие правила: https://dota2.ru/forum/rules/ (срок бана выдаётся на усмотрение модератора).
23 Апр 2019 в 22:31
-5
— OpenAI побеждает за Свет на 5% чаще.
То есть за Редиант у него винрейт 104%?
24 Апр 2019 в 00:09
2
У тебя вр за свет может быть 51% а за тьму 50%, но это не значит что общий вр равен 101%. Тебе нужно просто вспомнить немного математику.
24 Апр 2019 в 00:31
-11
У OpenAI винрейт над людьми 99%+, не подливься, чел.
24 Апр 2019 в 00:32
1
Причем тут вообще это? ВР 99% не противоречит выше сказанному.
24 Апр 2019 в 00:42
-9
Логично
24 Апр 2019 в 00:43
2
То что ты купишь 3 бабочки не означает что у тебя будет 105% уворота.
24 Апр 2019 в 00:38
0
На 5% больше против самих себя
Или по твоему они сыграли миллиард матчей против людей?)
24 Апр 2019 в 00:41
-4
Спасибо, что объяснил
24 Апр 2019 в 15:01
1
Дружок на @JollyRogerTG, тебе нормально обсирать всех вокруг, забыв при этом снять штаны?
24 Апр 2019 в 17:09
-1
Типо тонко пошутил, молодец.
23 Апр 2019 в 23:02
4
Почему вы выбрали Dota 2?
- то, что реакция и микроконтроль — второстепенные навыки
23 Апр 2019 в 23:37
7
"реакция и микроконтроль — второстепенные навыки"

очередное доказательство того, что дота на стим контроллере это норма, а не руин
24 Апр 2019 в 00:49
-1
Тем не менее у ботов нечеловеческая реакция и прыгнуть с блинком чтобы дать агр ты не сможешь, так как они нажмут на тебя инста еул/хекс или прожмут бкб
24 Апр 2019 в 07:52
1
подсказка с первой парты (читать шёпотом, приложив ладонь ко рту): "агр акса проходит сквозь бкб".
24 Апр 2019 в 09:09
-4
подсказка со второй парты (читать шёпотом, приложив ладонь ко рту): "когда герой находится под агром, его можно убить магией или продлить агр дизейблом, а когда герой находится под агром в бкб, этого сделать нельзя."
24 Апр 2019 в 14:54
-1
подсказка с задней парты: акс не успеет дать агр, потому что отлетит за хекс/еул. Про бкб я имел в виду не только влет акса, но и других героев инициаторов со станом, тут моя ошибка.
24 Апр 2019 в 02:16
4
Я вообще в доту на танцевальном коврике играю.
24 Апр 2019 в 13:48
0
https://market.yandex.ru/product--shturval-saitek-pro-yoke-flight-system/1640599?nid=55337&lr=213
тупа 100% винрейт на гиропуктере и тимбере
24 Апр 2019 в 01:22
1
— Насколько велика модель?

— У нее сейчас приблизительно 167 миллионов параметров.

Просто жесть, не так давно финансисты хвастались что в их модели 300-400 параметров, просто детворой кажутся, а они с миллиардными оборотами работают
24 Апр 2019 в 09:44
1
Лучше бы сказали, почему бот вайпер по кд плюёт ультом в нейтральных крипов
24 Апр 2019 в 12:02
2
Потому что они не как про команды с егигмой какой нибудь, которые дают блекхол 1 раз за игру(если дают).
Если кд скилла не слишком большой и ты фармишь крипичков - нафига его держать, если можно увеличить эффективность фарма, давая ульт в больших фармя параллельно маленьких. Даже блекхол енигмы можно сразу реализовать на 6 лвле в одного героя и уйти фармить дальше и он откатиться. Нет, все качают 6-ой и ждут до 20 минуты чтобы попытаться дать в пятерых. А вайпера качают ульт и как дауничи бьют онли автоатакой.
24 Апр 2019 в 16:52
0
Жизажиза.
Если играю на энигме я, то иду в харду, и катаюсь там как сыр в масле - на 6 лвле сразу же иду на самый загнобленный лайн/туда откуда будет исходить бОльшая опасность/туда где намечается большой замес - и без единой секунды размышлений даю бх, пусть даже в 1 важного врага.
Когда мои тиммейты играют на энигме:
1. Онли лес (99% пикеров);
2. Дырку меньше чем в 3 врагов ему дать западло ибо хочет попасть в дотаВТФ;
3. Миднайт пульс не стелит, но это придирка;
4. "Вы слишком глупые что-бы осознавать важность моей ульты" (С)тиммейт - Именно по-этому первый блек хол был на 41 минуте, когда нам пушили т3. Второй (последний за игру) был дан, когда нам снесли 2 лайна - в одного снайпера - продлился он секунды пол
24 Апр 2019 в 12:59
4
Главная проблема здесь в том, что понимание игры у Five снижается после каждого патча от Valve.

Лучшие авторы

За день
Всего мемов: 1
KDA: 154
154
За неделю
Всего мемов: 16
KDA: 34
551
За месяц
Всего мемов: 19
KDA: 59
1121

Мемы

swag.gelO
-1
ADS

Новости

Dota Underlords

Dota Auto Chess

Форум

Матчи

Стримы

Видео