Код креативности. Как искусственный интеллект учится писать, рисовать и думать. Маркус дю Сотой
шестнадцать лет он еще не мог начать учиться в Кембридже, так что ему пришлось отложить поступление на год. Чтобы занять это время, он, завоевав второе место в конкурсе, который проводил журнал Amiga Power, устроился на работу в компанию, разрабатывавшую компьютерные игры. Там он создал свою собственную игру «Тематический парк» (Theme Park), в которой игроки должны были создать собственный тематический парк и управлять его работой. Игра имела огромный успех: она разошлась миллионными тиражами и была удостоена премии «Золотой джойстик» (Golden Joystick). Накопленных денег должно было хватить на время обучения в университете, и Хассабис отправился в Кембридж.
Учебный курс познакомил его с великими деятелями революции искусственного интеллекта – Аланом Тьюрингом и его тестом на разумность, Артуром Сэмюэлом и его программой для игры в шашки, Джоном Маккарти, который и придумал термин «искусственный интеллект», Фрэнком Розенблаттом и его первыми опытами с нейронными сетями. Именно они были теми гигантами, на плечах которых стремился стоять Хассабис. Именно на лекциях в Кембридже он слышал, как его преподаватель повторяет как мантру, что компьютеры никогда не смогут играть в го из-за творческих и интуитивных аспектов этой игры. Это утверждение подействовало на молодого Хассабиса, как красная тряпка на быка. Он покинул Кембридж, преисполненный решимости доказать, что преподаватель ошибался.
Его идея состояла вот в чем: нужно попытаться написать не саму программу, способную играть в го, а некую метапрограмму, которая, в свою очередь, будет писать программу, играющую в го. Идея эта казалась безумной, но суть ее сводилась к тому, что метапрограмма должна быть создана таким образом, чтобы она могла учиться на своих собственных ошибках по мере того, как играющая программа проводит все больше партий.
Хассабис узнал о реализации похожей идеи в 1960-х годах исследователем искусственного интеллекта Дональдом Мики. Мики написал алгоритм под названием MENACE[19], который, начав с нуля, научился оптимальной стратегии игры в крестики-нолики. Название MENACE было акронимом слов Matchbox Educable Noughts And Crosses Engine – «Обучаемое устройство из спичечных коробков для игры в крестики-нолики». Для демонстрации работы своего алгоритма Мики собрал систему из 304 спичечных коробков, представлявших все возможные расположения крестиков и ноликов, встречающиеся в процессе игры. В каждом коробке были разноцветные бусины, представляющие возможные ходы. По окончании каждой партии бусины, соответствующие сделанным ходам, вынимались из коробков в случае проигрыша или добавлялись в них в случае победы. По мере увеличения числа партий, сыгранных алгоритмом, распределение бусин по коробкам все больше соответствовало почти совершенной стратегии игры. Именно эту идею обучения на собственных ошибках Хассабис и хотел использовать для тренировки алгоритма в игре в го.
У Хассабиса была хорошая модель, которую можно было положить в основу такой стратегии. Мозг новорожденного младенца не запрограммирован на преодоление всех препятствий, которые
19
Совпадает со словом