Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Глубокая попса и её эффективность

Лето искуственного интеллекта, лето 2015 года. Компьютеры достигают самых разных высот человеческого духа почти каждый день, недостатка в новостях нет. А всё началось примерно в 2011 году, когда спецы по искусственному интеллекту занялись попсой. Победа IBM Watson в Jeopardy! была как раз в 2011 году (https://en.wikipedia.org/wiki/Watson_%28computer%29) и все поняли, что "лёд тронулся", зима искусственного интеллекта заканчивается. Большие команды смогли получить финансирование. В этом же 2011 году была поставлена задача роботу поступить в университет Токио (http://21robot.org/), а весной 2014 уже results indicated that the robot has an 80 percent or higher probability of passing exams for 404 universities across the country (http://www.japantimes.co.jp/news/2014/03/04/national/robots-challenged-to-pass-todai-examination/).

Но эти "большие проекты" оказались не самым большим событием 2011 года. Самым большим событием оказалось то, что в октябре 2011 года Andrew Ng вытащил свой стендфордский курс по машинному обучению в сеть и первый же набор составил сто тысяч человек (Курсера была организована в 2012 году как раз на основе этого опыта -- https://en.wikipedia.org/wiki/Andrew_Ng). Все эти люди попали на учебно-соревновательную площадку http://kaggle.com (образована как раз в апреле 2010года и в 2011 году получила $11млн. венчурного финансирования -- https://en.wikipedia.org/wiki/Kaggle) -- и понеслось, искусственный интеллект стал народным, и после кратенькой весны наступило лето. Я сам плотно разбираться с этими технологиями стал в 2012 и тогда же отметил, что пузырь искусственного интеллекта уже надувается (пункт 3 в http://ailev.livejournal.com/1051479.html).

Сегодня искусственный интеллект (слабый, меня AGI слабо интересует, pun intended) стал попсовым как в части его разработчиков (сотни тысяч человек) так и в части потенциальной аудитории, которую эти разработки могут заинтересовать. Искусственный интеллект стал дешёвым, и data scientists (как они себя стали называть) шутят. То на полмира шумят про прохождение компьютером теста Тьюринга, который держался 64 года, то начинают генерировать Шекспира побуквенно (про галлюцинации нейронных сеток -- http://ailev.livejournal.com/1191576.html), то заставляют компьютер сочинять рэп с поэтическим качеством не хуже человечьего сочинительства (http://www.technologyreview.com/view/537716/machine-learning-algorithm-mines-rap-lyrics-then-writes-its-own/). Тёплый ламповый рэп, сочиняющийся алгоритмом DeepBeat, который встал на плечи гигантов -- он честно учился на примере более 10тыс. песен более ста рэпперов, он продолжатель традиции! А традиция сложна, DeepBeat outperforms the top human rappers by 21% in terms of length and frequency of the rhymes in the produced lyrics. Суть реп-поэзии (там очень хитрые ритмы и нетрадиционные рифмы) компьютер понял, разве что историй этот алгоритм пока не рассказывает, но это только пока.

Ещё из событий последних дней -- это воспроизведение компьютером функции художественной критики (http://www.technologyreview.com/view/538281/machine-vision-algorithm-chooses-the-most-creative-paintings-in-history/). Компьютеру предъявили базу данных из 62тыс. картин разных лет и попросили указать наиболее творческие (creative). Как метрику творческости попросили использовать те картины, которые задавали какой-то основывающийся на них стиль рисования в будущем. И что? Компьютер, который уже имеет глазки, выявил такие картины -- и они совпали с теми, что указывают художественные критики. Вот, полюбуйтесь (вертикальная шкала как раз творческость -- картины с изобразительными новинками, которые лягут в основу других картин в будущем):

Several famous pictures stand out as being particularly novel and influential, such as Goya’s Christ crucified, Monet’s Haystacks at Chailly at sunrise and Munch’s The Scream. Other works of art stand out because they are not deemed creative, such as Rodin’s 1889 sculpture Danaid and Durer’s charcoal drawing of Barbara Durer dating from 1514. Фишка в том, что всё это было найдено автомагически, без участия человека. Авторы работы Elgammal and Saleh point out that it can also be used to explore creativity in literature, sculpture, and even in science.

Про кулинарную книгу Chef Watson я и не говорю, уникальные рецепты от компьютера не бог весть какое дело, но тоже ведь выход в попсу. Вот свеженькая дегустация http://www.engadget.com/2015/06/12/cooking-with-watson-caymanian-plantain-dessert/

На фоне этих достижений превосхождение компьютером людей в IQ тесте кажется чем-то незначительным (http://www.technologyreview.com/view/538431/deep-learning-machine-beats-humans-in-iq-test/). После победы в Jeopardy! и поступления в японские колледжи это ни разу не достижение, просто этим никто не занимался. Попсой раньше пренебрегали, IQ тест это ярковыраженная попса, сейчас до попсы дошли руки.

Нет, не всё ещё ОК -- так, подписи к картинкам компьютер ещё сочиняет плохо, лучший результат пока у компьютера только 27.3% подписей таких же или лучше человеческих, 31% подписей проходящих тест Тьюринга (http://mscoco.org/dataset/#leaderboard-cap). Но если моего отрока посадить делать подписи к 300тыс. самых разных картинок, вряд ли он сумеет лучше. Так что смело можно считать, что подростковых результатов компьютеры в распознавании изображений уже добились.

В глубоких архитектурах много чего нового: так, совсем недавно придумали как свёрточные сети выразить через рекуррентные (http://arxiv.org/abs/1505.00393). Хитростей в обучении-порождении и вариаций глубоких архитектур уже бездна. В отличие от 2011 года в эту предметную область уже за пару-тройку месяцев не войдёшь, несмотря на изобилие открытых библиотек, реализующих самые разные архитектуры на самых разных языках программирования (например, на моём любимом языке Julia библиотека для deep learning тут: https://github.com/pluskid/Mocha.jl).

Одно из радикальных направлений -- это дискретные вычисления на недискретных архитектурах. В 1995 году было доказано, что на глубоких статистических архитектурах можно решать дискретные проблемы (они эквивалентны машине Тьюринга, http://binds.cs.umass.edu/papers/1995_Siegelmann_Science.pdf). С тех пор решение дискретных проблем недискретыми методами довольно продвинулось. Выдвигаются новые виды архитектур, одни из последних -- нейронные машины Тьюринга, Reinforcement Learning Neural Turing Machines, http://arxiv.org/abs/1505.00521 (выражает вычислительные шаги лучше, чем глубогие нейронные сети), "указательные сети", pointer networks: http://arxiv.org/abs/1506.03134, и много-много других похожих, уже не-нейронных архитектур. Гуд бай, монополия фон-неймановских и гарвардских архитектур!

Вообще, гибридные вычисления, точное моделирование против "научения исключительно на примерах" стоят в эпицентре. Вот тут провозглашается, что "Святой Грааль deep learning -- это научиться эффективно обрабатывать инварианты, типа повороты в изображениях": http://www.inference.vc/the-holy-gr/, ход на "точные вычисления". А вот тут просто изображения для тренировки сетки дополнительно поворачиваются, чтобы учесть эти инварианты -- действие, явно антиэффективное (но результативное): http://benanne.github.io/2015/03/17/plankton.html (тут классифицировали планктон по его изображению). Я верю, что одновременно будут развиваться оба подхода: и "мозг должен что-то уметь с самого начала, эффективно работать с инвариантами", и "мозг ничего не знает о мире, дайте ему достаточно времени, и он всему научится сам".

Всё в сегодняшнем машинном обучении и сопутствующем машинном сочинении кипит, просто кембрийский взрыв идей, приложений, результатов -- лето в разгаре, цветущая сложность, расцветают сто цветов (включая девяносто девять сорняков, но ведь красиво же!).

Нейроморфные архитектуры тем самым становятся из перспективных-для-учёных попсово-перспективными. GPU признаются как временное дешёвое неудобное малоэффективное решение, начинаются эксперименты с FPGA (http://cadlab.cs.ucla.edu/~cong/slides/fpga2015_chen.pdf) и появляются первые ориентиры для достигаемой плотности вычислений (гигаопераций в секунду на FPGA slice -- рекорд сейчас вполне сравним с достигаемым на GPU ускорением, примерно в 17 раз). Как только эти ориентиры будут сформированы, произойдёт что-то типа "гонки гигагерц" и "гонки мегапикселей". С этим направлением сильно пересекается понимание, что глубокие архитектуры не требуют большой разрядности (работ на эту тему пока мало, но они уже появляются: http://petewarden.com/2015/05/23/why-are-eight-bits-enough-for-deep-neural-networks/).

Главное, это не допускать никаких дискуссий по AGI тематике, никакого "сильного искусственного интеллекта". Уже грустно шутят, что "недавно люди печалились, что в области AI ничего не происходит, а сейчас печалятся, что происходит слишком много". Выход в попсу как кормит, так и убивает на корню.

В любом случае, я бы глубоко приветствовал попсовые приложения -- занятия искусственным интеллектом должны стать народными. Когда-то Женя Самойлович мне объяснял, что никакие силы не заставят людей учить иностранный язык, чтобы читать на нём научную литературу. А вот чтобы прочесть в подлиннике Достоевского или даже Гомера -- таких людей может найтись неожиданно много. Поэтому если хочется, чтобы твой язык учили, заимей пишущих на нём великих писателей -- обратись к народу с художественным словом. Так и в случае задач искусственного интеллекта нужно обратиться к народу с художественным, а не научным словом. Пусть машина расскажет лучший в мире рэп, даст лучшую в мире литературную критику, и тогда много-много людей заинтересуются языком, на котором это всё написано: им захочется познакомиться с глубокими архитектурами и выучить Python, Lua, Julia.
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 5 comments