?

Log in

No account? Create an account
Лабораторный журнал -- Day [entries|friends|calendar]
Anatoly Levenchuk

[ website | Лабораторный журнал ]
[ userinfo | livejournal userinfo ]
[ calendar | livejournal calendar ]

Сравнение классификации картинок машиной и человеком: почти паритет [23 Nov 2014|08:04pm]
Вот сентябрьское 2014 сравнение качества классификации произвольных картинок на 1000 категорий: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/. Результат: Our results indicate that a trained human annotator is capable of outperforming the best model (GoogLeNet) by approximately 1.7% (p = 0.022). В абсолютных цифрах это так: качество распознавания автором статьи Andrej Karpathy (который хорошо натренировался на этом наборе данных!) 5.1% ошибок, а натренированная софтинка GoogLeNet на этом наборе данных показала 6.8% ошибок. Как я понимаю, ненатасканного распознавателя изображений софтинка бьёт уже легко.

При таком качестве распознавания неудивительно, что составляемые компьютером текстовые описания так хороши: http://cs.stanford.edu/people/karpathy/deepimagesent/

Для понимания сути задачи можно попробовать пораспознавать самому (внимание! Распознавание включает в себя различение 120 пород собак, и много чего ещё -- поэтому и говорится про необходимость натасканности человека-распознавателя): http://cs.stanford.edu/people/karpathy/ilsvrc/. Если человек не слишком натаскан или не предельно внимателен и аккуратен (ткнёт разок-другой из сотни не туда), то машина бьёт человека уже сегодня -- хотя и не во всех задачах, но при таких скоростях развития технологий уже нет проблемы научить нейронную сетку распознавать изображение для какой-то конкретной задачи с качеством лучше человеческого. Так, лица и китайские иероглифы машина уже распознаёт лучше человека.

На тему deep learning сейчас идёт сплошной поток стартапов. Вот, например, распознавание результатов ультразвукового сканирования человека на предмет аномалий -- вряд ли компьютер будет делать это хуже сельского врача: https://gigaom.com/2014/11/20/deep-learning-might-help-you-get-an-ultrasound-at-walgreens/ (масштаб вложений в этот стартап: $100млн., http://recode.net/2014/11/02/butterfly-network-raises-100-million-to-bring-deep-learning-to-medical-imaging/. Это типовой стартап такого типа, хотя и большой. Вот, например, поменьше -- но про то же самое: http://venturebeat.com/2014/10/28/enlitic-funding/).

Эти все отдельные способности будут потихоньку складываться друг с другом. Так, IBM’s Gordon suggested that speech recognition and computer vision will eventually make their way into Watson’s set of capabilities, too (https://gigaom.com/2014/10/29/it-doesnt-matter-if-deep-learning-mimics-the-brain-or-watson-is-cognitive-it-matters-if-they-work/). Тут нужно особо заметить, что отклассифицировать картинку и порассуждать по поводу картинки или сопоставить происходящее на разных картинках машина пока не может, но процесс и тут потихоньку идёт (хотя и с меньшим успехом на фоне крышесносящих успехов алгоритмов классификации). Но рок-н-ролл живёт где-то тут, а не в "интернет-бизнесах" или автомобилестроении (понятно, что автопилот в автомобиле без водителя это продукт совсем другой отрасли).
10 comments|post comment

SysMoLan: что происходит [23 Nov 2014|10:09pm]
Новости SysMoLan (последний раз я писал об этом три недели назад: http://ailev.livejournal.com/1145024.html, про сам SysMoLan читать тут: http://ailev.livejournal.com/1127145.html).

Было два пути: либо иметь абстрактный синтаксис функционального языка на базе паттерна данных и сбоку прикрутить какую-нибудь формальную семантику (вначале шли по этому пути), либо взять сразу какой-то формальный аппарат и сбоку прикрутить к языку то, что в этот аппарат не уложится. Сейчас взяли теорию категорий и пошли по этому второму пути: прорабатывается вариант посадки языка непосредственно на аппарат теории категорий -- чтобы обеспечить аспектное моделирование с трассировкой зависимостей. Идея в том, что при veiw/aspects weaving моделей/программ нужно автомагически (а не вручную) запоминать информацию, откуда что пришло -- ибо без этого невозможно сделать отладку моделей/программ. Аппарат теории категорий вполне позволяет это делать.

Какая-то дискуссия по поводу теории категорий в связке её с системной инженерией прошла в оффлайне, а в онлайне как минимум тут: http://ailev.livejournal.com/1148591.html, а сама тематика была анонсирована тут: http://ailev.livejournal.com/1147915.html. Это вполне себе тема, вот попытки её обсуждения на Западе: http://wattsys.com/publications/, http://www.cs.utexas.edu/ftp/predator/BatoryMODELS08Keynote.pdf, http://people.cis.ksu.edu/~sdeloach/publications/TechReports/MACR-TR-2010-01.pdf и даже более радикальный проект
http://schematheory.net/, регулярно докладывающийся в INCOSE.

Ещё вспомнили про работы, помогающие определять конкретный синтаксис -- я когда-то написал текст с кучей ссылок про диаграммы как средство выражения топологии предметной области: http://ailev.livejournal.com/1069810.html. Это, конечно, не отменяет размышлений и про создание текстового варианта языка.

К этой работе подключаются потихоньку самые разные люди, что чрезвычайно приятно.
post comment

navigation
[ viewing | November 23rd, 2014 ]
[ go | previous day|next day ]