Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Categories:

Сравнение классификации картинок машиной и человеком: почти паритет

Вот сентябрьское 2014 сравнение качества классификации произвольных картинок на 1000 категорий: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/. Результат: Our results indicate that a trained human annotator is capable of outperforming the best model (GoogLeNet) by approximately 1.7% (p = 0.022). В абсолютных цифрах это так: качество распознавания автором статьи Andrej Karpathy (который хорошо натренировался на этом наборе данных!) 5.1% ошибок, а натренированная софтинка GoogLeNet на этом наборе данных показала 6.8% ошибок. Как я понимаю, ненатасканного распознавателя изображений софтинка бьёт уже легко.

При таком качестве распознавания неудивительно, что составляемые компьютером текстовые описания так хороши: http://cs.stanford.edu/people/karpathy/deepimagesent/

Для понимания сути задачи можно попробовать пораспознавать самому (внимание! Распознавание включает в себя различение 120 пород собак, и много чего ещё -- поэтому и говорится про необходимость натасканности человека-распознавателя): http://cs.stanford.edu/people/karpathy/ilsvrc/. Если человек не слишком натаскан или не предельно внимателен и аккуратен (ткнёт разок-другой из сотни не туда), то машина бьёт человека уже сегодня -- хотя и не во всех задачах, но при таких скоростях развития технологий уже нет проблемы научить нейронную сетку распознавать изображение для какой-то конкретной задачи с качеством лучше человеческого. Так, лица и китайские иероглифы машина уже распознаёт лучше человека.

На тему deep learning сейчас идёт сплошной поток стартапов. Вот, например, распознавание результатов ультразвукового сканирования человека на предмет аномалий -- вряд ли компьютер будет делать это хуже сельского врача: https://gigaom.com/2014/11/20/deep-learning-might-help-you-get-an-ultrasound-at-walgreens/ (масштаб вложений в этот стартап: $100млн., http://recode.net/2014/11/02/butterfly-network-raises-100-million-to-bring-deep-learning-to-medical-imaging/. Это типовой стартап такого типа, хотя и большой. Вот, например, поменьше -- но про то же самое: http://venturebeat.com/2014/10/28/enlitic-funding/).

Эти все отдельные способности будут потихоньку складываться друг с другом. Так, IBM’s Gordon suggested that speech recognition and computer vision will eventually make their way into Watson’s set of capabilities, too (https://gigaom.com/2014/10/29/it-doesnt-matter-if-deep-learning-mimics-the-brain-or-watson-is-cognitive-it-matters-if-they-work/). Тут нужно особо заметить, что отклассифицировать картинку и порассуждать по поводу картинки или сопоставить происходящее на разных картинках машина пока не может, но процесс и тут потихоньку идёт (хотя и с меньшим успехом на фоне крышесносящих успехов алгоритмов классификации). Но рок-н-ролл живёт где-то тут, а не в "интернет-бизнесах" или автомобилестроении (понятно, что автопилот в автомобиле без водителя это продукт совсем другой отрасли).
Subscribe

  • lytdybr

    В курсе "Системная инженерия" опубликована очередная версия, в которой переписан раздел "6. Эволюционное проектирование", в котором рассказывается о…

  • Эскиз клубного AI-проекта

    Эскиз клуба создателей на базе продвинутых AI-агентов Когда-то в 2011 году я выступил с эскизом образовательного проекта,…

  • Для каких задач я жду "приличной RAG"

    Регулярно спрашивают, почему я сам работаю с LLM, но в наших курсах на Aisystant выставлена какая-то рудиментарная RAG реализация -- и я явно не…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 10 comments

  • lytdybr

    В курсе "Системная инженерия" опубликована очередная версия, в которой переписан раздел "6. Эволюционное проектирование", в котором рассказывается о…

  • Эскиз клубного AI-проекта

    Эскиз клуба создателей на базе продвинутых AI-агентов Когда-то в 2011 году я выступил с эскизом образовательного проекта,…

  • Для каких задач я жду "приличной RAG"

    Регулярно спрашивают, почему я сам работаю с LLM, но в наших курсах на Aisystant выставлена какая-то рудиментарная RAG реализация -- и я явно не…