При таком качестве распознавания неудивительно, что составляемые компьютером текстовые описания так хороши: http://cs.stanford.edu/people/karpathy/deepimagesent/
Для понимания сути задачи можно попробовать пораспознавать самому (внимание! Распознавание включает в себя различение 120 пород собак, и много чего ещё -- поэтому и говорится про необходимость натасканности человека-распознавателя): http://cs.stanford.edu/people/karpathy/ilsvrc/. Если человек не слишком натаскан или не предельно внимателен и аккуратен (ткнёт разок-другой из сотни не туда), то машина бьёт человека уже сегодня -- хотя и не во всех задачах, но при таких скоростях развития технологий уже нет проблемы научить нейронную сетку распознавать изображение для какой-то конкретной задачи с качеством лучше человеческого. Так, лица и китайские иероглифы машина уже распознаёт лучше человека.
На тему deep learning сейчас идёт сплошной поток стартапов. Вот, например, распознавание результатов ультразвукового сканирования человека на предмет аномалий -- вряд ли компьютер будет делать это хуже сельского врача: https://gigaom.com/2014/11/20/deep-learning-might-help-you-get-an-ultrasound-at-walgreens/ (масштаб вложений в этот стартап: $100млн., http://recode.net/2014/11/02/butterfly-network-raises-100-million-to-bring-deep-learning-to-medical-imaging/. Это типовой стартап такого типа, хотя и большой. Вот, например, поменьше -- но про то же самое: http://venturebeat.com/2014/10/28/enlitic-funding/).
Эти все отдельные способности будут потихоньку складываться друг с другом. Так, IBM’s Gordon suggested that speech recognition and computer vision will eventually make their way into Watson’s set of capabilities, too (https://gigaom.com/2014/10/29/it-doesnt-matter-if-deep-learning-mimics-the-brain-or-watson-is-cognitive-it-matters-if-they-work/). Тут нужно особо заметить, что отклассифицировать картинку и порассуждать по поводу картинки или сопоставить происходящее на разных картинках машина пока не может, но процесс и тут потихоньку идёт (хотя и с меньшим успехом на фоне крышесносящих успехов алгоритмов классификации). Но рок-н-ролл живёт где-то тут, а не в "интернет-бизнесах" или автомобилестроении (понятно, что автопилот в автомобиле без водителя это продукт совсем другой отрасли).