В статье есть график, почему Support Vector Machines (SVM, http://en.wikipedia.org/wiki/Support_vector_machine) рулит. Эх, где все это было, когда я занимался распознаванием образов в конце семидесятых!
Но основная суть статьи -- использование контент-анализа для определения контекста высказывания. Очень разумная идея. Несколько лет назад я проходил мимо контент-анализа и предположил, что рано или поздно содержательный анализ естественного языка соединят с контент-анализом -- и вот это сделали люди из CYC. Сначала определяют контекст, а затем извлекают знания.
Почему это важно? Ну, как написано в статье, высказывания "Граф Дракула -- вампир" и "Вампиры не существуют" оба являются истинными -- просто нужно учесть разницу в контекстах этих высказываний. И тогда извлеченное из текста истинное высказывание можно добавить в правильно выбранный контекст. Замечательно.
А вот еще одна интересная статья: про текстовые запросы к видеоданным. Суть тут в том, что непонятно, как описывать видеоданные. Скажем, запрос "покажи ужасы войны" -- что автоматически распознавать на картинке, даже если ты умеешь это распознавать?! Вот статья, которая показывает подход к решению такой задачи: http://zero.inf.cs.cmu.edu/alex/mm2006-lscom.pdf. Эта исследовательская дорожка эта, IMHO, ведет к возможности отслеживания "криминального поведения" на базе распознавания отдельных его элементов. Как я понимаю, у CYC силовики по традиции чуть ли не основные заказчики. И пример с запросом видеоновостей про войну в Афганистане -- совершенно не случаен.
Вспомнилось, что сингулярность была обещана через 30 лет, и было это в январе 1983 года. Ждем 2013 года -- уже скоро.