Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Categories:

Разметка (аннотация) текстов на естественном языке

Автомагическая разметка текстов (semantic annotation или, если попроще, semantic tagging):

General Arcitecture for Text Engineering -- http://gate.ac.uk/ (GATE).

Unstructured Information Management Applications -- http://uima.apache.org/ (стандарт -- http://docs.oasis-open.org/uima/v1.0/uima-v1.0.html). Много соответствует стандарту, только не входит еще в состав продуктов, а разработано независимо (например, rule-based язык обработки текста TextMarker http://tmwiki.informatik.uni-wuerzburg.de/).

OpenNLP http://incubator.apache.org/opennlp/

GATE, UIMA, OpenNLP могут работать совместно (для этого есть специальный interoperability layer), их часто рассматривают как взаимодополняющие, а не конкурирующие.

Interactive Knowledge Stack -- http://wiki.iks-project.eu (IKS). Всё то же самое, но с прицелом на CMS (content management systems). Интерфейсные инициативы в этой области -- http://semantic-editor.com/, базирующийся на HTML5 встроенном редакторе http://aloha-editor.com/, обратите внимание на этой странице не картинка редактируемого поля, а полноценный редактирууемый текст! А тут вообще что-то страшное: http://aloha-editor.com/demos/css3/, а вот идеи для сайтостроителей с диким редактированием -- http://www.aloha-editor.com/demos/xmas/index.php).

Это самая верхушка айсберга. Вокруг -- огромное количество анализирующих тексты бизнесов, использующих этот софт, а также множество более мелких оригинальных наборов инструментов автоматической разметки.

Ежели говорить о разметке вручную, то ситуация чуть похуже: идея crowdsourcing текстовых аннотаций W3C умерла где-то в 2004 (я туда тыкался еще в 2003г., но без толку: http://ailev.livejournal.com/97319.html). От той поры остались залежи умерших ссылок, хотя та же annozilla вполне жива (http://annozilla.mozdev.org/index.html -- последний релиз в июне 2009 для FireFox 3.5), для этой цели есть разные RDF-сервера аннотаций (например, тестовый W3C сервер http://annotest.w3.org/access).

Во-первых, нужно отметить наличие "онтологии аннотаций" (их несколько, но есть и интеграционный проект): http://code.google.com/p/annotation-ontology/wiki/Homepage.
Поскольку аннотации живут в RDF (по идее, каждому фрагменту тектста присваивается URI -- и далее идет обычная "онтологическая работа"), то к ним прилагаются всякие "смотрелки" типа http://simile.mit.edu/welkin/

Дальше это направление уходит в unified discourse representation approach (http://esw.w3.org/HCLSIG/SWANSIOC), и питается медициной, у которой очень много полнотекстовых документов, полных терминологии и скрытой структуры.

Еще есть лингвистико-семантическое ручное аннотирование, но (по понятным соображениям -- лингвисты менее застандартизованы, чем семантические вебовцы) в крайне различающихся форматах.

Callisto -- http://callisto.mitre.org/ (размечает UTF-8 тексты).

Много непонятных http://sourceforge.net/projects/mmax2/, http://sourceforge.net/projects/gobtan/ и т.д.

Софт для разметки текста для социологов, культурологов и прочих антропологов называется text analysis -- вот свежий списочек восьми программ: http://www.textanalysis.info/transcribe.htm (там не только тексты размечаются, но и аудиозаписи, и видеозаписи). Тут нужно учесть, что речь идет не столько об аннотировании, сколько об "анализе", т.е. разметке с присвоением ключевых слов для последующих подсчетов.

С этим нужно некоторое время поразбираться, ибо софта очень много, но весь какой-то недоделанный. Ярко выраженных лидеров, похоже, нет: разметкой текстов в промышленных масштабах люди занимаются только в виде комментариев в Ворде, остальное -- маргинальные применения в исследованиях, реализация идет за счет множества крошечных грантов самым разным коллективам, в которых это не является основной задачей их работы.
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 11 comments