?

Log in

No account? Create an account
Лабораторный журнал -- Day [entries|friends|calendar]
Anatoly Levenchuk

[ website | Лабораторный журнал ]
[ userinfo | livejournal userinfo ]
[ calendar | livejournal calendar ]

Разметка (аннотация) текстов на естественном языке [19 Dec 2010|12:35pm]
Автомагическая разметка текстов (semantic annotation или, если попроще, semantic tagging):

General Arcitecture for Text Engineering -- http://gate.ac.uk/ (GATE).

Unstructured Information Management Applications -- http://uima.apache.org/ (стандарт -- http://docs.oasis-open.org/uima/v1.0/uima-v1.0.html). Много соответствует стандарту, только не входит еще в состав продуктов, а разработано независимо (например, rule-based язык обработки текста TextMarker http://tmwiki.informatik.uni-wuerzburg.de/).

OpenNLP http://incubator.apache.org/opennlp/

GATE, UIMA, OpenNLP могут работать совместно (для этого есть специальный interoperability layer), их часто рассматривают как взаимодополняющие, а не конкурирующие.

Interactive Knowledge Stack -- http://wiki.iks-project.eu (IKS). Всё то же самое, но с прицелом на CMS (content management systems). Интерфейсные инициативы в этой области -- http://semantic-editor.com/, базирующийся на HTML5 встроенном редакторе http://aloha-editor.com/, обратите внимание на этой странице не картинка редактируемого поля, а полноценный редактирууемый текст! А тут вообще что-то страшное: http://aloha-editor.com/demos/css3/, а вот идеи для сайтостроителей с диким редактированием -- http://www.aloha-editor.com/demos/xmas/index.php).

Это самая верхушка айсберга. Вокруг -- огромное количество анализирующих тексты бизнесов, использующих этот софт, а также множество более мелких оригинальных наборов инструментов автоматической разметки.

Ежели говорить о разметке вручную, то ситуация чуть похуже: идея crowdsourcing текстовых аннотаций W3C умерла где-то в 2004 (я туда тыкался еще в 2003г., но без толку: http://ailev.livejournal.com/97319.html). От той поры остались залежи умерших ссылок, хотя та же annozilla вполне жива (http://annozilla.mozdev.org/index.html -- последний релиз в июне 2009 для FireFox 3.5), для этой цели есть разные RDF-сервера аннотаций (например, тестовый W3C сервер http://annotest.w3.org/access).

Во-первых, нужно отметить наличие "онтологии аннотаций" (их несколько, но есть и интеграционный проект): http://code.google.com/p/annotation-ontology/wiki/Homepage.
Поскольку аннотации живут в RDF (по идее, каждому фрагменту тектста присваивается URI -- и далее идет обычная "онтологическая работа"), то к ним прилагаются всякие "смотрелки" типа http://simile.mit.edu/welkin/

Дальше это направление уходит в unified discourse representation approach (http://esw.w3.org/HCLSIG/SWANSIOC), и питается медициной, у которой очень много полнотекстовых документов, полных терминологии и скрытой структуры.

Еще есть лингвистико-семантическое ручное аннотирование, но (по понятным соображениям -- лингвисты менее застандартизованы, чем семантические вебовцы) в крайне различающихся форматах.

Callisto -- http://callisto.mitre.org/ (размечает UTF-8 тексты).

Много непонятных http://sourceforge.net/projects/mmax2/, http://sourceforge.net/projects/gobtan/ и т.д.

Софт для разметки текста для социологов, культурологов и прочих антропологов называется text analysis -- вот свежий списочек восьми программ: http://www.textanalysis.info/transcribe.htm (там не только тексты размечаются, но и аудиозаписи, и видеозаписи). Тут нужно учесть, что речь идет не столько об аннотировании, сколько об "анализе", т.е. разметке с присвоением ключевых слов для последующих подсчетов.

С этим нужно некоторое время поразбираться, ибо софта очень много, но весь какой-то недоделанный. Ярко выраженных лидеров, похоже, нет: разметкой текстов в промышленных масштабах люди занимаются только в виде комментариев в Ворде, остальное -- маргинальные применения в исследованиях, реализация идет за счет множества крошечных грантов самым разным коллективам, в которых это не является основной задачей их работы.
11 comments|post comment

Почему Российских ВУЗов нет в университетских рейтингах [19 Dec 2010|03:25pm]
Хороший анализ дал lern21 по поводу отсутствия российских университетов в мировых рейтингов (сразу замечу: наши ВУЗы таки предоставляют в эти рейтинги информацию, но участие не означает победы -- это отмечалось в комментах к предыдущему постингу http://ailev.livejournal.com/887894.html). Опубликованы результаты Шанхайского рейтинга, и из наших ВУЗов там только МГУ. Фишка в том, что МГУ попал в этот рейтинг только за счет математиков. Вторая фишка в том, что математики сыграли за счет предыдущих поколений, ибо достижения предыдущих поколений идут в зачёт -- и этих достижений хватает, чтобы вытащить и текущий рейтинг естественных наук, и текущий рейтинг МГУ: http://lern21.livejournal.com/343339.html
11 comments|post comment

Апгрейд и ещё апгрейд [19 Dec 2010|10:55pm]
Жена выволокла меня на Савёловский рынок покупать подарок для тёщи, но подходящего тёще подарка там так и не нашла.

Я же буквально во втором ларьке восхитился корпусом, в который по форме был буквально встроен реактивный двигатель с вентилятором-турбиной. И даже выхлоп этой турбины имитировался светодиодами! Ща взлетим! И жена почему-то согласилась, что этот корпус хорош, и постепенно от разговора о корпусе перешли к разговору о коплектующих, а потом было уже поздно заканчивать разговор -- и вот новый компьютер у меня дома. i7-950 3.06Гц, GTX470, 128Gb SSD для быстрой загрузки (с голой операционкой в магазине он грузился 30 секунд) и куча USB 3.0 в разные стороны. Старый компьютер не дотянул пары месяцев до четырех лет эксплуатации (http://ailev.livejournal.com/455058.html).

А пока я час ждал сборки этого компьютера, не удержался и купил TViX-HD Slim S1. Три года у меня стоял TVIX-M 5100SH (http://ailev.livejournal.com/529608.html). В момент покупки он играл всё, что шевелится. За эти три года шевелиться стало много больше, чем его возможности. Теперь у меня будут играться все фильмы, а не только самые зажатые.
17 comments|post comment

navigation
[ viewing | December 19th, 2010 ]
[ go | previous day|next day ]