General Arcitecture for Text Engineering -- http://gate.ac.uk/ (GATE).
Unstructured Information Management Applications -- http://uima.apache.org/ (стандарт -- http://docs.oasis-open.org/uima/v1.0/uima-v1.0.html). Много соответствует стандарту, только не входит еще в состав продуктов, а разработано независимо (например, rule-based язык обработки текста TextMarker http://tmwiki.informatik.uni-wuerzburg.de/).
OpenNLP http://incubator.apache.org/opennlp/
GATE, UIMA, OpenNLP могут работать совместно (для этого есть специальный interoperability layer), их часто рассматривают как взаимодополняющие, а не конкурирующие.
Interactive Knowledge Stack -- http://wiki.iks-project.eu (IKS). Всё то же самое, но с прицелом на CMS (content management systems). Интерфейсные инициативы в этой области -- http://semantic-editor.com/, базирующийся на HTML5 встроенном редакторе http://aloha-editor.com/, обратите внимание на этой странице не картинка редактируемого поля, а полноценный редактирууемый текст! А тут вообще что-то страшное: http://aloha-editor.com/demos/css3/, а вот идеи для сайтостроителей с диким редактированием -- http://www.aloha-editor.com/demos/xmas/index.php).
Это самая верхушка айсберга. Вокруг -- огромное количество анализирующих тексты бизнесов, использующих этот софт, а также множество более мелких оригинальных наборов инструментов автоматической разметки.
Ежели говорить о разметке вручную, то ситуация чуть похуже: идея crowdsourcing текстовых аннотаций W3C умерла где-то в 2004 (я туда тыкался еще в 2003г., но без толку: http://ailev.livejournal.com/97319.html). От той поры остались залежи умерших ссылок, хотя та же annozilla вполне жива (http://annozilla.mozdev.org/index.html -- последний релиз в июне 2009 для FireFox 3.5), для этой цели есть разные RDF-сервера аннотаций (например, тестовый W3C сервер http://annotest.w3.org/access).
Во-первых, нужно отметить наличие "онтологии аннотаций" (их несколько, но есть и интеграционный проект): http://code.google.com/p/annotation-ontology/wiki/Homepage.
Поскольку аннотации живут в RDF (по идее, каждому фрагменту тектста присваивается URI -- и далее идет обычная "онтологическая работа"), то к ним прилагаются всякие "смотрелки" типа http://simile.mit.edu/welkin/
Дальше это направление уходит в unified discourse representation approach (http://esw.w3.org/HCLSIG/SWANSIOC), и питается медициной, у которой очень много полнотекстовых документов, полных терминологии и скрытой структуры.
Еще есть лингвистико-семантическое ручное аннотирование, но (по понятным соображениям -- лингвисты менее застандартизованы, чем семантические вебовцы) в крайне различающихся форматах.
Callisto -- http://callisto.mitre.org/ (размечает UTF-8 тексты).
Много непонятных http://sourceforge.net/projects/mmax2/, http://sourceforge.net/projects/gobtan/ и т.д.
Софт для разметки текста для социологов, культурологов и прочих антропологов называется text analysis -- вот свежий списочек восьми программ: http://www.textanalysis.info/transcribe.htm (там не только тексты размечаются, но и аудиозаписи, и видеозаписи). Тут нужно учесть, что речь идет не столько об аннотировании, сколько об "анализе", т.е. разметке с присвоением ключевых слов для последующих подсчетов.
С этим нужно некоторое время поразбираться, ибо софта очень много, но весь какой-то недоделанный. Ярко выраженных лидеров, похоже, нет: разметкой текстов в промышленных масштабах люди занимаются только в виде комментариев в Ворде, остальное -- маргинальные применения в исследованиях, реализация идет за счет множества крошечных грантов самым разным коллективам, в которых это не является основной задачей их работы.