Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Управление корпоративными глоссариями, тезаурусами, терминологией

1. В чём проблема с терминологией
Проблема проста: в больших организациях разные люди используют разные слова для обозначения одних и тех же вещей, а также одни и те же слова для обозначения разных вещей. Это ведёт к ошибкам. Отдельный сценарий -- это использование каких-то хитрых сокращений, без знания которых тексты вообще невозможно понять. Ещё один сценарий: заграничные клиенты удивляются, когда разные страницы документации (переведённые разными переводчиками) содержат самую разую терминологию. И ещё один сценарий: используемая в документах надзорных органов, в САПР/PLM, в текстовых документах проекта (например, технических заданиях) терминология отличается, и поэтому нельзя проверить эти документы на соответствие друг другу -- как проект-в-САПР/PLM соответствует ТЗ и регулятивам. А вот ещё: документация на оборудование пришла из другой отрасли, там свои терминологические стандарты, и поэтому ещё нужно договориться, какие термины использовать в проектной документации. И таких сценариев -- множество.

2. Как "управлять терминологией"
Как всегда в случае "управления чем-то" (something management), управление тезаурусами (thesaurus management -- обратите внимание, что по-русски обычно тут единственное число переходит во множественное) или управление словарями предприятия (управление корпоративными словарями, enterprise vocabulary managment -- я бы это назвал в терминологии praxos управлением словарями предпринятия, хотя речь тут может быть и о масштабах отрасли -- что больше масштаба предпринятия, но вполне осмысленно для какой-то отраслевой ассоциации или сверхкрупного холдинга), терминологией (terminology management) означает не столько все творческие/инженерные усилия по созданию и употреблению тезаурусов и словарей (тогда бы это были инженерия тезаурусов и инженерия словарей), сколько менеджерскую/логистическую практику по обеспечению управления конфигурацией (нарезку тезауруса или словаря на конфигурационные единицы, постановку под управление конфигурацией и отслеживание изменений конфигурации) и их логистику (последующую доставку по запросу этих конфигурационных единиц словаря или тезауруса в места использования и/или обработки). [Используйте предыдущее предложение, чтобы испытать ваш парсер].

Грубо говоря, "управление тезаурусом и корпоративными словарями" означает по факту установку и эксплуатацию программ по вводу и хранению слов, определений, связей, списков слов и т.д., но никак не включает содержательной (лингвистической) работы. В этом "управлении тезаурусами/словарями" речь идёт о PLM системах для лингвистов, а не САПР для них -- хотя в жизни это всё может быть круто перемешано, как было перемешано в предметной области САПР до выделения из неё концепции PLM. Плывёт и сам концепт, чем именно "управлять" (т.е. управление конфигурацией чего, и логистику чего нужно обеспечивать). Вот, например, типичный пример (буквально второй вопрос в интервью http://poolparty.biz/open-w3c-standards-like-skos-provide-a-great-chance-to-combine-corporate-information-with-internet-based-resources/):
We face very different interpretations of terms like Thesaurus, Ontology, Glossary, Abbreviation list and many more. Thus we decided to talk about a “Glossary for Roche” only and it contains a mixture of data sources. But the technical solution is to manage this variety of data with just one tool for Thesaurus-Management. We start with abbreviation lists and glossaries including many synonyms and will push it into a true Thesaurus in the very near future.
Так что сразу посоветуем педантам не зацикливаться на какой-то "истинной терминологии", а сразу обсуждать суть дела, скрывающуюся за терминами. Конечно, мне самому ближе подход онтологов, которые выделяют линейку словарей (списков слов), глоссариев (список слов с определениями), таксономий (глоссарий, в котором присутствует иерархический классификатор), тезаурусов (таксономия, плюс не слишком большое число отношений, кроме специализации/классификации) и онтологий (богатое множество отношений между понятиями -- например, часть-целое, единицы измерения и т.д.). Поскольку у нас онтологов нетути, то всю эту линейку менеджеры любят называть "справочниками" и "глоссариями", а лингвисты -- "тезаурусами". Так что лингвист напишет ТЗ для "системы управления тезаурусами", а менеджер с большим удовольствием подпишет ТЗ по созданию "системы управления глоссариями", айтишник же с удовольствием займётся "системой управления словарями" (даже не заморачиваясь разницей между vocabulary и dictionary). Мы же будем понимать, что всё это по факту может оказаться одним и тем же.

Конечно, есть и множество других слов, описывающих всё то же самое. Например, "корпоративные словарные сервисы" для "контролируемой терминологии" (https://wiki.nci.nih.gov/display/COREtraining/1030+Introduction+to+Enterprise+Vocabulary+Services+%28EVS%29), при описании которых видим в том числе и тезаурусы, и онтологии, и много чего ещё...

3. Стандарты представления терминологической информации
Стандарты представления словарей/тезаурусов/онтологий, тем не менее, существенно различаются и их поддержка поэтому требует существенно различных реализаций.

Самый простой (намеренно простой, он слово "простой" содержит в своём названии) и распространённый стандарт -- трехлетней давности SKOS, Simple Knowledge Organization System (http://www.w3.org/2004/02/skos/, утверждён в августе 2009г.). Он был разработан как раз с учётом терминологической неразберихи со словарями-таксономиями-тезаурусами, а также попытками приплести сюда и онтологии (http://www.w3.org/TR/skos-reference/):
In the library and information sciences, a long and distinguished heritage is devoted to developing tools for organizing large collections of objects such as books or museum artifacts. These tools are known generally as "knowledge organization systems" (KOS) or sometimes as "controlled structured vocabularies". Several similar yet distinct traditions have emerged over time, each supported by a community of practice and set of agreed standards. Different families of knowledge organization systems, including thesauri, classification schemes, subject heading systems, and taxonomies are widely recognized and applied in both modern and traditional information systems. In practice it can be hard to draw an absolute distinction between thesauri and classification schemes or taxonomies, although some properties can be used to broadly characterize these different families (see e.g., [BS8723-3]). The important point for SKOS is that, in addition to their unique features, each of these families shares much in common, and can often be used in similar ways [SKOS-UCR]. However, there is currently no widely deployed standard for representing these knowledge organization systems as data and exchanging them between computer systems. [и далее говорится, что SKOS как раз и будет таким стандартом]
Другим крайним случаем является "непростой" стандарт представления 4D онтологий ISO 15926 (оцените сложность: http://dot15926.livejournal.com/27293.html), авторы которого всё время подчёркивают его изначальную направленность на создание словарей (vocabulary), и часть 4 которого называется "таксономия". Есть и промежуточный по сложности стандарт OMG SBVR, Semantics of Business Vocabulary and Business Rules (http://en.wikipedia.org/wiki/Semantics_of_Business_Vocabulary_and_Business_Rules), в котором 90% посвящено как раз словарям/онтологиям, и только 10% нормам деятельности -- ибо эти нормы формулируются как раз с использованием чётко определенных словарём/онтологией значений. Чуть-чуть сравнения ISO 15926, SKOS и SBVR можно найти в комментах тут: http://levenchuk.com/2009/11/27/vocabularies-in-iso-15926-we-can-use-sbvr/ (ох, как мало три года назад мы ещё понимали в этих семантических паутинах, да и самом ISO 15926...).

Конечно, есть ещё огромное число специфически терминологических международных, национальных и отраслевых стандартов представления глоссариев/словарей, но они по сравнению с упомянутыми ISO 15926, SKOS и SBVR имеют уже больше историческое и надзорное (помянуты в каких-то отраслевых регулятивах) значение, нежели интересны для практических нужд. Все эти допотопные стандарты были сделаны до середины 90-х, когда ещё не было интернета, и важность наличия URI для термина никто ещё не понимал.

4. Какой есть софт для терминологической работы
Софта, как водится, море разливанное -- но, как и в случае любых PLM и САПР, каждая из софтин управления терминологией предполагает связку с вполне определёнными программами лингвистической работы.

Одним из лидеров, например, является PoolParty Thesaurus Manager (http://poolparty.biz/products/poolparty-thesaurus-manager/), который идёт в связке с другими лингвистическими программами. Эта программа хвастается поддержкой SKOS и тесной интеграцией с другими продуктами серии PoolParty. Вышедшая в июне 2012 версия 3.1 (http://poolparty.biz/poolparty-thesaurus-manager-ppt-3-1-0-released/) интегрирована с dbpedia (http://dbpedia.org -- структурированная информация, вытянутая из Википедии), а также поддерживает новенький европейский стандарт метаданных "семантических активов "ADMS (Asset Description Metadata Schema, http://joinup.ec.europa.eu/asset/adms/home). Как и любые PLM, обеспечивающие жизненный цикл терминологии системы вынуждены понимать огромное количество форматов данных вокруг себя, это больше интеграционные решения вокруг системы управления конфигурацией и изменениями.

Чтобы оценить, насколько системы "ручного ведения терминологии" отличаются от автоматизированных (где терминология "экстрагируется" из какого-то корпуса текстов), можно рассмотреть DBpedia -- это база знаний, в которой описано сейчас 3.77 миллиона вещей, из которых 2.35млн. представлено в виде более-менее организованной онтологии. Информация в DBpedia попадает из Википедии через софт "экстрактора" (http://wiki.dbpedia.org/Documentation), а затем раздаётся в разных форматах (http://wiki.dbpedia.org/Architecture?v=14cg). Конечно, есть аналогичные коммерческие решения, типа связки вики Сonfluence и PoolParty PowerTagging (http://poolparty.biz/products/poolparty-powertagging/), причём найденная структурированная терминологическая информация не просто становится доступной "сбоку", но сразу может быть использована для семантического поиска (учёт синонимов), или для обогащения контента (автоматическая простановка тегов). В принципе, можно пробовать завести "корпоративную википедию" и вести её по правилам Википедии, а затем экстрагировать из неё онтологию/тезаурус так же, как это делают в Dbpedia -- но нужно понимать всю громоздкость такого решения.

Вот ещё один знаменитый игрок на рынке корпоративных терминологий: TopBraid Enterprise Vocabulary Net (TopBraid EVN, http://www.topquadrant.com/solutions/ent_vocab_net.html). В отличие от PoolParty упор тут делается не просто на поддержку SKOS, а полномасштабную интеграцию разных глоссариев с разными "входными" моделями данных. Внутри, понятное дело, "родной семантический веб".

Если отойти от внутреннего представления, особо близкого к SKOS, и требовать только "экспорта в SKOS" (SKOS Outside), то тут же появляются разные другие мощные игроки -- вот, например, коммерческий http://www.mondeca.com/Products/ITM/ITM-feature-summary, опенсорный http://www.vocabularyserver.com/ (огромное количество фич, даром что опенсорсный -- pun intended), http://www.dataharmony.com/products/thesaurus_master.html (если кому особо нужна поддержка старинных стандартов работы с тезаурусами -- monoligual ISO 2788, multilingual ISO 5964, а также NISO Z39.19), http://www.semafora-systems.com/en/solutions/semanticxpress/, http://interverbumtech.com/Products/TermWeb.aspx и огромное количество других "веб" и "настольных" приложений, которые легко находятся Гуглём...

Есть и крайний вариант -- наваять что-то своё из какой-нибудь онтологической вики типа http://ontowiki.net или http://www.semantic-mediawiki.org/ (например, так как в LexWiki Distributed Terminology Development Platform -- http://informatics.mayo.edu/vkcdemo/lexwiki1/index.php/Main_Page), или http://www.smwplus.net/index.php/Benefits/terminologists.

Ну, и есть онлайн решения: можно просто купить за десять долларов в месяц (http://www.termwiki.com/About_TermWiki_Pro -- это платный вариант для http://www.termwiki.com), или http://www.termbases.eu/page/view/pricing/, или новенький (с подпиской на бета-версию) http://www.nomigy.ca/en.
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 17 comments