Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Сто цветов семантических технологий

За последний десяток лет причитаний о Веб 3.0 (Semantic Web) появилось довольно много платных и бесплатных (как правило, разработанных на щедрые деньги европейских налогоплательщиков) программных продуктов. "Семантические технологии", которые я определяю как "те, у которых возможно загрузить схему на OWL", вполне себе существуют (от баз данных они уже ушли, хотя и очень недалеко, ср. http://ailev.livejournal.com/823819.html) -- осталось только их использовать в промышленности. Но перед использованием их неплохо бы выбрать, а для этого хотя бы недельку поразбираться с этими продуктами. Плохо только, что этой недельки у меня как раз и нету -- но вечерок я потратил.

AllegroGraph пропущу, ибо я о нем уже писал (например, в декабре 2009г. -- http://ailev.livejournal.com/778086.html).

OpenAnzo (http://www.openanzo.org/projects/openanzo/wiki) -- quad store (над реляционной базой данных) и middle-ware с версионированием, модуляризацией именованных графов, контролем доступа, уведомлениям в реальном времени, распределенными клиентами и сервисами, а также транзакциями с предусловиями, полнотекстовый поиск для текстовых литералов и т.д. Текущая версия 3.1 в непонятном состоянии, и еще непонятно, как она соотносится с платным Anzo Data Collaboration Server (http://www.cambridgesemantics.com/products/anzo_data_collaboration_server). В том числе платный Anzo enables data that has been isolated in individual Excel spreadsheets to be accessed, shared and managed. It "turns Excel into an application builder" -- http://www.cambridgesemantics.com/semanticexchange/.

ORDI -- ontology representation and data intergration, http://ordi.sourceforge.net/. Онтологическая мидлварь, ее поддерживает Ontotext (поставщик крупномасштабных OWL-решений -- http://www.ontotext.com/, главный продукт -- трипл-стор OWLIM, в бесплатном и платном вариантах. Платный вариант поддерживает кластеризацию, полнотекстовый поиск и т.д.). TopBraid Composer поддерживает OWLIM как reasoner. Пример того, как это все связано (из http://www.ontotext.com/owlim/OWLIM_jun2010.pdf):



За этими трипл-сторами нужен глаз да глаз, ибо они отнюдь не всё поддерживают:



С другой стороны, SwiftOWLIM can load Wordnet in 123 sec. on a notebook!
• Loading includes: parsing, total materialization, indexing, storage; The rule-set used is owl-max with partialRDFS=true;
• Speed: 15 000 explicit st./sec.; 65 000 st./sec. total.

Вообще, этих "самых больших" трипл- и квад-сторов множество (вот тут удивительно устаревшие данные -- http://esw.w3.org/LargeTripleStores так, для AllegroGraph дают версию 1.2.4, а сейчас актуальна версия 4.0: (вот, например, кластерный монстр: http://www.bigdata.com/blog/). Во всех этих многочисленных серверах дьявол в деталях. Некоторые побыстрее, некоторые пообвязаннее разными языками и фреймворками, некоторые хорошо разгоняемы на кластерах, некоторые поддерживают бОльшую выразительность, некоторые лучше оптимизируемы, и т.д. и т.п.

Collibra -- "первая реализация SBVR": http://www.collibra.com/products (Business Semantics Glossary, Studio, Enabler). Интересно, как они делят свои сервисы: уровень поддержки понятий, уровень (высокоуровневой) поддержки схемы (как набора осмысленных отношений), уровень поддержки технологий (низкоуровневого представления -- RDF) и уровень разных вычислителей-сервисов.



Expert System (http://www.expertsystem.net) предлагает похожий набор инструментов -- Cogito. В нем нет SBVR, но все остальное похоже: семантический поиск, автоматические аннотации и т.д.

GATE (general architecture for text engineering) -- решение для полного жизненного цикла контекст-анализа и других семантических обработок корпуса текстов: http://gate.ac.uk/ (сверхкраткое описание: http://gate.ac.uk/2mins.html, краткое описание http://gate.ac.uk/overview.html). Как онтологическая компонента туда включен OWLIM, а также использование KIM (оба из Ontotext). Ежели нужно как-то разметить техническое задание, или стандарт, или еще что-то большое и неудобное -- есть инструменты (http://gate.ac.uk/family/developer.html). Впрочем, там есть инструменты для чего угодно: все эти "семантические технологии" более-менее однотипны по их устройству. Дьявол там обычно в деталях, хотя эти детали обычно довольно крупны -- но не всегда сразу бросаются в глаза.
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 13 comments