Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Category:

Смычка лингвистики и онтологии

Вчера на заседании Русского отделения INCOSE разбирались с технологией автоматического анализа и перевода текстов Compreno фирмы ABBYY -- http://incose-ru.livejournal.com/32524.html.

Докладчики предложили схемку, в которой видно, что в описании ситуации прежде всего приходится разбираться с синтаксисом (лексемами), постепенно обвешивая этот синтаксис какими-то значениями (семантемами), и в конце концов привлекая знания по разделяемой собеседниками мира онтологии. Технология Compreno вплотную уже подошла к необходимости работы с онтологией. А онтологи всё больше и больше приходят к необходимости работы с синтаксисом (вспомним, например, о парсерах VivoMind и CYC). В какой-то момент лингвисты и онтологи обязаны будут встретиться, и использовать работы друг друга. Вот мы вчера по факту и провели такую встречу.

Встреча прошла с использованием материала системной инженерии: необходимости разбираться не просто с текстом-речью, как в традиционной задаче перевод, а с совокупностью текста, формул, таблиц, диаграмм в тексте, чертежей "в бумаге", набора корпуса технических стандартов (с точными определениями терминов -- уж насколько точным могли быть авторы этих определений, не будучи линвистами и онтологами), структурированной информации (проектов в CAD/CAM/CAE и PDM/PLM информационных системах). В этом случае уж точно одним синтаксисом не обойтись, но и одной онтологии не хватает.

Одна из оценок: чтобы настроить Compreno на какую-то новую предметную область (например, жаргон какой-то из инженерных дисциплин со всякими "номинальными диаметрами" и прочими нестандартными словосочетаниями), требуется примерно три месяца и 10 человек. Потом можно парсировать тексты на этом жаргоне, переводить на другие языки и использовать парсированное представление для самых разных других целей -- умного поиска, написания отчетов, ответов на вопросы, составления глоссария и т.д.

Вчера же в рассылке Ontology Summit Мэтью Вест и Джон Сова в очередной (как я понял, минимум третий) раз достигли консенсуса, что "you cannot go from language to ontology without thought in between". Так что и мы будем "думать посредине", заниматься смычкой лингвистики и онтологии. Мы пока еще никуда не опоздали, всё только начинается.
Subscribe

  • Физики про информатику, эмерджентность и ресурсы

    Физики (при активной помощи математиков) активно строят физические теории для информатики, ресурсов, эмерджентности. 1. Теории информации и…

  • Программа шестнадцатых Лебедевских чтений

    Шестнадцатые Лебедевские чтения состоятся 22 мая 2021 года в Москве, в 10:00 в отеле "На Казачьем" (1й Казачий переулок, 4, метро Добрынинская,…

  • lytdybr

    Моделировали вчера интеллект-стек (в очередной раз, и явно не последний), главные новации там: -- это платформенный стек трансдисциплин, но я…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 12 comments

  • Физики про информатику, эмерджентность и ресурсы

    Физики (при активной помощи математиков) активно строят физические теории для информатики, ресурсов, эмерджентности. 1. Теории информации и…

  • Программа шестнадцатых Лебедевских чтений

    Шестнадцатые Лебедевские чтения состоятся 22 мая 2021 года в Москве, в 10:00 в отеле "На Казачьем" (1й Казачий переулок, 4, метро Добрынинская,…

  • lytdybr

    Моделировали вчера интеллект-стек (в очередной раз, и явно не последний), главные новации там: -- это платформенный стек трансдисциплин, но я…