Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Хакатон-2014: технология готова, теперь займёмся аниме и мангой.

Версия .15926 Editor 1.5alfa к проведению хакатона готова: работает пример, в котором под управлением онтологических паттернов достаётся информация из онлайн базы данных, а затем эта информация из семантического формата преобразуется в веб-страницы. Ссылки на версию и файлы примера -- http://dot15926.livejournal.com/49342.html (хотя там пока веб-часть ещё не отдокументирована). В созвонах на тему хакатона принимают участие по пять-шесть человек, и нас потихоньку становится больше.

Теперь, когда решены основные технологические вопросы, пора заняться предметной областью -- аниме и мангой, в данных которых (в отличие от инженерных данных) относительно легко разобраться даже неспециалистам. Буквально сегодня John Sowa написал "There is a huge difference between the kinds of detailed, very precise ontologies needed for designing an airplane and the looser ontologies needed for answering a Jeopardy question. LOD [linked open data] is somewhere closer to Jeopardy than to airplane design" (http://ontolog.cim3.net/forum/ontology-summit/2014-03/msg00014.html). Аниме и манга, конечно, ближе к answering a Jeopardy.

Что же мы хотим продемонстрировать? Полную технологическую цепочку онтологической интеграции данных -- как мы работаем с аспектом variety в Big Data (конечно, с volume и velocity мы тут не связываемся, ибо нельзя объять необъятное). Более того, мы толком-то и variety продемонстрировать не сможем.

При описании 10тыс. групп оборудования мы легко попадаем в ситуацию, требующую создания реляционной базы данных со схемой на 10тыс. таблиц. Тут же мы имеем огромные проблемы по лёгкости программирования запросов, внесения изменений в схему данных, проблемы скорости выполнения запросов и трудности настройки и т.д.. В этой ситуации полезность перехода к семантическим технологиям (графовым базам данных, онтологическим справочным данным и т.д.) обычно не вызывает сомнений. Но какие проблемы мы можем продемонстрировать на крошечных справочных данных аниме и манги? Понятно, что это будет пальба из пушек по маленьким воробушкам, и за один день хакатона можно будет только-только продемонстрировать небольшие повороты пушки из стороны в сторону с максимум одним "бабахом"! Шумно и крайне неэффективно, зато весело и таки покажет принципиальную работоспособность пушки -- семантические технологии долго запрягают, зато потом в условиях variety данных на них потом хоть как-то едут (а на других технологиях до езды дело так и не доходит).

Для аниме и манги нам нужно
а) поставить задачу: кто стейкхолдеры, какую их проблему мы решаем
б) разработать паттерны справочных данных для описания предметной области (онтологическое моделирование предметной области)
в) разработать адаптеры для интегрируемых баз данных (программирование API и конверсия в семантическое представление)
г) сгенерировать отчёты (верстка веб-страниц из семантического представления),
д) ???
е) profit (стейкхолдеры читают эти страницы и становятся счастливы)

В аниме и манге у нас есть несколько вариантов стейкхолдеров, которых мы можем попытаться осчастливить за хакатонный день:
а) исследователи (их в мире чуть ли не 800 человек, гнездо их тут: https://groups.yahoo.com/neo/groups/amrc-l/info). Там всё круто серьёзно, уж не знаю, чем помочь этим учёным.
б) creators -- это те, кто делают аниме и мангу. Им наши сервисы не нужны, они жутко заняты и без нас.
в) отаку и сочувствующие ("целевая аудитория" аниме и манги). Наша пушка им чересчур, потребности у них нишевые и разнообразные. Что мы им можем предложить? Страничку, на которой собраны данные с разных других страниц -- названия аниме и персонажи с anidb, creators с animenewsnetwork, краткие аннотации содержания эпизодов ещё откуда-нибудь -- и сэкономить три клика мышкой? Увы, экономия трёх кликов вряд ли сойдёт за "достижение".
г) администраторы онлайн баз данных. Наши люди, работают с данными. Бич всех этих онлайн краудсорсинговых ресурсов -- это неточности в базах данных. Самое простое, что мы можем сделать -- это порождать верификационные отчёты, сравнивая содержание разных баз данных. Хотя и "достижения" мало кому нужные кроме дюжины администраторов этих баз данных, и свои насущные потребности эти администраторы наверняка уже давно решают какими-нибудь на коленке разработанными утилитками.

Так что начинаем разговоры про анимешные и манговые базы данных: что с ними было бы интересно учудить. Интеграция данных такой странный предмет: когда её где-то нет, так хоть криком кричи -- никаких поддерживающих её нормально технологий. А когда технология уже в руках, и хочешь где-то найти в ней потребность, то хоть криком кричи: нет потребности, а хоть и для чисто демонстрационных целей! Впрочем, это не только про технологии интеграции данных верно, это вообще так жизнь устроена.
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 25 comments