Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Ещё раз об Big Data

Slon опубликовал в том числе и мои прогнозы по Big Data (http://slon.ru/future/chego_zhdat_ot_industrii_big_data-1170825.xhtml):

Во-первых, работа с данными – это уже не просто искусство или наука, это самая настоящая политика. Когда политики предписывают хранить «персональные данные» на серверах, находящихся на территории конкретной юрисдикции, это означает невозможность электронной торговли, заказа авиабилетов, обучения в иностранных вузах, работы с иностранными финансовыми институтами, заказа номеров в гостинице и т.д. Это уже не «всего лишь данные». Ограничения на работу с данными являются ограничениями на права и свободы человека. Так что мы говорим не только об «индустрии», но и о сфере политики. И конечно, не секрет, что с Самыми Большими Данными работают спецслужбы и разведки.

Этические проблемы, проблемы политики, правовые проблемы работы с данными в ближайшее время затмят все возможные технические проблемы, ибо технические проблемы решить обычно можно, а вот с безумными хотелками политиков всех мастей справиться обычно не удается.

Во-вторых, слово BigData останется пустым, ибо объем данных – это ни разу не проблема, а чисто маркетинговые пустые термины-зонтики выходят из употребления. Останется слово Data, а уж Big или Small – это совершенно не важно, большинство нынешних технологий работы с данными отлично масштабируются. Сегодня же под этим термином-зонтиком понимают и проблемы статистической обработки данных, и удобной визуализации результатов такой обработки. Букет чисто технологических проблем. Знаменитое VVVV, в котором каждое слово – отдельная проблема, требующая отдельных технических решений: volume – не проблема давно; velocity – здесь будет realtime (в том числе realtime по перестройке схемы базы данных и стриминг); variety – семантика и онтология, графовые и прочие NoSQL; veracity (правдивость, точность) – и здесь важны верификации и валидации. А еще есть data science, data engineering, data base management. Слово BigData пытается охватить все, то есть не указывает ни на что.

В-третьих, слово «онтология» уже известно всем, кто занимается данными, но больше никому. Онтология – это про то, как данные описывают окружающий мир, насколько совместимы описания мира, сделанные разными людьми. Другими словами, это про то, как «объективировать» описания: хорошо организовать субъективность отдельных людей, приходящих каждый со своими данными. Скоро слово «онтология» станет известно и за пределами узких специалистов-модельеров данных, ибо онтологическое моделирование позволяет решать сложные задачи федерирования данных (федерирование – объединение изначально автономных данных). Слово «семантика» уже хорошо известно всем, потому как переход к факт-ориентированному (графовому, трипловому) представлению данных позволяет избавиться от проблемы переструктурирования схемы базы данных каждый раз, когда появляются новые виды данных. Эти два слова станут стандартным способом борьбы с variety (разнообразием) в Big Data.

В-четвертых, data science становится все более спортивной. Недостаточно говорить, что «у нас лучшие алгоритмы». Есть способ легко проверить их крутизну по сравнению с алгоритмами конкурентов: поучаствовать в очередном соревновании. Сама data science тоже быстро меняется. В 2006 году научили первую глубокую нейронную сетку, и появились глубокие (многоуровневые) архитектуры машинного обучения. Классическая статистика, конечно, никогда не сдаст своих позиций, но уже понятно: настоящие прорывы в работе с данными не в ней. Глубокие архитектуры пришли, чтобы остаться, и наблюдать за этим процессом удобнее всего на соревнованиях (например, kaggle.com).
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments