October 15th, 2014

2019

Ещё раз об Big Data

Slon опубликовал в том числе и мои прогнозы по Big Data (http://slon.ru/future/chego_zhdat_ot_industrii_big_data-1170825.xhtml):

Во-первых, работа с данными – это уже не просто искусство или наука, это самая настоящая политика. Когда политики предписывают хранить «персональные данные» на серверах, находящихся на территории конкретной юрисдикции, это означает невозможность электронной торговли, заказа авиабилетов, обучения в иностранных вузах, работы с иностранными финансовыми институтами, заказа номеров в гостинице и т.д. Это уже не «всего лишь данные». Ограничения на работу с данными являются ограничениями на права и свободы человека. Так что мы говорим не только об «индустрии», но и о сфере политики. И конечно, не секрет, что с Самыми Большими Данными работают спецслужбы и разведки.

Этические проблемы, проблемы политики, правовые проблемы работы с данными в ближайшее время затмят все возможные технические проблемы, ибо технические проблемы решить обычно можно, а вот с безумными хотелками политиков всех мастей справиться обычно не удается.

Во-вторых, слово BigData останется пустым, ибо объем данных – это ни разу не проблема, а чисто маркетинговые пустые термины-зонтики выходят из употребления. Останется слово Data, а уж Big или Small – это совершенно не важно, большинство нынешних технологий работы с данными отлично масштабируются. Сегодня же под этим термином-зонтиком понимают и проблемы статистической обработки данных, и удобной визуализации результатов такой обработки. Букет чисто технологических проблем. Знаменитое VVVV, в котором каждое слово – отдельная проблема, требующая отдельных технических решений: volume – не проблема давно; velocity – здесь будет realtime (в том числе realtime по перестройке схемы базы данных и стриминг); variety – семантика и онтология, графовые и прочие NoSQL; veracity (правдивость, точность) – и здесь важны верификации и валидации. А еще есть data science, data engineering, data base management. Слово BigData пытается охватить все, то есть не указывает ни на что.

В-третьих, слово «онтология» уже известно всем, кто занимается данными, но больше никому. Онтология – это про то, как данные описывают окружающий мир, насколько совместимы описания мира, сделанные разными людьми. Другими словами, это про то, как «объективировать» описания: хорошо организовать субъективность отдельных людей, приходящих каждый со своими данными. Скоро слово «онтология» станет известно и за пределами узких специалистов-модельеров данных, ибо онтологическое моделирование позволяет решать сложные задачи федерирования данных (федерирование – объединение изначально автономных данных). Слово «семантика» уже хорошо известно всем, потому как переход к факт-ориентированному (графовому, трипловому) представлению данных позволяет избавиться от проблемы переструктурирования схемы базы данных каждый раз, когда появляются новые виды данных. Эти два слова станут стандартным способом борьбы с variety (разнообразием) в Big Data.

В-четвертых, data science становится все более спортивной. Недостаточно говорить, что «у нас лучшие алгоритмы». Есть способ легко проверить их крутизну по сравнению с алгоритмами конкурентов: поучаствовать в очередном соревновании. Сама data science тоже быстро меняется. В 2006 году научили первую глубокую нейронную сетку, и появились глубокие (многоуровневые) архитектуры машинного обучения. Классическая статистика, конечно, никогда не сдаст своих позиций, но уже понятно: настоящие прорывы в работе с данными не в ней. Глубокие архитектуры пришли, чтобы остаться, и наблюдать за этим процессом удобнее всего на соревнованиях (например, kaggle.com).
2019

Критика меня-редукциониста

С удивлением наткнулся на критику 2011 года меня, как редукциониста, в INCOSE INSIGHT (http://www.sercuarc-new.org/wp-content/uploads/2014/02/32_Squires_Managing-the-Body-of-Knowledge.pdf -- Bill Mullins, Systems Engineering and Rationalism: what Alchemy will Remain) -- обвиняют при этом не только меня, но и всё Русское отделение INCOSE. Основывается это обвинение на моей заметке в том же INCOSE INSIGHT 2010 года, где я рассказывал о RuSEC 2010 и заявлял о той программе исследований, по которой мы потихонечку сегодня идём (в открытом доступе черновик критикуемого текста тут: http://levenchuk.com/2010/09/26/rusec-2010-results/).

Критику особенно не понравилось про engineering of systems engineering: "My itch first came when I saw that the author had designated as one of his focus areas the “Demystification of ‘systems engineering art’: Systems engineering knowledge discovery vs. knowledge design (in other words, the engineering of systems engineering)”". Далее он творчески путает редукционизм и логицизм (его рассуждение простое: "интеллектуальный витализм оставляет что-то за пределами логического выражения, поэтому выкидывать это невыразимое и неизвестное -- это редукционизм!), поминает Карла Юнга (который психолог!) и заканчивает необходимостью признать существование в инженерии некоторого количества алхимии, ибо сложность всегда будет побеждать.

Я даже не знаю, с чем тут спорить. Ну да, я логицист (http://ailev.livejournal.com/1059168.html, http://ailev.livejournal.com/1079851.html и т.д.). Ну да, "всего не предусмотришь" -- и как это противоречит логицизму? Ну да, физические теории неточно описывают мир, "оставляя место алхимии" -- но разве это уменьшает нужду в разработке этих теорий? Чем в этом плане отличается системная инженерия (кроме того, что физику нельзя "инженерить", а системную инженерию -- вполне можно)? Да, в системной инженерии мы потихонечку убираем алхимию, заменяя её чем-то более внятным -- в том числе тем, что можно передать компьютерам. Дело идёт плохо, ограничения вполне понятны, но это ведь и есть борьба со сложностью? Отдать сложность на откуп "гениальным алхимическим мозгам" -- это красиво и романтично, но ведь не помогает?

Вообще, со сложностью бороться нужно, начиная с самых верхних ступенек лестницы мета-мета-...-мета-моделирования инженерных систем. То же понятие "система" нельзя ввести сразу на метауровне. Предпосылки для его корректного введения нужно обеспечивать и на мета-мета-уровне, и на мета-мета-мета-уровне. Но я бы предпочёл разговаривать не просто "философствуя" и привлекая психологов (а хоть и Юнга) к разговору, а разговаривать "философско-логически" -- привлекая всяких Витгенштейнов, Льюисов, Крипке и прочих философских логиков.

Так что ссылчку на критику запомним, но отвечать ничего не будем.
2019

Современное политическое машиностроение

Вот очередной спам: "Центр (факультет) ИМК "Университета машиностроения (МАМИ)" предлагает вашим сотрудникам, обучение по направлению подготовки "Публичная политика и социальные науки", разработанному специально для гражданских государственных и муниципальных служащих". Такое у нас теперь машиностроение. "Окажем всяческое содействие в поступлении и сопровождении в процессе учебы. Обучение возможно по индивидуальному плану, по желанию студента." В этом направлении выделены профили: коммуникации c органами государственной власти, руководством крупных и средних корпораций; политические коммуникации и политическая реклама; международные отношения и международное сотрудничество.

"Просим Вас дать ответ о количестве сотрудников, желающих поступить по вышеуказанным профилям, ввиду необходимости формирования групп."

Поступить в машиностроительный, научиться политической рекламе, построить машину государственной власти...

UPDATE: мне тут из фейсбука правильно подсказывают, что "Мамфорд потирает руки" -- https://www.facebook.com/ailevenchuk/posts/10203400579269237