Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Данно-научная конкуренция.

Фраза "Most data problems can be framed as a competition" взята с вебсайта http://www.kaggle.com/. У этого вебсайта простой заголовок: "We’re making data science a sport.™". Наука о данных скоропостижно превращается в спорт: с командами, призами, болельщиками и cheerleaders.

Суть дела проста: команде (ну, или даже одному человеку, если сможет) нужно взять предлагаемые кем-то наборы данных и грокнуть их своими алгоритмами лучше, чем другим командам (конкурентам? противникам? какие к чёрту в науке "противники"? Русский язык в части выражения конкуренции не силён -- в английском даже "конкуреншн" слова нет!). Победители получают либо знания (учебные наборы данных и тренировочные соревнования), либо работу в интересных местах, либо деньги, либо просто благодарность (kudos) -- http://www.kaggle.com/competitions.

Вот, например, самое денежное на сейчас соревнование: http://www.heritagehealthprize.com/c/hhp -- $3млн., за которых скрестили алгоритмы 1471 команда. Результаты их работы обновляются постоянно, кто выигрывает и проигрывает определяется после каждой очередной сдачи результата: www.heritagehealthprize.com/c/hhp/leaderboard (в последнюю ночь перед финишем, кстати, многое что обычно происходит с этой табличкой -- лидеры ведь не почивают на лаврах, а предпочитают улучшать свои алгоритмы до последнего момента). Для тех, кто даёт на такие соревнования деньги, это списывается по статье "crowdsoursing".

А вот соревнование 153 команд "за благодарность": http://www.kaggle.com/c/msdchallenge -- You have: 1) the full listening history for 1M users, 2) half of the listening history for 110K users (10K validation set, 100K test set), and you must predict the missing half. How much easier can it get?

Вот такая нынче data science. Интересно, что MOOCs (http://ailev.livejournal.com/1042348.html) -- это ведь тоже приключилось прежде всего по поводу алгоритмов (data mining -- это про забивание конкретных гвоздей, а machine learning -- это про молотки для гвоздей, одно без другого не существует, две стороны одной медали). MOOCs+соревнования -- это и есть современный edutainment.

Конечно, есть ещё и другие организаторы таких соревнований в data mining. Интересно, что участников тамошних соревнований называют solvers (смешались в кучу кони, люди...):
-- http://www.crowdanalytix.com (там без логина мало что видно, но составить впечатление о том, что происходит внутри можно по таким постам: http://www.crowdanalytix.com/blog/celebrating-the-winners-march-2012-to-may-2012/)
-- https://www.innocentive.com/ (там упор на life sciences), тамошний список нужно фильтровать от "краудсорсинга-обо-всём" путём нажатия кнопочки math/statistics в левом меню: https://www.innocentive.com/ar/challenge/browse
-- http://tunedit.org/ (последнее соревнование там JRS 2012 Data Mining Competition: Topical Classification of Biomedical Research Papers собрало 396 команд, боровшихся за $1500).

Ну, и разные отдельные соревнования, "без помощи вебсайтов-платформ краудсорсинга", типа соревнований на конференциях датамайнеров: http://www.kddcup2012.org/

Это я к тому, что там ещё и весело. Веселее всех, конечно, организаторам и победителям. Победителей немного, но шанс есть у всех.

В заключение небольшая страшилка про слабую связь спорта и жизни: одно из первых подобных соревнований ($1млн., Netflix prize -- разработать алгоритм рекомендации фильмов, который был бы лучше алгоритма Cinematch на 10%) закончилось победой, но алгоритм победителя так и не был воплощён в жизнь: эти 10% прироста точности не оправдывали инженерных затрат на реализацию -- http://businessforecastblog.com/data-mining-and-machine-learning-applications-a-cautionary-tale/. Но это так себе страшилка. В таких делах часто случается сдвиг мотива на цель (психологическое явление, в котором какая-то деятельность начинается с целью заполучить некий бонус, а затем первичная цель добычи бонуса забывается, и уже сама деятельность служит вознаграждением для ей занимающегося). То есть соревнование становится ценным само по себе, а что его результаты кто-то где-то ещё и использует, это уже может быть не так важно.
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 17 comments