?

Log in

No account? Create an account
Лабораторный журнал -- Day [entries|friends|calendar]
Anatoly Levenchuk

[ website | Лабораторный журнал ]
[ userinfo | livejournal userinfo ]
[ calendar | livejournal calendar ]

Британские учёные предсказали конец пикселя [14 Dec 2012|02:14am]
Какая прелесть: британские учёные предсказали смерть пикселя в видеокодеках в течение пяти лет -- http://www.extremetech.com/extreme/143130-vector-vengeance-british-researchers-claim-they-can-kill-the-pixel-within-five-years (страница самих учёных много меньше информации содержит: http://www.cs.bath.ac.uk/vsv/, хотя там и есть ссылка на демо-фильм).

А вдруг и впрямь пиксель в видеокодеках стремительно помирать начнёт? Это ж какой передел рынка видеотехнологий может случиться!
16 comments|post comment

Данно-научная конкуренция. [14 Dec 2012|02:18pm]
Фраза "Most data problems can be framed as a competition" взята с вебсайта http://www.kaggle.com/. У этого вебсайта простой заголовок: "We’re making data science a sport.™". Наука о данных скоропостижно превращается в спорт: с командами, призами, болельщиками и cheerleaders.

Суть дела проста: команде (ну, или даже одному человеку, если сможет) нужно взять предлагаемые кем-то наборы данных и грокнуть их своими алгоритмами лучше, чем другим командам (конкурентам? противникам? какие к чёрту в науке "противники"? Русский язык в части выражения конкуренции не силён -- в английском даже "конкуреншн" слова нет!). Победители получают либо знания (учебные наборы данных и тренировочные соревнования), либо работу в интересных местах, либо деньги, либо просто благодарность (kudos) -- http://www.kaggle.com/competitions.

Вот, например, самое денежное на сейчас соревнование: http://www.heritagehealthprize.com/c/hhp -- $3млн., за которых скрестили алгоритмы 1471 команда. Результаты их работы обновляются постоянно, кто выигрывает и проигрывает определяется после каждой очередной сдачи результата: www.heritagehealthprize.com/c/hhp/leaderboard (в последнюю ночь перед финишем, кстати, многое что обычно происходит с этой табличкой -- лидеры ведь не почивают на лаврах, а предпочитают улучшать свои алгоритмы до последнего момента). Для тех, кто даёт на такие соревнования деньги, это списывается по статье "crowdsoursing".

А вот соревнование 153 команд "за благодарность": http://www.kaggle.com/c/msdchallenge -- You have: 1) the full listening history for 1M users, 2) half of the listening history for 110K users (10K validation set, 100K test set), and you must predict the missing half. How much easier can it get?

Вот такая нынче data science. Интересно, что MOOCs (http://ailev.livejournal.com/1042348.html) -- это ведь тоже приключилось прежде всего по поводу алгоритмов (data mining -- это про забивание конкретных гвоздей, а machine learning -- это про молотки для гвоздей, одно без другого не существует, две стороны одной медали). MOOCs+соревнования -- это и есть современный edutainment.

Конечно, есть ещё и другие организаторы таких соревнований в data mining. Интересно, что участников тамошних соревнований называют solvers (смешались в кучу кони, люди...):
-- http://www.crowdanalytix.com (там без логина мало что видно, но составить впечатление о том, что происходит внутри можно по таким постам: http://www.crowdanalytix.com/blog/celebrating-the-winners-march-2012-to-may-2012/)
-- https://www.innocentive.com/ (там упор на life sciences), тамошний список нужно фильтровать от "краудсорсинга-обо-всём" путём нажатия кнопочки math/statistics в левом меню: https://www.innocentive.com/ar/challenge/browse
-- http://tunedit.org/ (последнее соревнование там JRS 2012 Data Mining Competition: Topical Classification of Biomedical Research Papers собрало 396 команд, боровшихся за $1500).

Ну, и разные отдельные соревнования, "без помощи вебсайтов-платформ краудсорсинга", типа соревнований на конференциях датамайнеров: http://www.kddcup2012.org/

Это я к тому, что там ещё и весело. Веселее всех, конечно, организаторам и победителям. Победителей немного, но шанс есть у всех.

В заключение небольшая страшилка про слабую связь спорта и жизни: одно из первых подобных соревнований ($1млн., Netflix prize -- разработать алгоритм рекомендации фильмов, который был бы лучше алгоритма Cinematch на 10%) закончилось победой, но алгоритм победителя так и не был воплощён в жизнь: эти 10% прироста точности не оправдывали инженерных затрат на реализацию -- http://businessforecastblog.com/data-mining-and-machine-learning-applications-a-cautionary-tale/. Но это так себе страшилка. В таких делах часто случается сдвиг мотива на цель (психологическое явление, в котором какая-то деятельность начинается с целью заполучить некий бонус, а затем первичная цель добычи бонуса забывается, и уже сама деятельность служит вознаграждением для ей занимающегося). То есть соревнование становится ценным само по себе, а что его результаты кто-то где-то ещё и использует, это уже может быть не так важно.
17 comments|post comment

navigation
[ viewing | December 14th, 2012 ]
[ go | previous day|next day ]