Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Заоблачные вычисления.

Облачные вычисления стали уже заоблачными: на виртуальных машинах Amazon EC2 и памяти Amazon S3 фирма Microsoft (ладно, не сама она, а только что проглоченный ей Powerset, поиск на естественном языке) разворачивает свободную кластерную инфраструктуру Hadoop (http://hadoop.apache.org/core/), и затем решает свои задачи на этом "виртуальном суперкомпьютере", собранном из виртуальных машин. Облако на облаке, заоблачность налицо. Это не единственный пример. Рекламная сеть Adknowledge поступает ровно таким же образом: Hadoop поверх EC2. И японский поиск изображений CblR, и многие другие (http://wiki.apache.org/hadoop/PoweredBy).

Ежели спуститься на ступеньку ниже, и просто собирать Hadoop-кластеры из обычных, а не виртуальных машин, то становятся возможными заоблачные вычисления в старинном ("недостижимости") смысле этого слова. Так, Yahoo! приняла участие в соревнованиях по сортировке больших массивох данных http://sortbenchmark.org/ и бодро отрапортовала (http://developer.yahoo.net/blogs/hadoop/2009/05/hadoop_sorts_a_petabyte_in_162.html), что умеет сегодня отсортировать случайным образом перетасованный петабайт 100-байтных записей (это 1,000,000,000,000,000 байт -- по тройкам нулей кило, мега, гига, тера, пета) за 16.5 часов), а терабайт за 62 секунды. Эти соревнования проводятся с 1985 года, и тогда сортировка 100Мб занимала 1 час. Сегодня 0.1GB стобайтных записей сортируется одну секунду, ускорение за прошедших двадцать четыре года в 3600 раз.

Чем больше электроный фундамент уходит в "нано", тем больше в облачных и даже заоблачных высях приходится запоминать значения слов уже не только "тера" (байты, флопсы), но и пета. Это несмотря на то, что герцы так и замерли в начале "гига".

Инфраструктуру распределенных вычислений сделать не так уж дорого: за $10тыс. уже можно получить вполне навороченный собственный кластер, ежели есть чем его занять на полную катушку. А ежели нет уверенности в полной его занятости, то можно для экспериментов купить процессорное время в том же Amazon EC2/S3.

Есть множество готовых свободнософтовых приложений для Hadoop -- от самого обычного веб-поиска (http://lucene.apache.org/nutch/) и корпоративного поиска (http://lucene.apache.org/solr/) до библиотек машинного обучения (http://lucene.apache.org/mahout/, the first public release includes implementations for clustering, classification, collaborative filtering and evolutionary programming).

И при все этом я (вслед за Аланом Кеем) имею наглость утверждать, что компьютерная революция еще не началась: все помянутое обеспечение многослойно и в силу этого неэффективно дублирует друг друга, основано на допотопных процессорных и сетевых архитектурах, некомпактно из-за использования нынешних языков.

Но я думаю, что переход от "пета" (квадриллион) к "экза" (следующие три нолика, квинтиллион), имена которых появились в 1975г., произойдет много быстрее, чем компьютерная революция. А уж компьютерная революция заставит вспомнить о появившихся в 1991г. "зетта" и "йотта" (http://www.wikiznanie.ru/ru-wz/index.php/Метрическая_приставка).

Имеет ли это значение? Да, именно это и имеет определяющее значение. Хотя я и не сторонник параллельности (я считаю, что последовательные вычисления далеко не исчерпали потенциала своего развития, и именно они являются определяющими для прогресса), дешевая параллельность крайне важна. Сначала все появляется в виде mainframe с заоблачными ценами, а затем такая же вычислительная мощность обязательно появляется у кого-нибудь в ноутбуке. Так было, и так будет. Поэтому крайне интересно смотреть на датацентры Гугля и думать, что будет в тот относительно недалекий момент, когда такие датацентры будут доступны в ноутбуках. А что будет в этот момент считаться в датацентрах (которые никуда, конечно, не денутся), даже представить сейчас невозможно.

А пока проходим в среднем одну приставку за десятилетие. Что там за заоблаками?
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 33 comments