Category: компьютеры

Category was added automatically. Read all entries about "компьютеры".

2019

Только одна из компьютерных физик: заказан цифровой компьютер с 0.01 секстиллиона операций в секунду

NVIDIA получила заказ на изготовление цифрового компьютера Leonardo вычислительной мощностью 0.2экзафлопс, если замерять в FP64, стоить он будет примерно €0.24 миллиарда, строиться начнёт в следующем году летом, а в 2022 году вступит в строй -- нынешний экзафлопс FP64 идёт по цене миллиарда долларов, https://www.hpcwire.com/2020/10/15/nvidia-and-eurohpc-team-for-four-supercomputers-including-massive-leonardo-system/.

Но если брать AI вычисления, то речь в Leonardo уже идёт о мощности в 10 экзафлопс (10 квинтиллионов, то есть 10**18 операций половинной точности в секунду) -- https://venturebeat.com/2020/10/15/nvidia-will-supply-hardware-for-leonardo-a-10-exaflop-supercomputer/. Мы уже привыкли к классическим цифровым компьютерам, и вроде как шла борьба за экзафлопс, но она плавно перешла в борьбу за зетафлопс (это уже 0.01зетта -- начинаем учить новый префикс, секстиллионы). Ещё можно поспорить, о каких флопсах говорится, https://medium.com/@moocaholic/fp64-fp32-fp16-bfloat16-tf32-and-other-members-of-the-zoo-a1ca7897d407 (самым популярным становится TF32, который подразумевает 19 бит в умножении, но 32 бита в сложении -- https://blogs.nvidia.com/blog/2020/05/14/tensorfloat-32-precision-format/, у Intel это FP19. Скорее всего, речь идёт именно о 10экзафлопс с именно такими плавающими -- 32 бита в памяти, в сложении, но 19 бит в умножении). Если вы ухитряетесь делать умножения на калькуляторе за одну секунду, то чтобы выполнить 10экзафлоп операций с этой скоростью вам нужно будет потратить 316887650000 лет (т.е. почти 17 миллиардов лет, Земле всего 4.5 миллиарда лет, нужно было бы работать вчетвером, чтобы управиться за время от зарождения Земли до настоящего времени вычислить с дикой скоростью одного умножения в секунду столько умножений, сколько их будет делать Leonardo всего за секунду. Там ведь примерно 14тыс. NVIDIA A100GPU, да ещё на водяном охлаждении! Невероятная мощьность).

Вот я писал про квинтиллионы операций в секунду (и желание иметь нейросетки с тера/триллионом параметров) в сентябре -- https://ailev.livejournal.com/1536283.html, вот про ускорение и перестройку в айтишном мире по состоянию на осень 2020 -- https://ailev.livejournal.com/1540648.html, тут лишь добавлю несколько штрихов.

Computer science это естественная наука, ответ на вопрос о том, что может быть вычислено, а что не может быть вычислено даётся теориями computer science, а работающие теории выбираются экспериментами, а не математически. Ужас в том, что в евклидовой геометрии сумма углов треугольника 180 градусов, но если реально замерить сумму углов треугольника вблизи Земли, то это будет (искривление пространства-времени большой массой!) 180,0000002 градуса, и если эту поправочку "из физики" не учитывать, то нельзя построить GPS. То же самое относится к любым другим объектам: математическая точка и физическая точка (особенности с учётом особенностей квантовой физики) это очень разные объекты. И математическое понятие вычисления и физическое вычисление -- это разные объекты. Так, математическое вычисление прежде всего даёт нам легко имитируемые аналоговыми цепями классического цифрового компьютера операции логики (и, или, не) с нулями и единицами. А теперь поменяем физику компьютера с цифрового на квантовый, где ровно вот эти операции делаются с огромным трудом, но зато какое-нибудь разложение на множители -- раз плюнуть. Что теперь с computer science? Можем мы быть уверенными в результатах вычислений квантовых компьютеров? А если это оптический компьютер (например, https://venturebeat.com/2020/06/03/lighton-researchers-explain-how-they-trained-an-ai-model-on-an-optical-co-processor/) -- то что именно он считает, и насколько мы должны быть уверенными, что он считает именно это? Кто это должен сказать: математики или физики? Кто должен сопоставить "математические треугольники" и "физические треугольники" для тамошних вычислений?

Чтобы было понятней: классический компьютер имеет алгоритмы, которые при добавлении одного разряда к разлагаемому на множители числу утраивают время вычисления. Время вычисления растёт в геометрической прогрессии. Рекорд прошлого года -- 240 десятичных разрядов, и речь идёт о примерно четырёх тысячах лет работы одного компьютерного ядра (ну, или четырёх годах работы тысячи компьютерных ядер), https://listserv.nodak.edu/cgi-bin/wa.exe?A2=NMBRTHRY;fd743373.1912. Квантовый алгоритм Шора 250-значное число раскладывает на множители лишь за несколько тысяч операций, то есть практически мгновенно. Но этот алгоритм раскидывает вычисления по примерно 10**500 вселенных в мультиверсе (интерпретация Эверетта для квантовой механики -- самая понятная в части объяснений происходящего), собирая результаты этих вычислений через механизм интерференции. Во всей вселенной существует всего около 10**80 атомов, что существенно меньше по сравнению с 10**500. Для квантовых компьютеров таким образом открыты такие задачи, которые классические цифровые компьютеры вообще не могут решить. Это физика, математика тут отдыхает.

А есть ли квантовые алгоритмы обучения нейронных сетей? Да, есть. И вы попадаете в другой мир, где трудно вычислить 2*2, но легко вычислить разложение на множители 250-значного числа. Можно начинать computer science сначала, и мир ждёт квантового Дональда Кнута (https://en.wikipedia.org/wiki/Donald_Knuth): квантовые алгоритмики в новом мире будут самыми главными (как и в классическом IT "просто алгоритмики"), чтобы потом точно так же отойти в тень: алгоритмики (ну, или алгоритмисты, уж кому как нравится) всё-таки ближе к кодерам, а вот программисты, приходящие им на смену больше озабочены вопросами "зачем" и "почему", нежели "как", они больше инженеры, а не computer scientists. Но без знания алгоритмики, то есть что можно, а чего нельзя просить у компьютера -- классического, квантового, нейроморфного, оптического, мемристорного -- software engineering времени мультипарадигмальной компьютерной физики не взлетит.

А поскольку компьютеры по факту будут (как и люди!) во всех проектах, то компьютерный кругозор должен быть у всех -- software engineering как специализация systems engineering должна присутствовать в образовании. И базироваться должна на естественной науке computer science, а не на чистой математике.

Квантовая и оптическая революции в вычислениях уже начались, через пяток лет вычислительный пейзаж будет абсолютно другим: я считаю, что в этих областях экспоненты работают, так что всё будет дешёвым -- и быстро. Проблема будет только в том, чтобы люди изобрели killer application (за этим не заржавеет) и дальше появилось достаточное число людей, чтобы с этим работать.

Классические цифровые компьютеры скоро достигнут мощности зеттафлопса (ещё парочка поколений архитектуры GPU и архитектуры датацентров-компьютеров), но это будут классические тьюринговские алгоритмы, а квантовые компьютеры (которые через пару лет тоже уже будут вполне "классическими", равно как и оптические компьютеры) будут блистать в других алгоритмах, имеющих абсолютно другие оценки скорости вычислений, ибо элементарные операции в них будут абсолютно другими, несводимыми к логическим конъюнкциям, дизъюнкциям, отрицаниям.

No free lunch theorem можно переформулировать с математической постановки задачи (нет универсально хорошего алгоритма для оптимизации/обучения во всех классах задач) на физическую (нет универсально хорошего физического вычислителя для всех классов задач).

Computer science нужно переписывать, она перестаёт быть универсальной дисциплиной: computers оказываются более чем разными физически, и математики для них тоже оказываются разными! И только эксперимент даёт ответ: можем ли мы сопоставить с достаточной степенью надёжности эти разные математики этим разным компьютерным физикам. Это идёт физическая революция в computer science, революция физического разнообразия вычислительной мощности: для разных алгоритмов будем использовать разные физики в компьютерах, что трудно для одной физики -- раз плюнуть для другой, и наоборот.

И это, заметим, никак не отменяет тезис Alan Key: The Computer Revolution Hasn't Happened Yet -- https://ailev.livejournal.com/469995.html (мой текст ещё 2007 года с пересказом идей Алана от 2004 года) и более жёсткие формулировки в тексте 2017 года (https://ailev.livejournal.com/1363194.html): компьютер удивительный музыкальный инструмент, на котором люди не играют удивительную музыку, а пищат и шумят (грубо говоря, используют компьютер как микроскоп, которым заколачивают гвозди -- и ситуация с этим всё печальней и печальней). Даже плохие сегодняшние компьютеры не используются по назначению, на них никто не учится быть умнее, на них учатся быть глупее. И тут дело не в компьютерах, а в людях: не пианино виновато, что на нём играют "Чижика" одним пальцем вместо Шопена. Компьютерная революция будет не в тот момент, когда компьютер сумеет автоматизировать что-то ещё (разгрузит человека), а в тот момент, когда наоборот, компьютер сможет быть использован для того, чтобы человек смог выполнять более сложные задачки. Ну, типа компьютер из лестницы, ведущей мозг вниз, станет лестницей, ведущей мозг вверх. Конечно, для этого нужно будет дополнительно учиться, как учатся играть на скрипке (и тут я не могу не напомнить "Никто не хочет учиться играть на XYZ" -- http://ailev.livejournal.com/1158826.html, рынок такое не оплачивает). Но для этого нужно поменять всю систему образования, а для этого нужно осознать, что происходит развал цивилизации.

Вот я осознал, вот я думаю над курсом вычислительного мышления. Этот курс должен выжить пришествие квантовых и оптических вычислителей/computers, и он должен рассказывать о том, как эти вычислители делают человека и группы людей умнее, усиливают интеллект, а не развлекают и автоматизируют. Да, это очень непопулярная постановка вопроса. Если бы я делал курс по гарантированному выигрышу в покер на раздевание, да ещё предлагал "никакой теории, только практика", то за мной пошли бы толпы. Тут же толп пока не намечается, на фронтире толп обычно не бывает.

UPDATE: обсуждение в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10219608604139729
2019

lytdybr

Всё происходит быстро, сегодня прочёл вступительную лекцию по системному мышлению полусотне магистрантов-техпредпринимателей в МФТИ. Первый семестр у них будет системное мышление, потом будет системная инженерия. Курс там идёт с 2012 года, по факту каждый год новый. В этом году тоже курс новый: онлайн-курс 2020 года по учебнику 2020 года. По факту я полчаса посвятил рассказу про опыт предыдущих семи потоков (за что ставят двойки, какой объём изучаемого материала, что из материала курса они успевают забыть к госэкзаменам), полчаса отвечал на вопросы, час рассказывал "Образование для образованных 2020" (у них этого курса не будет, но знать о его существовании полезно), и час про системное мышление в его текущем варианте. Приятно осознавать, что в текущей версии курса системного мышления (https://system-school.ru/systems-thinking) он отлично вписывается и в подготовку инженеров, и в подготовку менеджеров, и в подготовку предпринимателей. Особенно забавно, что всё это приключение с преподаванием системного мышления началось именно с обучения предпринимателей, а не инженеров или менеджеров! Но почему предпринимателям дальше читается именно системная инженерия? Потому что курсы по предпринимательству и менеджменту у них будут за два года магистратуры в количестве, а системная инженерия -- это последний шанс, когда студенты смогут ознакомиться с мышлением инженера, если дальше они пойдут именно по предпринимательской и менеджерской стезе, а без понимания мышления инженера им дальше в проектах придётся туго. Я с этим аргументом полностью согласен.

Потихоньку грызу тему вычислительного мышления. Она более чем тесно переплетена с темами онтологики в части моделирования, физичности вычислений (те же квантовые и оптические компьютеры, ресурсы и сложность алгоритмов), и AI с эволюцией/open-endedness. Плотнейший клубок. Отклик на мой прошлый пост с сентябрьским вариантом эскиза структуры курса (https://ailev.livejournal.com/1539088.html) показал, что пока обсуждать эту тему не с кем: большинство откликов было от программистов, которые хотят научить следующее поколение программистов. Обсуждения трансдисциплины не получилось. ОК, некоторое время буду начитываться. Пока продолжаю читать Дэвида Дойча, но его книжки были написаны до основных прорывов что в квантовом компьютинге, что в open-endedness, что в causal inference, что в AI -- но Дойч хорош тем, что показывает плотную перевязанность этих тем друг с другом, целостное мировоззрение. Его собственный (конечно, маргинальный) взгляд на физику, вычисления и всё остальное -- в constructor theory (ибо на Deutsch вы будете находить исключительно немецкий язык, а не работы Дэвида), http://constructortheory.org/, и это относительно свежее приключение, начавшееся в 2012 году. Типичная тема: Babbage’s Analytical Engine was a Universal Classical Computer. The question of whether a Universal Constructor can exist is of great interest in Constructor Theory. Пиара у этой работы нуль, но мне двадцать человек прислали ссылку на умелого пиарщика Вольфрама, его новый сайт https://www.wolframphysics.org/. При этом я понимаю, что главное в этой истории про вычисления -- хорошо прицелиться в трансдисциплину, то есть довести до уровня, когда рассуждения о вычислениях можно будет использовать во всех проектах непосредственно, как системное мышление, хотя вычислительное мышление я поместил уровнем ниже в интеллект-стеке, над онтологикой, но под системным мышлением. В вычислительном мышлении модели уже есть, нотации есть, вычисления есть, а что речь идёт моделях именно систем -- вот этого ещё нет.

Пион Медведева тоже замышляет глубокую переработку курса онтологики и коммуникации. Чует моё сердце, что после окончания переработки курса онтологики и вычислительного мышления придётся опять переписывать учебник системного мышления, а ещё переписывать "Образование для образованных 2020". Все эти трансдисциплины очень плотно перевязаны друг с другом. И мы всё ближе и ближе к длинному формату образования, ближе к реально бакалаврского уровня программе.

А где моё мышление письмом? Я делаю заметки, а как же! Но они настолько сырые, что я их пока не публикую. Как только появится что-то осмысленное -- за мной не заржавеет, немедленно напишу и опубликую.

Dell выпустил очередные ноутбуки той же серии, что я купил в октябре 2019 года (Dell XPS 13 2-in-1 7390-7880 с док-станцией WD19TB, https://ailev.livejournal.com/1493843.html) -- XPS 13 2-in-1 9310, -- https://www.dell.com/en-us/work/shop/dell-laptops-and-notebooks/sr/laptops/xps-laptops/13-inch?appliedRefinements=15602,23775. У меня с прошлогодним 2-in-1 одна проблема: не хватает процессорной мощности: когда со всеми этими MS Teams, Zoom и прочим подобным работает видеокамера и вещается экран (4К, других нет), то всё более чем медленно -- при полной загрузке процессора. Если поменять прошлогоднее шило 7390 на этогоднее мыло 9310 -- поможет ли это, и насколько именно поможет?! Вроде как новые процессоры должны быть побыстрей, плюс переделали систему охлаждения. Нужно ли срочно менять компьютер, или ещё год подождать? С прошлым компьютером мне ничего не жало четыре года до его смены (и менял по факту из общих соображений, состарилась батарея, я и ноут поменял). В этом году дистант и связанные с ним тормоза в работе. Задумался.

Продолжил попадать на видео и фото в своей танцевальной жизни, вот таррашо-на-вейвинге с Натальей Романчевой -- https://vk.com/video2449939_456239372. Качество съёмки там не очень, это достаточно новый танец, который идёт к нам главным образом из Парижа и танцуют его на кизомба-площадках. Суть его в том, что ведение в танце происходит не столько в движении по танцполу (хотя и это немного есть), сколько на полутора метрах по вертикали: один волнообразно двигающийся корпус ведёт другой корпус. У начинашек при этом не хватает гибкости, и никаких волн вообще не получается. У меня уже немного получаются, но явно не парижских амплитуд, и на видео это плохо видно. Но в паре это отлично чувствуется. И обратите внимание: на этом видео только женские лайки, и две трети лайкнувших что-то подобное со мной танцевали -- то есть могут оценить, как оно там чувствуется изнутри пары. Незнакомые с этим танцем думают о нём примерно так же, как о танго в начале прошлого века ("до чего докатилась нынешняя молодёжь!". Это я-то молодёжь?!). Антон Климат поглядел это видео, и сказал, что я всё правильно делаю: волны у меня не плоские, а спиральные, остальное приложится, если практиковать такие танцы подольше (это всё описано в пункте 2 поста про урбан сембу https://vk.com/wall-179019873_853, и даже учебное видео Антона приложено). Пока у меня в таррашо конкурентное преимущество на московском танцполе: остальные чуть менее разнообразны, и танцуют таррашо-на-паппинге (с мышечными ударами-остановами, Антон это называет "заиканиями"), а я танцую практически без заиканий на вейвинге (без остановов). Через пару лет таких умельцев будет море, и хип-хоп будут выдавать все танцоры кизомбы, и даже зука. Я же потихоньку оглядываюсь по сторонам уже сегодня: очень много чудесного (и часто незаслуженно забытого) стайлинга можно брать из свинговых. Мне свезло, я попал на фестиваль свинговых, слушал чудесный живой джаз и даже танцевал под живую джазовую музыку -- https://vk.com/moscowcomesaround2019 (меня танцующего под джаз можно даже увидеть на заднем плане вот этого видео: https://vk.com/video-178725410_456239031). А ещё идут занятия в нашей экспериментальной группе социального мультиданса, и я много пишу всякой теории для этого: https://vk.com/buffdance (смотрите там посты последней пары недель).
2019

Вычислительное мышление: эскиз структуры в сентябре 2020

Это просто рабочий дамп текущей структуры: чтобы собрать какие-то замечания и структурировать дальнейшую работу. Предыдущие развёрнутые материалы были в книге ОдО2020 (https://ridero.ru/books/obrazovanie_dlya_obrazovannykh/) и https://ailev.livejournal.com/1477090.html. Ключевые влияния с тех пор:
-- предложение проконтролировать, что речь действительно идёт о трансдисциплине (обучение условного директора стадиона во втором бакалавриате), а не о начальном курсе программистской специализации (обучение будущего айтишника).
-- экспоненциальный рост представленности на рынке нецифровых вычислителей (оптические и квантовые машины). То есть через пару лет это будет общее место, и директор стадиона не должен будет считать их шайтан-машинами и не должен говорить "цифровизация" (это ж нецифровые компьютеры).
-- выход ОдО с интеллект-стеком и определением трансдисциплин как управления вниманием, а также понимание "курсового окружения": пререквизитами будут онтологика (онтология, эпистемология/научное мышление, логика) и системное мышление.

Цель курса: дать связанные с системным моделированием объекты, на которые обращать внимание в проектах.
На что это должно быть похоже: что-то среднее между "системным мышлением" и книжкой "главный алгоритм" Педро Домингоса как обзором вычислений для AI.

UPDATE из комментов: каждый день к директору стадиона подкатывает кто-нибудь с "цифровой трансформацией", "цифровой экономикой" как способом что-то заработать — но директору непонятно, что именно заработать, и всегда при этом почему-то просят деньги, а не дают. Ему хотелось бы понимать, в каком месте рассуждения его с этим "цифровым двойником стадиона" и "цифровым двойником спортсмена" и "цифровым двойником болельщика" дурят. А ещё директор обнаружил, что его айтишник называет себя архитектором предприятия и в какой-то мере сам является цифровым двойником директора: без него почему-то не обходится ни одно совещание, и директор хотел бы понимать, как так вышло. Дочь директора вдруг заявила, что её сознание будет уже через пару лет загружено в компьютер, и поэтому она бросает учиться и просто ждёт этого момента: директор хотел бы поддержать на эту тему разговор, но не очень понимает, что в этой области происходит. А ещё ему на семинаре объяснили, что без квантового компьютера сейчас нельзя, его айтишник глубоко поддерживает идею, но почему нельзя, и почему это так дорого стоит?!

Вот курс вычислительного мышления должен помогать директору во всём этом: не как компьютерному профи, а как человеку, который должен фильтровать весь этот околоайтишный шум, который вокруг него происходит. Вокруг него давно не происходит физического, химического, механико-инженерного и прочего подобного шума, а айтишные разговоры про какие-то модели и цифровые трансформации — с утра до вечера. Как так получилось, почему так?! В этих разговорах и нужно помочь.

Конечно, директор стадиона тут условен: речь идёт отнюдь не только о корпоративном софте.

Как проверять усвоение материала, какая тут практика? Так же, как в курсе системного мышления: эссе на тему того, как делается системное описание в рабочем проекте, как идут вычисления по используемым в нём моделям.

Предварительная (ни разу не окончательная! это первый дамп, версия 0.0.1) программа курса:

1. Вычислительное мышление в интеллект-стеке
-- для чего нужны вычисления
-- границы с онтологикой (физика, математика, вычисления -- физичность вычислений и т.д.)
-- границы с системным мышлением
-- границы с кругозорами (инженерия для вычислений -- software engineering, data engineering)
-- информатика как работа с текстами и кодами
-- скорость вычислений и исследование операций

2. Понятие вычисления
-- логика/inference как вычисления (включая causal inference)
-- объяснения в вычислениях
-- доказательства как вычисления
-- моделирование как вычисление
-- мышление как вычисление
-- проблема генерации (вычисления нового)
-- модели и данные

3. Структуры и базы данных
-- системное моделирование как формализация/кодирование/онтологизирование
-- имитационное моделирование как рендеринг/деформализация
-- моделирование данных (онтологии/графы знаний)
-- коннективистские модели (языковые модели)

4. Основные вычислительные парадигмы
-- императивное программирование
-- функциональная оценка
-- логическое программирование
-- вероятностное программирование
-- квантовое программирование
-- дифференцируемое программирование (и нейросетевое программирование как подкласс)
-- генетическое программирование и эволюционные алгоритмы
-- NLP и что там из искусственного интеллекта (inference в парадигме QA)

5. Многоуровневость вычислений (стеки и конвейеры/ленивость)
-- размытость границы софт-хард
-- ленивость и t-shirt конвейер Алан Кея сотоварищи
-- компьютерная архитектура
-- Осы, виртуализация

6. Основные типы аппаратуры вычислителей
-- аналоговые компьютеры
-- цифровые компьютеры
-- статистические компьютеры (вычислительная оптика)
-- квантовые компьютеры
-- разные вычисления (на DNA и прочей экзотике)

7. Распределённые вычисления
-- компьютерные сети и закон Амдаля
-- компьютерный туман
-- совместные вычисления людей и экзокортекс
-- совместные вычисления людей и компьютеров (exploratory programming)

8. Представления и нотации
-- мощность, безопасность, человеколюбие языков программирования
-- графика против текста

9. Искусственный интеллект как вычислитель
-- сжатие, внимание и сознание, воображение и т.д.

10. Особенности обеспечения/жизненного цикла вычислителей
-- жизненный цикл вычислителя (от компьютерной инженерии до DDD в корпоративном IT -- есть ли особенности?)
-- использование вычислителей для создания вычислителей (от кремниевых компиляторов до AI-автокомплита в IDE)
-- вычисления "в малом" и "в большом"
-- закон Мура и аналогичные ему представления

UPDATE: обсуждение в чате блога в телеграм, начиная с https://t.me/ailev_blog_discussion/4370, обсуждение в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10219479934403066
2019

Курс вычислительного мышления: надо делать!

Студиозус в первом семестре института мехатроники и робототехники СТАНКИНа имеет только два предмета из инженерного кругозора: машиностроительные технологии и инженерную компьютерную графику. Всё, инженерия на этом закончилась. Остальное -- продолжение средней школы: химия, физика, математика, информатика, иностранный язык. И продолжение индоктринации (враг не пройдёт!): физкультура, история, русский язык. Это чётко показывает, что в вузах нет продуктивных идей по поводу современного бакалавриата. Понимание, что в школе чему-то недоучили -- это есть. Но нет понимания, чему именно. "Мы учили 11 лет ребёнка русскому языку, и ещё он каждый день разговаривал и писал по-русски, жил-то в России. И что-то плохо получилось -- умней он от этого не стал. Давай поучим ещё в бакалавриате, вдруг всё-таки поумнеет?!" -- логика примерно такая.

Продолжаю определяться с тем, куда думать в четвёртом квартале (https://ailev.livejournal.com/1535897.html). По очкам начинает выигрывать тема сдвижки с места вычислительного мышления. Аргумент Вячеслава Мизгулина, что без этого курса и системная инженерия и системное моделирование в системном мышлении, и кусок с моделированием в онтологике не очень понятны -- он остаётся, в этом месте у нас пока образовательная дыра. Я сообразил, что и в части мышления о личном и корпоративном экзокортексе без вычислительного мышления плохо, да и моделирование предприятий тоже как бы в воздухе: как системное мышление лежит в основе системного менеджмента, так и вычислительное мышление! И в части понимания как думать об AI, что сегодня уже совсем актуально (если фон-неймановский компьютер для выпускника 2000 года не шайтан-машина, то нейросетевые алгоритмы уж точно загадочны, а квантовый компьютинг уж совсем непонятен -- а ведь уже полно коммерческих сервисов, типа https://forge.qcware.com/, https://aws.amazon.com/braket/).

Кому предназначен этот курс? Хорошее предложение было -- поглядеть на директора стадиона как студента. Ибо если какой-нибудь программист будет делать курс вычислительного мышления, то он неявно будет стараться породить себе подобного -- тоже программиста, соблазн велик! А нам нужна постановка вычислительного мышления, а не выпуск очередного программиста. Понятно, что директор стадиона нуждается в вычислительном мышлении, ибо активно работает со всевозможными моделями. Но не факт, что он хочет быть программистом, и что его нужно готовить к программированию. Речь идёт о трансдициплине, а не о прикладной дисциплине. Это даже не кругозорная дисциплина типа программной инженерии/системной инженерии. Нет, это трансдисциплина: как думать о моделях и вычислениях над ними, на что обращать внимание (какие объекты в этой предметной области). И помним, что речь идёт о computer science, которая всё чаще и чаще рассматривается сегодня как "экспериментальная наука".

Текущая постановка задачи курса вычислительного мышления была сформулирована в середине 2019 года в https://ailev.livejournal.com/1477090.html, в каком-то чуть упрощённом виде она вошла в книжку "Образование для образованных 2020" (https://ridero.ru/books/obrazovanie_dlya_obrazovannykh/). Это, конечно, сильно отличается от текущей трактовки в MIT, где computational thinking это главным образом про численные методы (вычисления же!) и как их реализовать на классических компьютерах (https://mitmath.github.io/18S191/Fall20/). На данном такте (конец 2020 года) эту постановку задачи нужно докручивать в стыковке с курсами онтологики и коммуникации а также системного мышления. Вот текущее понимание предмета, в сверхкомпактной форме:
Вычислительное мышление (computer science) -- это управление вниманием в ситуациях вычисления (как системное мышление -- это управление вниманием в ситуациях с системами). Вычисления -- это работы вычислителей с описаниями (тезис extended computer, аналогичный тезису extended mind нужно рассмотреть отдельно). Вычислители (алгоритмы, реализованные компьютерами самых разных архитектур или живыми мозгами) не должны восприниматься как шайтан-машины: это основная задача курса. Описания=тексты (концепция "всё есть текст") и коды. Работы с описаниями -- работы информатики (https://ailev.livejournal.com/1008054.html, перетекстовка, кодирование, отекстовка, перекодирование). Стык с системным мышлением: описания -- это информационные модели системы, или же информационные модели других описаний (описания описаний). В ситуациях вычислений (в том числе вычислений интеллекта -- мышления) должны быть объекты внимания, при отслеживании которых можно создавать успешные вычисления (успешные описания aka моделирование данных и успешные вычислители aka алгоритмы для вычислений как работы с описаниями). Моделирование, программирование, онтологизирование -- это одно: подготовка описаний к вычислениям. Программная инженерия и компьютерная инженерия -- это про разработку и воплощение успешных вычислителей над данными описаний (вычислители -- это алгоритмы, они воплощаются софтом и аппаратурой, граница между которыми весьма условна).
Это всё онтологически чистить, раскрывать, потихоньку формировать последовательность изложения.

UPDATE: обсуждение в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10219409311557539
2019

Мощность вычислителей оцениваем в тера/триллионах, пета/квадриллионах, экза/квинтиллионах

Я разделяю идею, что нужно срочно усилить интеллект человечества, чтобы решить сегодняшние "проблемы человечества" типа биологического бессмертия и быстрого перемещения на другие планеты, а ещё поставить новые задачи, которые сегодня ещё никому не пришли в голову. Для этого нужно поднять интеллект людей (у меня про это месяц назад вышла книжка "Образование для образованных 2020", https://ridero.ru/books/obrazovanie_dlya_obrazovannykh/), и поднять интеллект компьютеров.

Интеллект компьютеров, похоже, зависит главным образом от вычислительной мощности -- это так называемый "горький урок" (http://incompleteideas.net/IncIdeas/BitterLesson.html), полученный анализом всех прошлых прорывов в области AI. Все эти прорывы оказывались прорывами не столько в хитрых конструкциях самого интеллекта, сколько прорывами в вычислительной мощности, которую давали простым алгоритмам. Поэтому внимание исследователей искусственного интеллекта обращается к HPC, high performance computing. Я писал довольно много об этом три недели назад в "сладкие плоды горького урока: спасение закона Мура на многих системных уровнях, https://ailev.livejournal.com/1533055.html и добавил потом, что во второй половине 2022 года (уже через пару лет) ожидается переход на 3нм проектные нормы, а 5нм чипы уже вовсю производятся прямо сейчас https://ailev.livejournal.com/1534180.html.

Ну и как, это окупается? Да, июльское 2020 исследование Hyperion research показало, что это зона сверхприбылей: каждый $1 инвестиций в HPC возвращает $44 -- https://www.dellemc.com/resources/en-us/asset/analyst-reports/products/ready-solutions/hyperion-hpc-investment-brings-high-returns.pdf. The financial ROI of HPC database consists of over 150 use cases worldwide that show an average revenue of $463 dollars per dollar of investment in HPC, as well as $44 of profit for every dollar of investment in HPC. To put that into context, for an HPC system purchased at $100,000 by a private corporation, the analysis estimates that the profit will be around $4.4 million (хотя там это и отличается по отраслям -- самая высокая отдача в финансовом секторе $61 на доллар инвестиций в HPC, а в розничной торговле хуже всего -- ROI всего $12 на каждый доллар. Это и "традиционное имитационное моделирование" (курс computational thinking на Julia обсуждает движение в эту сторону, https://mitmath.github.io/18S191/Fall20/), и AI на суперкомпьютерах (про что я писал в тексте про сладкие плоды горького урока).

Гонка мегагерц в компьютинге закончилась (примерно на 5ГГц, неплохо! и даже на арсенид галлия пока не переходили), гонка числа ядер в процессоре не закончилась (ядра, правда, стали не процессорные, а вычислительные) -- по факту это гонка компактности вычислителя, где CPU, DTU (передача данных между вычислителями), GPU (неуниверсальные наборы вычислительных ядер для наиболее частых вычислительных операций) упаковываются буквально на один чип, и счёт транзисторов там пошёл на триллионы (2.6 триллионов транзисторов в очередном чипе Cerebras, я писал об этом в "спасении закона Мура"). Почему важно всё иметь на чипе? Потому что компактность даёт простоту сборки (сборка становится не нужна) и скорость самих вычислений (все передачи данных внутри чипа). Для чипа 1.2 триллиона транзисторов нужно было отвести 15Квт с площади примерно тетрадного листа (и решить ещё много каких других вопросов -- https://techcrunch.com/2019/08/19/the-five-technical-challenges-cerebras-overcame-in-building-the-first-trillion-transistor-chip/). Переход к давно ожидаемым 3D архитектурам на чипе только усугубляет проблему теплоотвода, так что толку от этого не будет. Но и тут есть экспоненциальный рост: https://arstechnica.com/science/2020/09/researchers-demonstrate-in-chip-water-cooling/ и даже двухдневной давности статья в Nature https://www.nature.com/articles/s41586-020-2666-1 про Co-designing electronics with microfluidics for more sustainable cooling. Там вот такие цифры: Our results show that heat fluxes exceeding 1.7 kilowatts per square centimetre can be extracted using only 0.57 watts per square centimetre of pumping power. We observed an unprecedented coefficient of performance (exceeding 10,000) for single-phase water-cooling of heat fluxes exceeding 1 kilowatt per square centimetre, corresponding to a 50-fold increase compared to straight microchannels. Это прорыв, электроника никогда больше не будет прежней.

Но люди из AI всё чётче и чётче говорят свои хотелки: языковые модели с триллионом/тера параметров. Помним, что GPT-3 это 175млрд. параметров (175Гигапараметров, чтобы было проще сравнивать). Вот что такое 1Терапараметр по части вычислительных затрат: Training a trillion-parameter model would require the combined memory of at least 400 Nvidia A100 GPUs (which have 40GB of memory each), and Microsoft estimates it would take 4,000 A100s running at 50% efficiency for about 100 days to complete the training. И вот Microsoft вчера открыло библиотеку DeepSpeed, которая даёт ускорение в подобных расчётах -- DeepSpeed can train a language model with one trillion parameters using as few as 800 NVIDIA V100 GPUs -- https://www.microsoft.com/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/. We obtain close to perfect-linear compute efficiency scaling and a throughput of 47 teraflops per V100 GPU. This is impressive scaling and throughput for the given hardware. А ещё в этой библиотеке технология ZeRO-Offload allows training up to 13-billion-parameter models on a single NVIDIA V100 GPU, 10x larger than the state-of-the-art while retaining high training throughput of over 30 teraflops per GPU. Это всё про Volta, даже не Ampere! Всё это опирается на более низкий системный уровень ускорения арифметики: Triton, a language and compiler centered aroundthe concept oftile, i.e., statically shaped multi-dimensionalsub-arrays. Our approach revolves around (1) a C-based lan-gauge and an LLVM-based intermediate representation (IR)for expressing tensor programs in terms of operations onparametric tile variables and (2) a set of novel tile-level opti-mization passes for compiling these programs into efficientGPU code -- http://www.eecs.harvard.edu/~htk/publication/2019-mapl-tillet-kung-cox.pdf

Как всегда, напомню, что не меньше всего происходит в области оптических и квантовых вычислителей. При этом ускорение тут идёт от классического AI-компьютинга: то, что настраивать параметры квантовой системы проще при помощи нейронных сеток, это уже общее место. Но вот новый поворот, ускорение производства: среди тысяч однофотонных наноизлучателей нужно быстро найти бездефектные. Использовали подход машинного обучения для тестирования, и процесс пошёл в сто раз быстрее -- https://www.purdue.edu/newsroom/releases/2020/Q3/new-machine-learning-assisted-method-rapidly-classifies-quantum-sources.html. Помните "кремниевые компиляторы", когда первые компьютеры начали помогать проектировать новые чипы? Вот это то же самое: классические компьютеры помогают проектировать и даже делать квантовые компьютеры. Такое происходит сейчас практически каждую неделю (это только то, что публикуют. Боюсь, не всё публикуют).

Пока всё в посте было конкретно, измеримо, архитектурные идеи абсолютно понятны.

А теперь поглядим на такие "новости" (в кавычках), как запуск IBM и Тодаем (университет Токио) Quantum Innovation Initiative Consortium -- https://www.hpcwire.com/off-the-wire/ibm-and-the-university-of-tokyo-unveil-the-quantum-innovation-initiative-consortium/. Профессор Макото Гоноками, президент Тодая сказал следующее: "Общество 5.0 -- это концепция лучшего будущего, с инклюзивным [включающим самых разных альтернативно одарённых, пардон май френч], самоподдерживающим ["устойчивое развитие", гомеостаз -- привет из 80х, когда это слово было модным] и знание-ёмким обществом, где информация и сервисы создают пользу на основе цифровых инноваций. Ключ к воплощению такого общества -- это использование реальных данных в реальном времени. Чтобы этого достичь, необходимо защищать и пестовать глобальную окружающую среду, сущность физического и киберпространства как одну, ... дальше я не могу переводить это бла-бла-бла, сами идите по ссылке и удивляйтесь. Не думаю, что перевод с японского на английский и далее на русский сильно тут что-то исказил, этот новояз чиновников универсален. Мы никогда не узнаем, что ж там реального будет сделано, кроме поставки одного квантового компьютера в Японию. Ни одного слова о сути проекта.

Фантастический, конечно, текст профессора Макото Гоноками, просто как какая-то словесная каша от GPT-3, не несущая никакого смысла, кроме как перечисления "очень модных слов" очередного поколения бюджетного процесса. Краткий пересказ: "Общество с очередной модной цифрой поколения -- это за всё давно и десятки лет известное хорошее и модное при неупоминании всего неизвестного плохого. Типа реальных данных против данных моделирования (прошлая мода была на модели), и эти реальные данные просто стали модней предыдущего поколения бюджетного цикла, там были действенные данные/actionable data. А ещё помним, что бывают ещё и вычисления реального времени, а то как-то подзабыли уже, а они ведь рулят!". Каждое слово фантастически ничего не означает, типа "цифровых инноваций", это очень удобно для бюджетного процесса.

А ведь всё с точностью наоборот: квантовые компьютеры ни разу не цифровые в привычном компьютерном смысле этого слова, поэтому как раз в данном случае "антицифровые инновации". Но это никого не волнует, это ж передовицы из газеты "Правда" (я ещё застал эти передовицы!). Так что не читайте на ночь новостей о государственных программах поддержки того или сего в AI или HPC. Они никак не продвигают понимания происходящего в сфере HPC, только вносят информационный шум. Ничего эти новости от крупных чиновников не меняют в наших жизнях. Ну, меняют в жизни пары человек из пары компаний, которые долбят пару чиновников в надежде на какие-то бюджеты из денег налогоплательщиков, и поэтому показывают удачные примеры других таких же пилильщиков бюджета под модные слова. И пиар-пиар-пиар. Но мы ж тут не про это? И не рассказывайте, что "только за счёт госинвестиций" (вариант: "только за счёт военных программ") у нас на планете прогресс. Враньё чистой воды, выход ICT на терагерцы (тоже прогресс: терагерцовые волноводы на чипе с крутыми изгибами -- https://www.nature.com/articles/s41566-020-0618-9), терабайты в памяти, терапараметры в нейронных сетках, уже петафлопы (квадриллионы) в операциях в секунду (https://medium.com/@khairy2011/tpu-vs-gpu-vs-cerebras-vs-graphcore-a-fair-comparison-between-ml-hardware-3f5a19d89e38) произошёл не за счёт крошечных государственных инвестиций, как бы ни пытались пиращики их нарисовать драматически "ключевыми". Нет, это всё рыночная экономика.

А экономика госпредпринимательства? Когда прибыли частных компаний, а убытки налогоплательщиков? Японский проект компьютеров пятого поколения (пролог-архитектуры) загнулся, и ничего не дал. Российский поисковик "Спутник" тихо закрыт на прошлой неделе, после траты 2млрд.рублей (а что, в момент запуска это кому-то непонятно было, включая обеспечивавших финансирование чиновников? Формулировки-то какие "государственный сервис закрыт из-за изменения стратегии компании" -- кто там кем рулит, государство компанией или компания государством?! https://www.gazeta.ru/tech/news/2020/09/08/n_14908952.shtml. Деньги-то чьи были потрачены, налогоплательщиков или от коммерческих сервисов -- но тогда причём тут государство?! А вот 2017 год, уже было понятно, что проект мёртвый: https://ria.ru/20170512/1494144326.html, что ж его кормили ещё три года?!). Это во всех странах так, циничность чиновников и высших чинов транснациональных корпораций в США не знает границ, когда речь идёт о распиле госбюджета, в этом они одинаковы с коллегами из всех стран мира.

Поэтому у меня в ленте про госпроекты вы читаете мало, а про усиление интеллекта -- много. Вопреки разбазариванию ресурсов через госпроекты мы говорим уже о триллионах/тера характеристиках в вычислителях, начинаем говорить о квадриллионах/пета (я писал о начале этого говорения в 2009 -- https://ailev.livejournal.com/699111.html) и примериваемся к экза/квинтиллионам (сейчас самый быстрый суперкомпьютер Fugaku имеет скорость 0.54 квинтиллионов операций с плавающей точкой двойной точности FP64 в секунду, но его быстро превзойдут -- https://en.wikipedia.org/wiki/Fugaku_(supercomputer). Эти квинтиллионы имеют значение, человечество с их помощью становится умнее. И это происходит с такой скоростью, что скоро придётся вспоминать, что там после квинтиллионов/экза.

UPDATE: обсуждение в https://www.facebook.com/ailevenchuk/posts/10219387175524152
2019

Сладкие плоды горького урока: спасение закона Мура на многих системных уровнях

При переписке учебника я воткнул вместо предыдущих рекордов (FPGA-чипы) информацию про чип Cerebras-1, у которого было 1.2 триллиона транзисторов. Сегодня пришлось это место переписывать: следующее поколение Cerebras уже 2.6 триллиона транзисторов, https://www.anandtech.com/show/16000/342-transistors-for-every-person-in-the-world-cerebras-2nd-gen-wafer-scale-engine-teased. При этом там демонстрируют и масштабирование уровня выше чипа, что мне представляется тоже крайне важным, закон Amdahl от 1967 года, который говорит о том, что параллелизация имеет цену, тоже никто не отменял. Cerebras делает Neocortex: суперкомпьютер на двух CS-1 модулях (каждый на 1 чип Cerebras-1, то есть всего два таких чипа в суперкомпьютере) и сервере памяти Superdome Flex от Hewlett Packard Enterprise, уже к концу 2020 -- https://www.cerebras.net/pittsburgh-supercomputing-center-selects-cerebras-to-power-its-new-groundbreaking-ai-supercomputer-neocortex/

Ещё по этой линии новостей масштабирования от уровня чипа вверх: NVIDIA построила седьмой в мире по мощности суперкомпьютер Selene за срок 3.5 недели силами команды 6 человек, всего там 280 вычислительных узлов, в них 2240 GPU и 560 CPU, AI performance 1.4 exaflops. И это всё во время пандемической истерии: To unbox and rack systems, we used two-person teams that didn’t mix with the others — they even took vacation at the same time. And we did cabling with six-foot distances between people. That really changes how you build systems. she said. Дизайн включил сетевых чипов по отношению к GPU как 1:1 (тоже новация! Это даёт x4 повышение эффективности в связности чипов GPU). Для работы там был использован и робот телеприсутствия, чтобы подойти посмотреть, что там происходит в датацентре, не выходя из дома в два часа ночи. Вот полная история: https://blogs.nvidia.com/blog/2020/08/14/making-selene-pandemic-ai/. Именно этот компьютер (собранный за 3.5 недели!) побил кучу рекордов в AI бенчмарке в июле -- https://blogs.nvidia.com/blog/2020/07/29/mlperf-training-benchmark-records/.

Вообще, в мире вычислений всё бодро. Intel в докладе на Hot Chips в этом году шутит, что "число людей, объявляющих о том, что закон Мура достиг своего конца, удваивается каждый год". И хочет достичь x1000 роста в железе (включая оптимизированный стык между железом и софтом) к 2025, https://www.anandtech.com/show/15990/hot-chips-2020-live-blog-intels-raja-koduri-keynote-200pm-pt. На конференции Hot Chips ещё много весёлого, типа объявления о разработке Manticore, чипа с 4096 ядрами RISC-V и рекордной эффективностью на FP64 (да, вычисления с такой точностью ещё много кого интересуют) -- https://www.anandtech.com/show/16007/hot-chips-2020-live-blog-manticore-4096core-riscv-330pm-pt

И это чисто в кремнии. Если отойти в оптику, то там всё более чем бодро: https://venturebeat.com/2020/08/17/photonics-startup-lightmatter-details-p1-its-ai-optical-accelerator-chip/. Написано там мутновато, но само вычисление задач типа ResNet-50 на ImageNet на чипе Lightmatter в 1 миллиард транзисторов вроде как идёт 80 пикосекунд ("со скоростью прохождения света через чип"). И на паре последних абзацев там напоминается о существовании и других стартапов оптических вычислений в AI. Экспонента новых технологий на её начальных стадиях меееееееедленно растёт, зато потом всё неожиданно быстро. С оптикой тоже так будет: много лет ничего-ничего-ничего, кроме "исследований", а потом вдруг быстрый-быстрый выход в мейнстрим.

И даже квантовые вычисления как-то продвигаются: AWS в этом августе даёт повычислять на квантовых компьютерах в своём облаке, и это уже регулярный сервис Bracket, а не preview сервиса, как у Azure Quantum (и там куча разных компьютеров, а не только закрытые версии нестандартной архитектуры, как у IBM и Google). Вот: https://venturebeat.com/2020/08/13/amazon-launches-braket-quantum-computing-service-in-general-availability/.

Конечно, это всё не насытит голод AI на вычисления. Вот тут, например, обсуждается вычислительная мощность, потребная для создания GPT-4 -- https://www.reddit.com/r/MachineLearning/comments/i49jf8/d_biggest_roadblock_in_making_gpt4_a_20_trillion/. Вся хардверная инженерия пока тут рядом не стояла. With GPT-3 costing around $4.6 million in compute, than would put a price of $8.6 billion for the compute to train "GPT-4". Если поверить людям из Intel, обещающим x1000 к 2025 (мне в это верится с трудом), то что-то подобное GPT-4 мы увидим лет через пять. Ну, поглядим. Будущее уже здесь, только оно неравномерно распределено, и ужасно дорого стоит.

Почему это важно? Горький урок от Sutton помните? Он звучит "как вы не пыжьтесь с подъёмом интеллекта, все достижения связаны не с хитростью алгоритмов, а с ростом вычислительной мощности". Вот по этой линии и выращивают сладкие плоды всё более и более мощных компьютеров, они понятно для чего будут использованы (отнюдь не только для моделирования ядерных взрывов и прогноза погоды!). И этот рост компьютерной мощности размазан по многим системным уровням. Это всё примеры системного мышления, многоуровневые архитектуры -- от частей транзистора до датацентра с роботом телеприсутствия. Хрестоматийные кейсы, демонстрация мощности системного мышления, триумф системной инженерии.

UPDATE: обсуждение в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10219225279716858
2019

Онтологии в 2020: в поисках интенциональности, причинности, байесовщины, здравого смысла и т.д.

Тут должен был быть длинный пост про затяжную весну коннекционисткой онтологической инженерии, но уже написанный кусок его был закушан компьютером на обед, и поэтому я просто приведу тут некоторое чтиво для памяти:
-- 2016, коннекционистская весна онтологической инженерии, https://ailev.livejournal.com/1283541.html (отмечаю стагнацию онтологической классики и взлёт вариантов knowledge graphs+нейросетки. Помним, что transformer появился только в 2017 году! Ещё и arument mining поминаю). И в этом же 2016 году было про онтологии и бибинарную модель мышления -- https://ailev.livejournal.com/1305176.html (культурное-дичок, формальнодискретное-непрерывное, вторая шкала по сути про края спектра формальности/строгости мышления, и там ризонер против нейросетки как реализационные механизмы для этих краёв. Но ведь есть ещё и середина, которую все ищут, и движение по спектру!).
-- 2018, онтологическая инженерия в 2018, https://ailev.livejournal.com/1447922.html (тут основная мысль, что онтологическая работа уже совсем-совсем ушла от классических онтологов, и ведётся в разных других местах. И даже не называется как онтологическая работа! Вывод нужен в ответах на вопросы, и там даже соревнования появились. Кстати, одно из помянутых соревнований вполне живо, там в мае 2020 было обновление -- как раз SoTA по поддержке ответов фактами, https://hotpotqa.github.io/, и сейчас в 2020 по QA такие работы как https://arxiv.org/abs/2006.04131).
-- 2020, июнь, пост https://ailev.livejournal.com/1525111.html, где я отвечаю на вопрос про моё мнение по онтологической организации данных. Моё мнение, что не upper ontology там нужна, а языковая модель, и ссылка на работу CYC 2010 года, где демонстрируется, что из модели мира в рассуждениях по domain подтягивается сильно больше common sense, чем можно ожидать. И чтобы напомнить: в 2019 люди в CYC занимались выводом в сверхбольших базах данных -- https://www.cyc.com/resources/publications, жизнь там не останавливалась.
-- 2020, вчерашний пост vvagr https://www.facebook.com/victor.agroskin/posts/4293851813965910 про всё то же самое с лаконичным содержанием "чорт, как же напрягает изучать месяцами новую (для меня) предметную область, и обнаруживать в ней только лишь статьи не позднее 2011 года. ну 2013. как будто она закрылась, эта самая область (", и мой ответ "Не закрылась. Просто направление ветра переменилось ))) Как раз в 2012 году, если помнишь ))) [победа свёрточных сеток в соревновании ImageNet]", на что Виктор ответил, что результатов у нейросеток, сравнимых с результатами классических онтологов до сих пор нет, и новых результатов у классических онтологов тоже нет, все задачи так и стоят нерешёнными. Я отвечал, что если бы продолжали эти задачи решаться прежними методами, так и остались бы эти задачи не решёнными! А теперь брезжит шанс. Нужно ж было ещё вычислительную инфраструктуру подтянуть до правильных масштабов (причём прежними ручными методами масштабов недостижимых!). Опять же, и постановку задач нужно было существенно поменять. Не все прошлые задачи представляются сегодня хорошо поставленными и осмысленными. Ну, и видел я эти онтологические помойки (в CYC ещё хоть как-то была попытка уменьшить помойку через микротеории, но вот в ISO 15926 там мрак был внутри онтологии, использовать было просто нельзя по совокупности причин. Да, помоечность онтологий никто не отменял, равно как дикую трудоёмкость создания помоек). Так что всё одно нужно идти другими путями.
-- 2020, появилась ведь ещё и причинность. vvagr находит argument mapping (не путать с майнингом!) https://en.wikipedia.org/wiki/Argumentation_scheme и https://en.wikipedia.org/wiki/Argument_map, я отмечаю его в посте https://ailev.livejournal.com/1527250.html и дальше в фейсбук-дискуссии к посту kapterev добавляет про issue mapping https://en.wikipedia.org/wiki/Issue-based_information_system, а vvagr добавляет про докрутку всей этой классической логическоей аргументационно-причинной механики до байесовской в трудах Matthias Grabmair https://www.lti.cs.cmu.edu/people/222217573/matthias-grabmair ещё в 2010 году, https://drive.google.com/file/d/0Bx2Wbx6CAo3IUm1YNlY0dkVxNmc/view. Сейчас Matthias Grabmair продолжает работы по extracting representations и ответам на вопросы -- https://arxiv.org/search/?searchtype=author&query=Grabmair%2C+M

Тут ещё ключевой момент в том, что вычислительных мощностей для нормальной работы не хватает, банально и алгоритмы ещё сырые, и аппаратура дохлая. Вычислительная мощь в этих задачах опеределяющий фактор, тезис Sutton. Я как раз добавил оценки экспоненциального роста вычислительных возможностей, нужных для решения текущих задач в AI https://venturebeat.com/2020/07/15/mit-researchers-warn-that-deep-learning-is-approaching-computational-limits/ к давнишнему тексту про AI at Scale, гонке экзафлопсов -- https://ailev.livejournal.com/1519171.html. И ещё материал про петафлоп в коробке для пиццы -- новый процессор Graphcore, https://venturebeat.com/2020/07/15/graphcores-m2000-ai-computer-can-achieve-a-petaflop-of-processing-power/

Вот эти вероятностно-причинные эпистемологические онтоизыски с ответами на вопросы с аргументацией и будут дальше развиваться. А классическая онтологика выживает пока как knowledge graphs, и John Sowa правильно указывает, что там всё плохо: повторяются решения 60-х годов, только огромных размеров. Никакие "умности", наработанные за десятки лет, в этих knowledge graphs не замечены -- даже микротеории как в CYC, хотя без этого ведь никуда! И сам John Sowa пытается напирать на стандарт DOL, поскольку это интеграционный онтологический стандарт, в котором в основании честная логика и честная математика. Но нет интенциональности, причинности, байесовщины и прочей эпистемологичности, плюс гигантской модели языка/common sense, которые только и способны сделать из старинной идеи вычислительной метафизики что-то полезное.

UPDATE: обсуждение в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10218966256881449 (бесовщина, на выходе даёт шайтан-машину).
Пояснение: не хотел писать интенСиональность, чтобы не путать с математической интенсиональностью, интенЦиональность тут о прагматизме.
2019

lytdybr

СМС2020.19 стартовал, вся группа -- айтишники, кроме одного financial controller. Чаще всего айтишников была треть, или половина. А тут вдруг -- почти все! Москва, Московская область, Киев, Санкт-Петербург, Новосибирск, Пермь. Один человек в пятый раз, абсолютный рекорд Школы! За целый день едва-едва успели обсудить роли в проектах, даже на полчаса задержались.

Помогаю одному из вузов в стратегировании. В чём главная проблема? В редукционистском мышлении: когда явно не выделяются системные уровни, то малоосмысленные фразы типа "транзисторы в автомобильной промышленности", "мемристоры в медицинской промышленности". Вы представляете, сколько там человечьих команд, каждая из которых держит какой-то уровень на пути от транзистора к IP на этом транзисторе, к чипу в какой-то полупроводниковой технологии, к плате какого-то контроллера с чипом, к полноценному запрограммированному контроллеру (тут появляется ещё софт! Транзисторов уже не видно!), к какой-то подсистеме автомобиля с контроллером (уже и софта не видно!), к продуктной линейке этих автомобилей, к автомобильной промышленности в целом? Это я очень грубо и по прямой нарезал, но там же на каждом уровне нюанс на нюансе! Системное мышление -- это когда очень чётко отслеживаешь, к каким системным уровням какой системы относятся твои описания. Мне организаторы этого стратегирования мягко заметили, что история длинная, и нельзя ожидать, что люди вот так сразу услышат про системные уровни и что-то там начнут уточнять в презентациях, а то и в самой стратегии! Да, история длинная. Нельзя ожидать, что какой-то завкафедрой, д.т.н. -- и вдруг пройдёт семестровый курс системного мышления. Хотя для человека такого калибра это будет не семестр, а несколько дней -- если вдруг решит пройти. Отдельно -- увидим ли мы результат этого прохождения курса в стратегии? А пока можно только попечалиться, что представляемые на рассмотрение стратегии -- не системные. А какие? Редукционистские, привязки к системным уровням в них нет. Учитесь стратегированию у фирмы NVIDIA, напомню свои посты:
-- NVIDIA и интеллект-стек (2017 год) -- https://ailev.livejournal.com/1380163.html и https://ailev.livejournal.com/1347563.html
-- NVIDIA и стек роботакси (2017 год) -- https://ailev.livejournal.com/1384766.html
-- NVIDIA как поставщик вычислительной инфраструктуры (2018 год) -- https://ailev.livejournal.com/1416697.html
-- аппаратный стек NVIDIA текущего года -- https://ailev.livejournal.com/1518306.html

В книжке "Образование для образованных" по-прежнему 83%, но я начал менять по тексту "компетенции" на "мастерство". И тут же выяснилось, что это была засада типа "стейкхолдеров": иногда "компетенция" в тексте использовалась как "роль", иногда как "дисциплина", иногда как "практика", иногда как "мастерство". Поэтому менять приходится очень по-разному. Сказать "компетенция" я успел примерно 130 раз. Половину примерно уже исправил, и это оказалось не быстрым.

Обнаружил засаду в своём ноутбуке: когда солнце из окна берёт хотя бы 10% площади корпуса моего ноутбука, он перегревается -- и процессор уходит в полный ступор, мышка не бегает, а ходит скачками, буквы печатаются по одной в три секунды. Делаешь ноутбуку тень -- через 60 секунд вентиляторы справляются, и всё восстанавливается. На графике process explorer оказывается, что всё замеряется в относительных процентах: вот у тебя Zoom берёт 13% процессора, а вот он же вдруг берёт 80%! Но нет, берёт он столько же, это просто процессор стал маломощным! И это падение производительности процессора нигде не отображается. И это у меня так себя ведёт самый навороченный бизнес-ноутбук! Так и вспоминается спецификация автомобиля Роллз-Ройс: "Мощность мотора: достаточная". Достаточная, пока не выглянет солнце.

Последний мой выход в город, последние танцы -- 26 марта 2020. Первый выход в город, первые танцы -- 20 июня 2020. А до этого дома было хорошо, никуда ходить было не нужно.
2019

AI at Scale: к гонке экзафлопсов для AI присоединилась Майкрософт

Я дважды на прошлой неделе писал про начавшуюся гонку экзафлопсов. Кто богат, тот будет и машинно умён:
-- "В мире AI всё по-прежнему экспоненциально", где упоминал строительство NVIDIA собственного суперкомпьютера и переходе в NVIDIA на мышление "датацентрами" и их фрагментами: https://ailev.livejournal.com/1518306.html
-- "SoTA искусственного интеллекта принадлежит богатым, и это не случайно", где давал ссылки на исследования формулы прямой связи числа параметров и количества шагов вычислений в нейросетках с их качеством работы: https://ailev.livejournal.com/1518532.html

Вчера Майкрософт сделал инициативу AI at Scale, присоединившись к клубу строителей суперкомпьютеров для AI -- https://innovation.microsoft.com/en-us/ai-at-scale (технические подробности у них тут: https://ms-innovation-dev.azurewebsites.net/en-us/exploring-ai-at-scale). Речь идёт о публично доступной облачной инфраструктуре Azure с хорошо провязанными между собой кластерами с GPU V100 от NVIDIA. В качестве примера эффективности гигантомании в машинном интеллекте даётся нейросеть MS Turing NLG на 17 млрд. параметров. Всё это вычислительное богатство предлагается использовать в бизнесе, прямо сейчас, кому угодно -- только плати!

Microsoft вложила некоторое время назад $1млрд. в OpenAI. И значительная часть этих денег пошла на обеспечение масштаба в вычислениях, реализуется тот же тренд. OpenAI с Microsoft построили пятый по величине в мире суперкомпьютер, исключительно для своих исследований, о чём вчера и объявили -- https://venturebeat.com/2020/05/19/openai-microsoft-azure-supercomputer-ai-model-training/. Текст по ссылке обсуждает в том числе сложное сочетание тренда на пока экспоненциальное уменьшение объема вычислений для выполнения стандартных задач из https://venturebeat.com/2020/05/05/openai-begins-publicly-tracking-ai-model-efficiency/ и не менее экспоненциального роста требуемой компьютерной мощности в связи с ростом самих задач. Мало того, что весь "разгон" за счёт эффективных алгоритмов съедается растущей сложностью задач, но требуется этот рост сложности ещё и кормить добавочной вычислительной мощностью.
UPDATE: оценки экспоненциального роста вычислительных возможностей, нужных для решения текущих задач в AI https://venturebeat.com/2020/07/15/mit-researchers-warn-that-deep-learning-is-approaching-computational-limits/. А Graphcore готов выдать петафлоп в объёме коробки из-под пиццы -- https://venturebeat.com/2020/07/15/graphcores-m2000-ai-computer-can-achieve-a-petaflop-of-processing-power/
UPDATE: OpenAI построил модель GPT-3, которая может генерировать текст в несколько абзацев, неотличимый людьми от текстов, написанных людьми -- и на генерацию 100 страниц текста там уходит 0.4Квт*час, это буквально несколько центов, https://arxiv.org/abs/2005.14165

Ещё один знак: вся эта мощность начинает уходить не в обработку изображений и аудио, как было до сих пор. Нет, эта мощность начинает уходить на языковые модели, работу с текстами. AI как-то научается читать, и вынимать из огромного количества текстов кривую "народную" (ни разу не научную!) модель мира. Качеством данных, которыми кормят эти суперкомпьютеры, уже озаботились. Но вычислительной мощности весь этот текстовый интеллект требует вполне сравнимо с визуальным интеллектом. А идеи совместного обучения с аудио, видео и текстами требуют и вообще запредельных пока компьютерных мощностей. Но и в этом направлении есть прогресс, за счёт того же AI at Scale, пример тут майские рекорды по шести видам задач на описание изображений текстами -- https://www.microsoft.com/en-us/research/blog/objects-are-the-secret-key-to-revealing-the-world-between-vision-and-language/

NVIDIA тоже построила суперкомпьютер для своих исследований AI. И Гугль построил. Все участники гонки строят корпоративные и облачные "AI-синхрофазотроны" для исследований в AI, ибо машинный интеллект монетизируется примерно так же, как человечий интеллект, так что его выгодно разрабатывать. Монетизацию исследований элементарных частиц трудно придумать, а синхрофазотроны пока стоят ещё дороже, чем суперкомьютеры для AI. Но скоро суперкомпьютеры будут стоить уже дороже, чем синхрофазотроны, и они будут частные. Несмотря на тренд удешевления вычислений (он никуда не делся! с 2017 по 2019 вычисления подешевели в 100 раз, по 10 раз в год -- https://venturebeat.com/2020/06/04/ark-invest-ai-training-costs-dropped-100-fold-between-2017-and-2019/), потребность в объёмах этих вычислений растёт быстрее. Гонка экзафлопсов идёт давно (https://en.wikipedia.org/wiki/Exascale_computing), но теперь она ориентируется не на моделирование погоды или ядерных взрывов, а на задачи AI, и ведётся частным сектором.

Вот это, я понимаю, "межотраслевые переливы капитала". Вот это, я понимаю, "структурная перестройка промышленности". Увы, ждём активного вмешательства политиков: слишком большой масштаб происходящего, чтобы они прошли мимо.

UPDATE: обсуждение в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10218480891667622
2019

В мире AI всё по-прежнему экспоненциально

Сегодня стали известны характеристики очередного чипа от NVIDIA -- GPU А100 (монстр на 400 ватт, https://www.nvidia.com/en-us/data-center/a100/), ускорение вычислений за четыре года в 9 раз (среднее геометрическое по группе приложений машинного обучения):

Этот чип упаковывается по восемь штук в компьютер DGX за $200тыс. (версия этого компьютера на V100, которые вдевятеро медленней, стоила $130 в 2016, https://ailev.livejournal.com/1257675.html -- не точно закон Мура, но очень похоже), и этот компьютер выдаёт 2.5 PFLOP нового формата плавающих 32TF в одном толстом рэке. Новости этой архитектуры: она одинакова для обучения и вывода (раньше были специализации чипов для этих целей), и она хорошо масштабируется в рамках датацентра. NVIDIA объявила, что она теперь занимается вычислениями на уровне датацентра (и для этого купила Mellanox, специализирующийся на чипах DPU, чипы обработки данных). Сообщение было недвусмысленным: наследуем прежний интерфейс к ускорителям, обещаем сохранить этот интерфейс, и выдать масштабируемую линейку вычислителей. От роботов через суперкомпьютер к датацентру, где единицей является DGX SuperPOD (большой такой шкафчик с рэками). Свой внутрифирменный суперкомпьютер SATURNV они доращивают до 4.6 ExaFLOPS. Подробности читайте в https://blogs.nvidia.com/blog/2020/05/14/gtc-2020-keynote/.

Так что видим развитие на многих системных уровнях (я даже не все тут привожу, их много больше), пример системного, то есть многоуровневого, развития:
-- новая архитектура кремния, 7нм проектные нормы, причём подхаканная под потребности NVIDIA
-- чип А100 с новой архитектурой тензорных вычислений и новым типом плавающих
-- плата GPU ускорителя с этим чипом и интерфейс суперкомпьютерной шины
-- суперкомпьютер DGX (термопакет! отвести всё тамошнее тепло -- отдельная задачка) в 8 платами ускорителей и внешними интерфейсами к SuperPOD
-- SuperPOD, набитый суперкомпьютерами DGX и высокоскоростными сетевыми соединениями
-- Data Center, составленный из этих SuperPOD. То, что NVIDIA теперь поставщик универсальных датацентров для AI (а не чипов, а не плат), это и есть суть громкого объявления.

И мелкое объявление, что этим всем они могут торговать и в розницу, отдельно элементами каждого системного уровня. Даже DGX они готовы продать не целиком, а частями!

Наконец, объявлен вычислитель для роботакси (помним, что они его обещали выдать в 2021 году -- пока всё идёт по расписанию), там производительность 2PetaТOPS и потребляет это чудо 800Вт (одна метрическая лошадиная сила -- это 735 ватт. NVIDIA сделала для роботакси мозг в одну лошадиную силу, очень символично. И это немного, мощность какого-нибудь внедорожника сегодня от 200 до 400 лошадиных сил).

Всё-таки я снимаю шляпу перед системными инженерами из NVIDIA. Они абсолютно последовательно реализуют идеи системного мышления. Практически на каждой GTC конференции они объявляют о том, что сверху к имеющемуся стеку платформ добавляют ещё один системный уровень. А обнаруженные ими практики жизненного цикла поддерживают своими платформами. Основное в их презентациях -- это платформенные стеки и жизненные циклы. То, чему я учу на курсах, у них просто факты жизни, они так думают, они так делают. Поглядите их презентации, они для меня выглядят как иллюстрации к курсу системного мышления:

Хотя NVIDIA, конечно, лукавит про "самый большой чип в мире" (там 53млрд.транзисторов в A100). Cerebras тоже вполне работает, хотя там наверняка проблемы с софтом (нет "наследуемой архитектуры" и полчищ разработчиков), нет системных уровней выше одного рэка, но в чипе там аж 1.2трлн. транзисторов. Компьютер CS-1 на чипе Cerebras работает с ноября прошлого года в Argonn National Laboratory, и поэтому мы ничего не узнаем об этой работе (она обычно делает точное моделирование ядерного оружия). Хотя вчера там таки появилась информация, они занялись проблематикой COVID-19, и стало возможно об этом написать: https://www.cerebras.net/argonne-national-laboratory-and-cerebras-systems-leverage-the-worlds-fastest-ai-supercomputer-to-advance-covid-19-research/. Что пишут? Всё то же: ускорение вычислений в сотни раз. By using the CS-1, ANL can train models hundreds of times faster than before.

Прошлогодний тезис Sutton (что в AI значима только вычислительная мощность, а алгоритмы там оказываются простыми, http://incompleteideas.net/IncIdeas/BitterLesson.html) в очередной раз получил мощную многоуровневую системную поддержку.

Но что это я про суперкомпьютеры? Техники ускорения алгоритмов нужно смотреть и на смартфонах: там ведь скорость работы алгоритмов AI вообще критична. Вот из последних новинок: compression-compilation co-design, CoCoPIE позволяет работать нейросетевым алгоритмам на смартфоне в реальном времени, https://www.cocopie.ai/. Тут тоже прирост в разы: генетатор CoCo-Gen outperforms all other frameworks for all cases. On CPU, CoCo-Gen achieves 12× to 44:5× speedup over TFLite, 2:3× to 8:1× over TVM, and 1:9× to 15:5× over MNN, respectively. On GPU, CoCo-Gen achieves 2:5× to 20×, 4:1× to 11:4×, and 2:5× to 6:2× speedup over TFLite, TVM, and MNN, respectively. А pruning этот CoCoPIE делает до x180 в сравнении с TFLite. Авторы там напирают, что это позволяет иметь приличные нейросетки на телефонах, но и на крупных компьютерах это было бы неплохо реализовать!

И ведь это не единственная работа в таком направлении. Разгоном нейросеток занимаются сегодня все, это мейнстрим.

Но добавьте сюда последние улучшения и в самих "простых алгоритмах", которые и кушают всю эту вычислительную мощность. Так, самое свежее пришло из Uber (при этом тамошний начальник Stanley уже объявил, что с июня уходит работать над своими эволюционными алгоритмами в OpenAI) пару недель назад: https://arxiv.org/abs/2004.12919. Там продолжили тренироваться на видеоиграх Atari и превзошли предыдущие результаты где в разы, а где и в 150 раз, и впервые получили алгоритм, который один и тот же во всех играх, и играет лучше хороших игроков, хотя без некоторых добавок пока хуже чемпиона мира. Они просто предложили алгоритму запоминать те состояния игры, которые достаточно разнятся между собой, а потом регулярно возвращаться в них, чтобы исследовать игру дальше из этих состояний (до этого просто бродили-исследовали, не возвращаясь). И тут же получили резкий рост эффективности исследования.

А теперь представьте, что таким исследователям выдают машинку, которая способна ускорить их эксперименты вдесятеро! Держу пари, что эти ребята не будут ускорять свои текущие эксперименты. Нет, они будут двигаться в исследованиях примерно с той же длительностью отдельных вычислений, что и сегодня, но вот каждый эксперимент они будут делать вдесятеро более ёмким по вычислениям. И поэтому будут решать всё более и более трудные проблемы. В том числе и проблемы ускорения вычислений, AI ведь потихоньку уже изобретает сам себя, хотя и не так активно, как мог бы. Но это пока. Помним, что расчёт языковой модели сегодня может стоить до $1млн.. Нынешними темпами через пять лет (10 раз софтом,, 10 раз железом) это будет $10тыс.. И при таких ценах мы увидим ещё много новых приложений. Интеллект из машины будет стоить дешевле грибов, этот производимый на заводах интеллект и есть сегодня главная сила, меняющая мир. Да, и вас эта сила тоже поменяет, кто б сомневался! Экспоненты, они такие. На то, что там S-curve, пока и не надейтесь. Закону Мура ведь уже десятки лет предрекают смерть, но этот праздник пока продолжается.

UPDATE: обсуждение в чате блога с https://t.me/ailev_blog_discussion/3011, в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10218427462171918