Category: общество

Category was added automatically. Read all entries about "общество".

2019

Кругозорные витамины для жизненного опыта (common sense knowledge graphs для large language models)

Второе пришествие здравого смысла/common sense/кругозора в AI
Кругозором мы называем то, что в AI издавна называют common sense и плохо переводят как "здравый смысл". Нет, речь идёт о наборе фактов, которые уже есть у интеллекта и которые используются при мышлении. Классический пример -- это "любой человек знает, что из перевёрнутого стакана вода выливается", и таких знаний у людей огромное количество. У компьютера таких знаний нет, поэтому чисто логический вывод в конкретных ситуациях не работает: информация о ситуации у компьютера обычно неполная, но люди недостающую информацию легко достают из своего необъятного кругозора (а дети имеют кругозор поменьше, и поэтому они не так умны). И тут начинаются проблемы:
-- кругозор необъятен, и его непонятно как получить вручную. Компания CYC просадила огромное количество денег на создание своей базы данных. И продаёт теперь лицензии на логический/дискретный/символьный кругозор, собранный вручную по $1млн.
-- кругозор необъятен, и поэтому логический вывод на нём вычислительно труден
-- кругозор состоит из бесчисленного количества исключений. Так, тот самый стакан с водой, если в центрифуге с вертикальной плоскостью вращения, то скорей стекло лопнет, чем вода выплеснется из него в тот момент, когда он оказывается "перевёрнутым". Или если вода в нём замёрзла, то она не выльется. Или если на стакане крышка. И всё это нужно учитывать в выводе, это defeasible reasoning (опровержимые рассуждения, https://plato.stanford.edu/entries/reasoning-defeasible/), и для работы с такими рассуждениями нужны не просто логики, а немонтонные логики, https://plato.stanford.edu/entries/logic-nonmonotonic/, позволяющие опровержение/retraction вывода. Вот эта "опровержимость" хорошо иллюстрируется моими замечаниями к решению тренажёрных задач (есть раздел учебника на эту тему), где инженеры вместо обсуждения наиболее вероятной ситуации обсуждают ситуацию с минимальной вероятностью, но формально опровергающую задуманный ответ. С естественным языком обычно всегда можно найти какие-нибудь маловероятные исключения и проблемы, редко встречающиеся, но делающие предположение формально не истинным (если хотя бы иногда не истинно, то в формальном исчислении ведь это просто "не истинно" -- доказательство от противного всегда сработает, достаточно предъявить один пример невыполнения правила!). И весь этот кругозор в конечном итоге привязан к контрфактическим рассуждениям, причинному выводу.
-- по факту речь идёт о формальной системе в theory theory, "онтологии". Знание о какой-то ситуации скорее всего будет в другой формальной системе, и общего вывода на этих системах не сделаешь.

Идея с кругозором поэтому осталась маргинальна, CYC с его дико дорогим и неуклюжим проектом уехал на обочину прогресса, и финансирование подобных проектов было прекращено, научное сообщество посчитало это полным тупиком, заниматься common sense стало неприлично, как до 2012 года заниматься нейронными сетями.

Но нейронные сети с 2012 года уже были, а с 2017 года в них на первый план вышли нейросетевые языковые модели (начиная с модели BERT архитектуры Transformer), в которых:
-- есть модель собственно языка, поэтому вход-выход этой модели не в виде ужасных формул (на входе тексты, на выходе тексты. И ещё можно говорить о "визуальных языках", рассматривать и картинки и целые ситуации). Тут решаются проблемы перевода, в том числе проблемы перехода от дискретных "словесных" (из символов/слов) к непрерывным репрезентациям (я писал про representational learning в 2015 -- https://ailev.livejournal.com/1045081.html). Понятия живут в непрерывных представлениях, а слова их представляют неточно, для перевода в слова делается discrete sampling -- иногда одно слово берём, иногда три для выражения понятия, иногда целую историю рассказываем. Но совмещать онтологии в таком пространстве можно, все построения Хофштадтера про "аналогии" работают! И даже есть что-то похожее на способность рассуждать, хотя с этим совсем непонятно: достаточно большие нейросетки типа GPT-3 со 175млрд. параметров или вновь появившаяся Switch Transformeк с 1.6 триллионами параметров (https://arxiv.org/abs/2101.03961) явно могут что-то выводить, но не очень понятно пока что и как.
-- есть знания о мире, а поскольку обучение идёт по какому-то гигантскому корпусу текстов (или текстов с картинками, или даже просто картинками), описывающих что-то в мире. Можно считать, что решена проблема кругозора (вот я обсуждал их связь с кругозором в 2018, https://ailev.livejournal.com/1449229.html).
Но не тут-то было. Нейросетевые языковые модели оказались тупы, причём очень похожим способом на тупость людей, у которых нет "машинки типов" (писал про неё https://ailev.livejournal.com/1532144.html -- машинка типов вскрывает нелепости в тексте). В кругозоре языковых моделей чего-то не хватает крайне важного, они генерируют легко как красивые художественные тексты, так и полную ахинею. Вот Евгений Пескин привёл пример диалога, типичный для людей и нейросеток, у которых нет этого контроля типов, нет учёта контекста социального взаимодействия/social-interaction с намерениями и какой-то связной онтологией для ситуации:
- Девушка, дайте мне таблетку.
- Вам какую?
- Белую.
- Послушайте, это аптека. У нас много белых таблеток.
- Одну дайте.
Этим вопросом опровержимого вывода и кругозора/common sense занялась Yejin Choi (https://homes.cs.washington.edu/~yejin/, https://arxiv.org/search/?query=Yejin+Choi&searchtype=all&source=header), у которой научная судьба похожа на судьбу выбравших нейронные сети "когда это ещё было не модно": ей все говорили, что у неё не будет денег и научных результатов с этим провальным "здравым смыслом", а она таки занялась проблемой, ибо:
-- вычислительные мощности выросли
-- появились непрерывные представления понятийных пространств (в том числе такие, как большие языковые модели, large language models типа BERT)
-- можно использовать не убогое формальное представление ситуаций, а полноценное языковое (ибо нейросетка хорошо работает с языком)

Команда Yejin Choi получила отличные результаты, которые можно посмотреть в ролике https://www.youtube.com/watch?v=h2wzQKRAdA8 и работах https://arxiv.org/abs/2101.00297, https://arxiv.org/abs/2012.08012, https://arxiv.org/abs/2010.12884, и особенно https://arxiv.org/abs/2010.05953.

Для вывода в AI вместо формально-логических триплов нужно использовать полноценный естественный язык
Первый вывод в том, что нужно использовать естественный язык для представления информации о common sense, ибо пространство понятий непрерывно, и никакие символы-термы не передают понятия точно (categories/concepts vastly outnumbered words and require free form open text description). Вывод в таком непрерывном бесконечном пространстве становится с этого момента generative as opposed to categorization/discriminative task -- ибо пространство вывода/inference/reasoning бесконечно, мы не выбираем результат рассуждения из ограниченного их набора, а порождаем результат мышления. Порождение идёт через абдукцию (поиск минимального объяснения к частичному наблюдению, и обычно требует дополнительной внешней информации, занимался этой абдукцией Charles Sanders Peirce, https://plato.stanford.edu/entries/abduction/peirce.html, и тут John Sowa и Yejin Choi удивительно единодушны). Тут можно обсуждать о том, как вообще делается вывод в нейросетях. Choi в своих работах обсуждает алгоритмы neural backpropagation (алгоритм DeLorean), search with logical constraints (алгоритм NeuroLogic), distributional neural imagination (reflective decoding). И таких работ по выводу в бесконечных пространствах понятий, которые можно выразить в языке, довольно много. Но всё одно там работает "машинка типов": logical constraints, правила, формулируются через and и or, это ж всё равно логический язык! Хотя речь в defeasible reasoning идёт не о строгих доказательствах (вывод не доказательный, non-demonstrative), а просто об "усиленном рассуждении" (ampliative reasoning).

Естественный язык недоспецифицирован, и это важно (замечу, что из онтологов практически то же самое говорит John Sowa, и он же говорит о необходимости выражения знаний на естественных языках, но далее он же спокойно говорит о формально-логических построениях в языке логики первого порядка/common logic, а вот Yejin Choi сразу говорит, что этих логических представлений и не нужно, естественный язык лучше). И дальше в тех местах, где люди обычно говорят "факты" или "отношения" или "триплы", Choi сотоварищи говорит сразу о правилах/rules и об элементарных выводах/inferences, которые могут быть использованы или опровергнуты/retract в ходе опровержимых рассуждений/defeasible reasoning.

Кругозорные графы знаний (common sense knowledge graphs) на естественном языке: без них большие языковые модели глупы
Второй вывод -- это то, что важных для вывода "отношений", "элементарных выводов" кругозорного уровня нет в исходных текстах, они оттуда не вытаскиваемы! Какие это отношения? Указывающие прежде всего на прагматику (чего обычно хотят люди, на что направлена коммуникация), на события (например, возможные препятствия к реализации намерений) и физический мир (использование объектов). А остальное? А про остальное есть надежда, что может быть вытащено из корпуса текстов (хотя опять же, исследования тут только-только начинаются).

Choi предлагает: давайте а) триплы просто представим как входной текст для обучения нейросетевой языковой модели, просто вот так вытянем их всех в линейку и скормим так же, как основной огромный корпус текстов. В модели кругозорного графа знаний/common sence knowledge graph/CSKG Atomic-2020 1.33млн. трипловых высказывания по 23 типам отношений, в виде текста это очень немного (явно завышенная оценка -- 100Мбайт) по сравнению с, например, 750GB текстов в Colossal Clean Crawled Corpus, на котором обучалась языковая модель Switch Transformer Гугля. Так сказать, "не еда, а витаминчики -- нужно их мало, но без них цинга и смерть". И вот тут оказывается, что "знаниевые витаминчики" бывают разными, эти CSKG отличаются друг от друга по типам представленных отношений существенно. Витаминчики для персональных ситуаций могут существенно отличаться от витаминчиков для обсуждения производства. Вот картинка из https://arxiv.org/abs/2010.05953, показывающая разнообразие CSKG по относительному составу входящих в них отношений:


А вот пример этих типов "триплов":


И вот когда вы набираете "витаминчиков" в том числе по социальным взаимодействиям, то можете дальше учитывать и моральные и этические соображения. Так что по этой линии выходят ещё и приложения к рассуждениям на темы морали и этики https://arxiv.org/abs/2011.00620, https://arxiv.org/abs/2008.09094. Машинки строгих выводов на строгих правилах не работают, ибо правила обычно сильно противоречат друг другу в реальных ситуациях, оказываются недоспецифицированными. Когда их начинаешь конкретизировать, то там сплошные противоречия и нюансы, но нужно как-то рассуждать на этом материале. Вот добавка этического и морального кругозора (descriptive ethics, https://en.wikipedia.org/wiki/Descriptive_ethics в отличие от normative через кем-то определённые правила ethics) позволяет тут сдвинуться с места и что-то думать про этику и мораль. Вывод в сложных моральных ситуациях (в "моральных витаминчиках" 300тыс. "правил") оказывается вычислительно трудным. Но если работать не в дискретной строгой логике, а "аппроксимировать", "порождать решение" в непрерывном пространстве, а не выбирать единственно верный ответ, то всё вполне работает.

Очень далёкая аналогия тут -- это в части трудности точных вычислений нестабильности планетных орбит. Но если взять нейронную сеть (свежий пример: https://arxiv.org/abs/2101.04117), то можно получить приближённое решение задачи, которое оказывается со всех сторон (точность, трудоёмкость вычислений) на порядки лучше, чем попытки вычислить точно. Если "слишком много всего учитывать" и этот учёт запутанный, то приблизительные решения в непрерывных представлениях оказываются легче достижимыми, чем в дискретном аналитическом представлении.

Это всё делает Allen Institute, поэтому "кругозорные витаминчики" доступны в open source: https://mosaickg.apps.allenai.org/ (хотя для атласа кругозорных отношений/atlas of commonsense relations Atomic-2020 ничего пока не было опубликовано, для более ранних работ наборы данных все опубликованы уже, так что ждём публикации окончательных работ, а не препринта в arxive, и дальше публикации датасета).

Так что CSKG/common sense knowledge graphs рекомендуют использовать как витаминчики, которые исследования/self-supervising learning по корпусу текстов сами выделить не могут, и поэтому предлагается их просто добавлять в концентрированном виде, "без воды" (как большой такой текст, полученный конкатенацией высказываний о триплах отношений). Где берём? Краудсорсинг, "механический турок", толока. Дорого?! Но тут идёт замечание, что это копейки по сравнению с обучением основной языковой модели на гигантских корпусах текстов, а результат получается ошеломительный: neural knowledge model Comet-Atomic2020 successfully transfers declarative knowledge to beat GPT-3, the largest pre-trained language model, in spite of using 400x fewer parameters.

Понятно, что эти "кругозорные витаминчики" совершенно не мешают, а только помогают потом настроить предобученную по корпусу текстов и кругозорному графу знаний языковую модель. А потом её ещё можно донастроить по какому-нибудь zettelkasten -- и если это личный экзокортекс, то получить личного помощника, а если это проектный экзокортекс (у нас ведь проектная команда вполне себе мыслит/вычисляет), то получить коллективного помощника. Этот помощник как минимум сможет содержательно отвечать на какие-то вопросы с учётом содержания zettelkasten, генерировать какие-то осмысленные тексты и предположения там, где "просто преобученная языковая модель плюс подстройка под предметную область" не справляется.

Я писал в "Предобучи, потом подстрой/pretrain then finetune" о том, что прикладное обучение будет делаться после обучения трансдисциплинам для появления какого-то кругозора, https://ailev.livejournal.com/1485511.html. Обучение людей и нейронных сеток вполне можно обсуждать как в чём-то похожие, и способы обучения брать из AI назад в педагогику/хьютагогику (https://ru.wikipedia.org/wiki/Эвтагогика )/андрагогику. Работы Choi указывают на развитие этой идеи: она считает, что нейросетки нужно учить не только давая доступ к богатому на объекты и действия миру, но ещё и так же, как и людей -- через чтение учебников (а не художественной или случайной литературы), проведение тьюториалов (а не путём "проблемного обучения", когда дают решить задачу, решение которой давно известно), то есть давая знания в декларативной/"объявительной" форме. Весь вопрос, какие именно это знания! Добавлять нужно те знания, которые трудно вытащить самому из окружающей среды. Например, знания о машинке типов (что можно вот так проверять тексты, вот так относиться к словам).

S1 и S2 это про осознанность, а не про распределённое против символического или про формальное против неформального
Третий вывод -- это то, что "автоматическое мышление" S1 нужно рассматривать по Канеману вместе с восприятием (object recognition, image segmentation), ибо нарезка мира на объекты идёт из восприятия. Этой нарезке на объекты нужно учить. И это знание об объектах тоже нужно давать декларативно/обучением, а не только надеяться на то, что правильные объекты будут выделены вниманием в ходе исследований. Нет, предыдущие усилия в исследованиях нужно брать -- и скармливать ученикам (тут мне уже без разницы, кремнивые эти ученики или мясные) "без воды" как материал для опровержимого и контрфактуального вывода. Но не в виде логических утверждений, а в сформулированном на естественном языке виде. Хотя да, люди учебник прочтут, но этот же материал в виде "естественноязыковых триплов" (то есть триплов не в RDF) не прочтут. И людям ещё потребуется немного поработать с этим материалом, чтобы его усвоить. Но речь идёт о целенаправленном процессе обучения, без надежды, что "поживёт, наберётся опыта". "Из опыта" объекты для S1 не берутся.

А дальше Choi с Kahneman хором (Канеман это делал несколько раз, последний вот тут, на AI Debates 2 в декабре 2020: https://www.youtube.com/watch?v=2zNd69ZGZ8o) уточняют про S2:
-- неверное понимание, что S1 это про распределённое представление, а S2 про символьное/язык. S1 тоже знает про язык, интуитивные мысли -- они вполне в языке! S1 делает львиную долю работы по выводу! Байесовский вычислитель в S1, и он отлично работает с понятиями! Другое дело, что понятия там в непрерывном пространстве и выражаются естественным языком. Вот это "понятийное мышление в бесконечном пространстве значений" естественного языка -- это ключ, оно необходимо. Язык есть, но он используется как язык в целом, а не отдельные слова или словосочетания или даже графы ситуаций типа фреймового представления знаний Марвина Минского (Choi подчёркивает вот этот факт: число выражаемых языком понятий бесконечно больше числа используемых в языке слов и устойчивых словосочетаний). И в S1 ни один вывод не верен абсолютно, выводы на этом понятийном киселе причинны и вероятностны по природе, а при добавлении контекста ("новых привходящих") все результаты вывода вполне могут быть объявлены враньём (в формальных онтологиях тут возникает проблема ontology revision -- менять/согласовывать придётся все знания, а не только текущий вывод. Даже использование микротеорий тут помогает мало). S1 держит представление мира, и оно каким-то образом имитационно моделирует мир (simulation of the world). Но оно отслеживает невязки (что укладывается в "нормальное", и что расходится с "нормальным", удивляет -- расхождение симуляции и реальности). Контрфактуальное мышление, причины и следствия, а ещё оценка эмоций и намерений, вплетение прагматизма, нацеленности на какой-то результат в деятельности -- это S1 мышление.
-- S2 это про "намеренное выполнение каких-то вычислений", это про надзор за вниманием (сознание, kahneman использует слово explicit в противовес implicit в S1). Нет, ключевое различие для Канемана -- это something that happens to you (S1) and something that you do (S2), и это всё внеязыковое или языковое тут уже неважно. Важно тут: для чего это мы напрягаемся какие-то вычисления/мышление делать, а не довольствуемся тем, что просто "случилось"? Для социальности, для коммуникации (включая коммуникацию с собой): только когда сталкиваемся с другими (или хоть и собой, но осознанно) мы занимаемся аргументацией, контрфактуальностью, удерживанием длинных цепочек причинных связей (то есть объяснениями), учётом этики, морали и вообще социальных взаимодействий.

По первому пункту ("S1 про богатое концептуальное представление, в том числе и естественный язык") я всегда говорил, что понятия могут быть представлены и ощущениями, и выражены синестезийно (это мы регулярно обсуждали в рамках разговоров о телесном мышлении, TAE и всём подобном, а также при обсуждении материала книжки "Визуальное мышление", https://ridero.ru/books/vizualnoe_myshlenie/).

Но вот эти уточнения про S2 удивительно похожи (вот прямо все слова совпадают) про дискуссию о сознании и внимании, и именно на это обратил в какой-то момент внимание Виктор Агроскин (https://vvagr.livejournal.com/2379034.html и видео семинара по трёхчастной модели сознания Graziano https://www.youtube.com/watch?v=lyOQhPlSxgI):
-- тоже упоминание о коммуникационном характере (при этом коммуникация может быть и с собой! но языковый "интерфейс" есть и в модели Graziano), значимости аргументации "для других", для себя же достаточно "ощущения правоты" от S1, незачем обращаться к трудному S2
-- удержание внимания при захождении в тупики, backtracking в рассуждениях, модель самого мышления (работа с контрфактуальностью и опровержимостью).
-- использование extended cognition для удержания внимания, а также подхват в мышление внешних вычислителей (коммуникация с другими)

Так что S1 выходит как "неосознанное/автоматическое/основное мышление" (и сопричастное ему восприятие, которое у Канемана рассматривается рядом!), а S2 -- мышление в рамках осознанности. А схема формальности оказывается про другое, про уход от естественного языка, про representation sampling -- переход от непрерывного пространства понятий к дискретной выборке из его точек. Но мышление про эти выборки из точек обсуждается отдельно в части S1 и S2 -- как неявное/implicit или явное/explicit, это совсем другая шкала. Поэтому про "спектр формальности мышления" нужно материал уточнить.

А ещё нужно учитывать, что для обучения хорошо бы использовать качественные данные: ибо обученная по помоечным датасетам сетка делает затем помоечные выводы (это было проверено работой . Если вы обучаете свою мокрую сетку по текстам "из этих ваших интернетов", а не по научной литературе и не по учебникам, то выводы у неё тоже будут вполне помоечными -- и это будет вне вашего внимания, вы этого не заметите. Поэтому учиться лучше бы не в "университетах жизни" (хотя и это нужно), но и просто в университетах, где хоть какой-то шанс, что тебе дадут качественных "знаниевых витаминчиков" для обучения, а не огромное количество фантазийных текстов непонятного качества и направленности для "набора опыта из жизни".
2019

lytdybr

Как я провёл этим каникулом? Да точно так же, как и рабочие дни, разве что докладов и моих тренингов не было, но читал-писал столько же. Впрочем, семинары тоже были, но доклады там были не мои. Отличия от рабочих будней были вечерами-ночами: на вечеринки ходил меньше, а ещё в ночь хорошо кушал, а ещё ложился где-то в пять утра, каждый день прямо таки расписание нового года, изо дня в день! Надо как-то теперь взять себя в руки, закончить этот праздник.

Внимание рассеяно по нескольким связанным темам: отслеживаю последние сдвиги в digital twins и digital engineering, и отслеживаю проблематизацию в текущей ситуации в AI -- это все идёт в краткосрочной перспективе в апдейт курса системного менеджмента (у меня же старт 31 января очередного потока, https://system-school.ru/sms), а в долгосрочной перспективе в курс вычислительного мышления. Часть материала я оформляю записями в блог, но часть так и остаётся открытыми табами для более подробного изучения.

Бодро все обсуждают, куда валить из фейсбука и твиттера. Ну, я по-прежнему остаюсь в ЖЖ, о котором все давно забыли -- а он есть, https://ailev.livejournal.com/ (и даже более короткий адрес есть: http://ailev.ru). Твиттер у меня не пользуется популярностью: я не говорю афоризмами, это точно не моё медиа (хотя эккаунт есть, но я туда не заглядываю). В фейсбуке у меня трансляция на https://www.facebook.com/ailevenchuk/, некоторым это удобно. Ещё трансляция ВКонтакте https://vk.com/ailev, ещё трансляция в фрифиде https://freefeed.net/ailev, ещё трансляция в телеграме https://t.me/ailev_blog (и там даже отдельный чат для дискуссии по постам https://t.me/ailev_blog_discussion. Если куда массово люди валят, и им очень нужно меня читать прямо там, то я всегда готов ещё трансляцию устроить, мне нетрудно.

А какое моё мнение по поводу отлучения от интернета? Особый смак -- это отлучение Трампа от ТикТок, который он активно запрещал вроде как из-за возможностей недемократического поведения, и ТикТок честно сказал, что будет вести себя демократически, и первым делом вычеркнул видео Трампа из дозволенных на платформе -- https://www.inputmag.com/culture/tiktok-censoring-trump-videos-is-the-laugh-we-needed-this-week. Parler CEO сказал, что после выкидывания его из Гугля и Эппла как каналов распространения, Амазона как датацентра, его бросили и провайдер электронной почты, и даже его собственные юристы -- https://www.theverge.com/2021/1/10/22223956/parler-ceo-john-matze-lawyers-vendors-abandoning. Ну, если тебе выдали анафему от одной церкви, выстрой свою и предай сам анафеме другую, история полна таких примеров: https://ru.wikipedia.org/wiki/Анафема. А потом тебя через сто лет причислят к лику святых, почему бы и нет. Для меня это значит "не пишите законов, пишите код" (а с учётом того, что тебе ещё и датацентры не выдают, то и стройте хардверные вычислители, а в какой-то момент могут и хардверные линии связи потребоваться). Церковь интернета оказалась да, мощна. Ну, нужно организовывать другие церкви, только и всего. Huawei уже пошёл по этому пути, нужно только немножко подождать. Меня давно смущало, что на планете есть только один интернет. Надо хотя бы пять, и чтобы они жёстко конкурировали, иначе будет застой, отсутствие развития, да и с безопасностью проблемы. Другое дело, что эволюция дело не слишком торопливое, и проблемы вот таким путём конкуренции всех со всеми решаются не быстро. Но в долгосрочном плане они решаются, а при отсутствии конкуренции -- нет, идёт долгое загнивание, потом убожество, потом смерть.

При этом Китай концепцию цифровой кармы, тьфу, системы социального кредита потихоньку продолжает реализовывать, 24 декабря 2020 для своих 1.4млрд человек выпущены руководящие материалы, поезд идёт -- https://www.reuters.com/article/china-economy-data/china-issues-rules-on-social-credit-system-amid-public-concerns-idUSL4N2J417K. Эти социальные кредиты интересная штука. Мало баллов? Иди монстров мочить, то есть защищать правительственную политику (за это дают баллы! а за участие в митингах баллы снимают!): https://en.wikipedia.org/wiki/Social_Credit_System. То есть понятие "неблагонадёжный", сиречь "враг народа" чётко публичится и приравнивается к понятию "вор" и "хулиган". А цифровая трансформация? Вот это она и есть, в государственных масштабах: цифра меняет и способы ведения бизнеса, и способы борьбы с инакомыслием.

И да, исследования по предсказанию политической ориентации даже по внешности уже тут. Using a dataset of over 1 million Facebook and dating sites profiles from users across Canada, the U.S., and the U.K., Kosinski and coauthors say they trained an algorithm to correctly classify political orientation in 72% of “liberal-conservative” face pairs. И ответили на самую разную критику, которая была неминуема, https://venturebeat.com/2021/01/11/outlandish-stanford-facial-recognition-study-claims-there-are-links-between-facial-features-and-political-orientation/. Перед тем как делать свою аватарку, подумайте трижды -- что вы этим хотели сказать людям? Ничего не хотели, ага. А алгоритмам что вы хотели сказать? Вот то-то же!

А я сам? Помним работу про ухоженные сады, которые чахнут от пацифизма -- https://www.greaterwrong.com/posts/tscc3e5eujrsEeFN4/well-kept-gardens-die-by-pacifism. Одного шибко политизированного и флудящего товарища пришлось в эти каникулы забанить из двух чатов поддержки онлайн-курсов. И за него ведь заступались! Жалею, что поддался на уговоры и дал ему порезвиться подольше. В следующий раз буду действовать быстрее. Оффтопы и флуд не пройдут, за возделанными садами нужно ухаживать: сорняки туда не пускать. Если хотят, пусть возделывают свои сады теми методами, которыми портят чужие.

Неделю назад поменял VPN с Hotshield Elite на NordVPN -- по субъективным ощущениям качество соединения осталось примерно такое же, а вот скорость включения-выключения выросла в разы (но страной выхода по умолчанию для России в NordVPN является Украина, и ты тут же лишаешься всех сервисов яндекса). Но это умолчание легко исправить. Спасибо людям, которые пишут код! Они помогают игнорировать людей, которые пишут дурацкие законы и Роскомпозор, который пытается эти законы реализовывать. А как я знаю, что законы дурацкие? А как вы узнаёте, что вам ответ на 2*2 дан дурацкий?! Когда-то мне Гена Лебедев в самом конце 80х сказал, что он думал, что вопрос политических пристрастий как вопрос свободы совести: нет доказательств -- выбирай политику, какую хочешь. А потом оказалось, что в рассуждениях на политические и политэкономические темы тоже работают правила логики, и у тех же социалистов в рассуждениях тупо логические ошибки. А дальше, как и везде в науках: где ошибок меньше, та теория побеждает, а остальные проигрывают. Вот дурацкие законы нелогичны, они следуют ошибочным теориям. При этом нужно учитывать, что в 21 веке ещё и сама логика поменялась (спасибо AI, там с этим много разбирались -- не нужно смотреть работы философов, эти писатели-фантасты тут вообще сбоку), и логика науки поменялась (эволюционная эпистемология Поппера-Дойча и open-endedness, объяснения с их контрфактуальностью и причинным выводом с учётом do-calculus вместо "истина" и "ложь", это ж всё 21 век).

Сходил на этих каникулах на интесив ламбазука: смесь ламбады и зука. За девять часов интенсива я, конечно, этот ламбазук не научился танцевать, но зато поисследовал людскую природу: мне многие говорили, что им лабмазук не очень -- вот я пошёл и поспрашивал тех людей, которым ламбазук очень. И у них вполне разумные аргументы: от "люблю скорость побольше", "люблю ощущение полёта в ламбе, а не качания на волнах зука", "в отличие от всё более сумрачной музыки в зуке, ламба -- это солнце, море и радость", "на высоких уровнях зука требуется зрелищность, а она есть только в ламбе" до бесхитростного "в ламбазуке фигуры девочек в среднем лучше, чем в зуке, значит и нам сюда"! Как говорится, "кто любит пиво, кто любит квас, а я ужасно обожаю контрабас!". Выпускная вечеринка удалась: подходили мои знакомые кизомби (среди зукеров мультидансеров не так уж и мало, их везде не так мало), и мы вместо этого мало мной освоенного ламбазука танцевали урбанкиз-таррашо с элементами всего подряд -- зука, ламбазука, танго и просто чистой импровизации. С танцами как с языками: после третьего каждый новый занимает меньше и меньше времени для его освоения. Но в ламбазуке обнаружилось ещё одно обязательное требование, которое быстро не выполнишь: девочками у мальчиков тоже ожидается фигура получше, при этом диаметр фигуры неважен, а вот грудь колесом -- важна. Так что для ламбазука мне нужно продолжать выпрямляться, без этого там никак.

И ещё было письменное новогоднее танцевальное приключение: с середины декабря много писал комментов в танго-сообщество (и даже сходил на одну альтернативную милонгу перед самым новым годом), https://www.facebook.com/groups/2979915785566910/permalink/3543216122570204/, https://www.facebook.com/groups/2979915785566910/permalink/3545906785634471/, https://www.facebook.com/groups/2979915785566910/permalink/3544173689141114/, https://www.facebook.com/groups/2979915785566910/permalink/3531910550367428/, https://www.facebook.com/groups/2979915785566910/permalink/3537208909837592/, https://www.facebook.com/groups/2979915785566910/permalink/3530302853861531/, https://www.facebook.com/groups/2979915785566910/permalink/3527640194127797/. Увы, пока ничего из этого приключения хорошего не вышло. Танго-тусовка сегодня делает акцент на исторических танцах и своём благородном происхождении, а любые разговоры о развитии понимает как подрыв основ. Тем не менее, танго интересно: более-менее полный танец идёт от работы ногами, корпусом, головой. Вот ноги -- танго, корпус -- таррашо, голова -- зук (ещё остались руки, и даже ламбазука для рук маловато будет. Руки, наверное, из хип-хопа таки тянуть нужно. Нет пока интересных рук в социальных танцах).

Собрал заодно материалы по танцевальным нотациям: https://vk.com/wall-179019873_1154. Это такой побочный результат дооформления проекта системной ритмики в музыке и танцах -- https://ailev.livejournal.com/1550157.html, https://system-school.ru/rhythm.
2019

SuperGLUE таки был взят в 2020

Тест SuperGLUE уже был пройден нейросетками T5 от Google и DeBERTa от Майкрософт лучше, чем людьми (https://super.gluebenchmark.com/leaderboard):



Это, кстати, произошло ещё в прошлом году (за 12 часов до нового года): https://twitter.com/sleepinyourhat/status/1344382025986437122.

Опять придётся делать новый набор тестов на понимание языка, старые "трудные для машины" тесты оказались трудней для людей, чем для машин. Вот небольшой обзор состояния понимания естественного языка (NLP/NLU) в 2020 -- https://medium.com/towards-artificial-intelligence/mini-nlp-cypher-mini-year-review-7917e12fb2e5

И никто уже такому не удивляется. Подумаешь, десяток трудных тестов на понимание естественного языка компьютер проходит лучше, чем человек! Кого этим сегодня удивишь?!

SuperGLUE создали в начале 2019, потому что тест GLUE перестал казаться трудным. Ожидали, что он продержится лет пять-шесть. Хватило двух лет.


UPDATE: пост майкрософт, https://www.microsoft.com/en-us/research/blog/microsoft-deberta-surpasses-human-performance-on-the-superglue-benchmark/, общие комментарии -- https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/
UPDATE: обсуждение в фейсбук -- https://www.facebook.com/ailevenchuk/posts/10220137563443381
2019

Видео мастер-класса "Системное мышление 2020"

Вот видео мастер-класса "Системное мышление 2020" на VI научно-практической конференции-биеннале "Системный анализ в экономике - 2020", https://www.youtube.com/watch?v=RL3U53FnjHE, слайды тут: https://yadi.sk/i/6CsaUAyNLH71zA. Был проведён в Zoom 10 декабря 2020.

Получилось в этот раз очень бодренько, и там ещё в конце были ответы на вопросы -- типа отношения к урбанистам и их системному анализу (тут же выплывает тема этики в системном мышлении: кто имеет право говорить от имени проектной роли "народ", есть ли одинаково понимаемое "общественное благо" или рулит субъективная теория полезности даже в урбанистике, а также тема аналитиков и системного анализа против темы инженеров и системного синтеза -- если урбанисты аналитики, то кто тогда синтетики?), или как системно находить проблемы в деятельности Элона Маска (скажем, как искать отрицательные последствия ухудшения экологии на Земле при реализации планов Маска снизить экзистенциальные риски путём полётов на Марс, я тут отвечал, что никаких отрицательных последствий Земле от снижения экзистенциальных рисков не вижу -- ну и дальше про диванные рассуждения на эту тему вместо деятельностных).

Один из лейтмотивов мастер-класса: на конференции "системный анализ в экономике" смотрим на свои проекты, и если в физическом мире от реализации этого проекта ничего не изменится, то этот проект можно не делать, вот вам и применение системного мышления.

Тут нужно обязательно сказать, что в экономике и менеджменте применяются обычно старинные варианты системного мышления, образца примерно 1983-1990 годов (работы Peter Checkland, Peter Senge, Peter Drucker, "если ты Питер, то ты гуру системного подхода", привет Питеру Щедровицкому). С тех давних пор (это ж 30 лет назад!) системное мышление двигали главным образом не менеджеры, а системные инженеры, ассоциация системных инженеров появилась в 1995 году.

Тест на наличие системного мышления:
-- Систематичность – это не системность
-- Системность – это использование понятий системного мышления для управления вниманием к важным объектам в проекте.
-- Если есть системные уровни (надсистема-система-подсистема), то системное мышление есть. Если нет – то нет, это редукционизм, игнорирование эмерджентности.
-- Пример, когда нет системного мышления: «Здание состоит из кирпичей»: правда, но бесполезная правда. Здание удобно считать состоящим из стен, а не кирпичей. А стены уже состоящими из кирпичей.

Книга "Системное мышление 2020": https://ridero.ru/books/sistemnoe_myshlenie/ (240 рублей)

Онлайн-курс: https://system-school.ru/systems-thinking (1 рубль на две недели, 1000 рублей на три месяца, 1500 рублей на год)

Чат поддержки: https://t.me/systemsthinking_course (бесплатная книга в припиненном посте в чате)
2019

Видео доклада "Вычислительное мышление 2020"

Опубликовано видео моего доклада по вычислительному мышлению:
-- само видео тут: https://www.youtube.com/watch?v=Z0Da9BJ9SiA,
-- слайды доклада https://yadi.sk/d/eOIuff7xdOTEDw,
-- библиотечка с литературой https://yadi.sk/d/ga11Jt16N-pTXA.
-- видео семинара по сознанию и вниманию (трёхчастная модель Грациано), который я поминаю в докладе -- https://www.youtube.com/watch?v=lyOQhPlSxgI, тезисы по сознанию и вниманию (а в комментах там и конспект обсуждавшихся на семинаре идей) в https://vvagr.livejournal.com/2379034.html

Основная мысль, которую я сейчас думаю (уже после доклада) -- это про computing-in-the-large как работа на более высоких системных уровнях. Я многократно раньше писал про это "программирование-в-большом", но это не связывалось с идеей системных уровней.

Получается, что у нас на каждом системном уровне (железо, софт кнута "в малом", софт кровавого энтерпрайза "в большом", софт домингоса "непонятно в каком") разворачивается своя информатика: свой набор важных объектов внимания, свои типы алгоритмов, свои специалисты, свои нынешние проблемы и приёмы их решения. Дальше вопрос о том, что там общего. Директора стадиона точно будут интересовать вопросы верхнего (прикладного) уровня кровавого энтерпрайза, а вот вопросы архитектуры "в большом" уже непонятно где становятся вопросами для software architect (а перед этим есть же ещё и enterprise architect), и уж точно вопросы "в малом" идут к спецам, а железо и подавно к спецам. Пойнт в том, чтобы выделить общее мышление, которое позволяет всем этим добрым спецами общаться между собой и ещё с ними общаться директору стадиона. Что общего в обсуждении набора операций квантового компьютера и обсуждением data driven enterprise, digital transformation, digital twin и прочих вроде как buzzwords, за которыми скрываются абсолютно конкретные проекты создания корпоративных вычислителей?

Когда я делал курс системного мышления, то о его применимости я говорил очень лаконично: "без его понимания курса системной инженерии не будет". Сейчас я бы добавил, что и понимания курса вычислительного мышления не будет, и курса системного менеджмента не будет, и понимания всего интеллект-стека не будет. Но сейчас можно привести много примеров как именно разные положения системного подхода позволяют решать проблемы системной инженерии, системного менеджмента и даже вычислительного мышления.

Если делать вычислительное мышление как пререквизит для курса "программной инженерии" (как специализации системной инженерии), то задача сразу становится проще. Но уже понятно, что нас интересует разворот в сторону трансдисциплины. Ибо какой системный менеджмент без понимания роли компьютеров в проекте? Какая системная (а не программная) инженерия?

Вот над тем, какие именно проблемы проектов что именно в вычислительном мышлении решает, и нужно подумать. Для системного мышления это заняло несколько лет. Для вычислительно мышления должно быть чуток попроще, ибо перед глазами уже есть образец того, что нужно (хотя и в системном мышлении ещё много работы в этом направлении).

Второй вопрос -- это обилие примеров текущего вычислительного мира. Но это быстроскисающий материал! Вычислители (как железные, так и описываемые непрерывно улучшающимися и всё более разнообразными алгоритмами) непрерывно меняются. Как и чему учить, когда материал меняется не за десяток лет, а за буквально пару лет? Курс системного мышления как-то отстаивался восемь лет. Восемь лет назад (2012) нейронные сети только-только стали заметными, квантовый компьютер был в будущем, о вычислениях объяснений (causal inference) знали только спецы. Если бы курс разрабатывали тогда, то он сегодня был бы полностью неадекватен. А если разрабатывать сегодня, то неадекватность будет уже через полгода: все примеры применения SoTA мышления катастрофически устареют! Ну, или нужно таки вытащить нескисающую часть (какую? алгоритмическое мышление, в которое добавить мышление в части квантовых алгоритмов? и на каком уровне -- мы ж не рассчитываем, что люди начнут писать программы после курса мышления, мы ж не программистов готовим!).

То есть с позиционированием курса, содержанием его, организацией разработки (я продолжаю мечтать, что этим не я один занимаюсь) по-прежнему огромные проблемы. И доклад на видео больше содержит не ответы на вопросы, а постановку задачи. Но поставленная задача -- это уже половина ответа.
2019

lytdybr

Книгу "Системное мышление 2020" уже можно заменить (или купить, если не было) в ЛитРесе и Амазоне -- https://www.litres.ru/anatoliy-levenchuk/sistemnoe-myshlenie/, https://www.amazon.com/Системное-мышление-Учебник-Левенчук-Анатолий-ebook/dp/B079Z19R9W/. Чат поддержки курса/книги с бесплатным вариантом (в припиненном посте) -- https://t.me/systemsthinking_course

Начинаю потихоньку раскапывать (ох, как это всё медленно):
-- вычислимость теоретическая против реальной (типа как машина Тьюринга вычислит всё, но часть вычислений будут длиться дольше, чем время существования вселенной. Отличаются прежде всего наличием вычислительного ресурса на достаточное время. Вычисления по time boxing -- в реальном времени, выбор алгоритма "быстрого, но не точного", а ещё зависимости не только от скорости операций, но и от памяти, зависимости мощности узла и пропускной способности, включая разборки с законом Amdahl и т.д.). Вроде как эффективность обучения и вывода в нейросетях и других архитектурах AI (эволюция, аналогиии и т.д.) тоже тут. Это вроде как computer science и computational science, взятые как естественные науки -- и их две. И там большая путаница чистой инженерии и инженерных эвристик с именно что наукой.
-- исследование операций, которое Берталанфи указал как одну из ведущих дисциплин, следующих из системного подхода (наряду с системной инженерией). Это про использование ограниченных ресурсов с максимальной эффективностью. Reinertsen приводит как источники знания для исследования операций как ведущей дисциплины операционного менеджмента довольно много всего айтишного.
-- экономика, которая про распределение редких ресурсов, но на базе праксеологии. Тем не менее, всякие типы аукционов для определения стоимости ресурсов -- это вроде как нужно искать в экономике.

Большой очередной флейм с моим участием про бесполезность визуального мышления. Как всегда, быстро скатываемся к обсуждению эпистемологии (ибо сразу ставится тезис о помощи визуальных средств мышлению), и тут же начинает пробуксовывать логика и онтология: https://www.facebook.com/groups/264158970440888/permalink/1503819776474795/. Спорщики остались при своём, я считаю, что очередная критика моей книги https://ridero.ru/books/vizualnoe_myshlenie/ так и не состоялась, ни одного нового аргумента в пользу "визуального мышления". Осторожней при проходе по ссылке на тред, там поводом художественная выставка того самого Фоменко (он ещё ведь и художник! Визуальный мыслитель, так сказать).

Обсуждение эпистемологии с Вячеславом Мизгулиным (у него в посте неожиданно появилась кибернетика 2.0 от РАН по поводу "фундаментальной организационной науки", и я откомментировал "второе пришествие трупа"): https://www.facebook.com/viacheslav.mizgulin/posts/3482001025187326. Свелось к спору о терминах, до эволюционной (попперианской и пост-попперианской) эпистемологии так и не дошло. А ведь обсуждение "настоящей организационной науки" делается как раз в эпистемологии, изнутри самой оргнауки её обсудить нельзя!

Вот тут обсуждаю геноцид норок армией Дании в отличие от отказа Швецией забивать своих норок (в России за шесть лет были планы удвоить поголовье норок, интересно, что будет теперь): https://www.facebook.com/eugene.peskin/posts/3636497223075836?comment_id=3636553696403522. Мой коммент -- реакция на то, что "норок жалко, их что сейчас забьют, что позже на мех". Я интересуюсь, попадут ли в Красную книгу норки, если их перестанут разводить на мех (сейчас их на фермах десятки миллионов) -- то есть лучше не забивать на мех и быть в Красной книге, или иметь популяцию в десятки миллионов, но кончать жизнь принудительно, а не от природных невзгод? Ну и дальше в таком духе.

Усомневаю 150-летние производственные циклы в https://www.facebook.com/petr.shchedrovitskiy/posts/3429153077171565, привожу графики Тони Себа по ускорению распространения технологий.

Роли ассистентов Монтессори педагогов -- кейс Лии Султановой по системному мышлению (когда-то приложил к этому руку), https://www.facebook.com/liya.sultanova/posts/3382993551814731

Лучшая картинка по поводу американского голосования:


UPDATE: обсуждение в фейсбуке -- https://www.facebook.com/ailevenchuk/posts/10219754105657176
2019

Доклад на конференции AnalystDays 11.

Выступил на тему системного мышления 2020 на AnalystDays 11 (2020, https://analystdays.ru/ru/talk/83548, презентация https://yadi.sk/i/-E0m6MzINMP3cQ)/), если будет видео -- я его сюда добавлю.

Часть содержания я раскрыл в презентации для студентов https://ailev.livejournal.com/1540586.html, но тут была адаптация доклада именно для аналитиков.

Например, я сделал там предъяву аналитикам, что они "диванные аналитики", а надо бы им стать инженерами. Это было как-то услышано и было много вопросов в кулуарах, но поскольку на конференции ещё и поддерживался дух "мы аналитики, поэтому мы сильны", то тезис этот было участникам конференции очень трудно принять. Он прямо противоречил тамошнему настрою на подъём профессиональной самооценки. А я указывал, что речь идёт не столько об аналитических практиках, сколько об инженерных и менеджерских практиках, а слово "аналитик" -- это пришлёпка сбоку, не сущностное, "должностное", а не предметно-содержательное.

Мой пойнт остаётся прежним уже много лет: аналитики это не синтетики, ответственность за изменения в физическом мире не берут (да им и не дадут эту ответственность), они "правая рука руководителя проекта" в части проведения свой синтетической работы в жизнь. Они ничего тем самым не решают, они советчики, решает руководитель проекта (в том числе он вынужден решать то, в чём аналитик разобрался, а этот руководитель проекта -- не разобрался).

Инженеры (по требованиям, архитекторы, по испытаниям/тестированию -- аналитики ведь и архитектурной занимаются, и планы испытаний пишут) по определению берут на себя ответственность и имеют полномочия по принятию решений в части изменений в физическом мире. Аналитики не имеют полномочий, и не хотят их. Они "понимают", их главный результат -- аналитический отчёт, а рекомендации их именно рекомендации. Инженер по требованиям, архитектор, инженер по испытаниям разрабатывают не рекомендации, а требования, архитектуру, планы испытаний. Аналитики не разрабатывают, у них другая функция: и даже если согласиться, что это "просто должность, а деятельность инженерная", то это они объяснят сами себе, всё их окружение об этом их инженерном самоощущении и догадываться не будет, встречать будет по названию должности -- и не давать полномочий по принятию решений. Так что делать? Прекратить называться аналитиками, подчинить анализ синтезу, назваться инженерами. И жизнь изменится. А аналитика куда-нибудь денется? Нет, никуда не денется. Инженеры занимаются аналитической работой в количестве, системный анализ обязательно в проектах присутствует, хотя он и подчинён задаче системного синтеза. Но об этом всём аналитики своим начальникам не скажут: зачем им брать на себя ответственность за решения, если им и без этого платят? Инженеры ведь иногда начинают совещание с вопроса "кто сидеть будет?", а у аналитиков такого вопроса нет!

Ещё там был круглый стол, на котором очень хорошо было видно, что допотопную версию системного мышления неандертальцев-дикарей типа кибернетиков Бира и Глушкова (хорошо известны как разработчики госпланов -- советского и чилийского) люди в массе своей не отличают от современного системного мышления образца 2020 года. Это как если бы люди не отличали аристотелеву физику (где палец давит на стол, а стол не давит на палец), ньютоновскую физику (где "массивные тела притягиваются друг ко другу") и современную физику (где никаких "сил тяготения" нет, "гравитационного поля" нет, а тела движутся по прямым в искривлённом пространстве-времени, https://www.youtube.com/watch?v=XRr1kaXKBsU. Если вы этого не знаете, то вы отстали с вашей физикой примерно на век! Что уж говорить о системном мышлении!).

Обратило на себя внимание полное непонимание предпринимательства. Обсуждение идёт не предпринимательской позиции, а "заказчика". И если ещё этот заказчик не "стейкхолдер" (то есть человек с фамилией, именем, отчеством), то беда: мышление спотыкается один раз на заказчике-как-проектной-роли (тем более что ролей там множество сразу, а не одна) и второй раз на предпринимательстве как явлении (ибо "что-то же происходит, когда заказчика нет"!). К чему это ведёт? Скажем, в OMG Essence есть зона интересов предпринимательства: и там нужно отслеживать состояние дел в части продвижения альф "возможность" и "внешние проектные роли". Если у вас в голове нет предпринимательства, то момент появления возможности и исполнителей внешних проектных работ в ходе проекта у вас будет не понят, и вы будете говорить что-то типа "проектное мышление не работает, OMG Essence не работает, системное мышление не работает". Это понимание предпринимательства в голове так говорящих не работает, да понятие "проект" склеивается только с "проектом PMI PMBoK" и расклеивается с operations research. Но с самими системным мышлением, OMG Essence и исследованием операций всё в порядке.

Вот я на этой конференции аналитиков:
2019

lytdybr

Вторая волна коронабесия характеризуется фразой "маразм крепчал": во время заказа в "Братьях караваевых" мне было велено одеть и перчатки тоже, иначе не будет обслуживания. Оплата бесконтактно и ничего руками не беру? Не волнует! Конечно, для разблокировки телефона пришлось снять перчатку с левой руки, для набора пин-кода -- с правой. Бесконтактная оплата в перчатках не работает! Впрочем, в этот момент перчатки никого не волновали, лишь бы я указывал на выбор блюда рукой в перчатке и проговаривал желаемый вес губами в маске. Лучше всего на тему второй волны и её безумств написано в резюме круглого стола во ВЦИОМ: https://www.facebook.com/gleb.kuznetzov/posts/3358064850981527. Тамошний вывод: если власти в первую волну говорили "мы пока ничего не понимаем, поэтому спросим у учёных, а до тех пор потерпите, мы что-нибудь предпримем", то во вторую волну они говорят "учёные ничего не знают, там 10тыс. препринтов с полным безумием, они договориться не могут, поэтому мы уж как-нибудь сами что-нибудь предпримем, без оглядки на учёных". А ещё отработаны механизмы принятия неконституционных решений мэриями, и к этому привыкли. В третью волну и ковида как предлога не потребуется, просто будут "принимать меры" неважно от чего, и безо всяких учёных.

Студиозус долбит матанализ: комплексные числа, бесконечные ряды. Инженерная графика -- это начертательная геометрия. По физике идут лабораторки, но ничего там руками делать не нужно, это ж дистант идёт! Всё это происходит в онлайне, поэтому нам известны и подробности процесса. Так, лабораторные работы по физике делаются путём обсчёта данных измерений, которые даются сразу в письменном виде. Расчёт погрешности идёт как прямой, а не косвенной, хотя погрешности -- это тема ОГЭ (девятый класс), то есть по сравнению со школой идёт детренировка. Выводы лабораторки были продиктованы. Будут онлайн-обученные робототехники, ага.

При этом "так называемый прогресс" от всего этого цирка, похоже, не слишком замедляется. Например, выучите новое слово: дентроника/dentronics (https://www.sciencedirect.com/science/article/abs/pii/S0109564120300762). А пока "британские учёные" придумывают новые слова, в эту в зубную робототехнику идут инвестиции: https://www.neocis.com/ (получили $72млн на фактически тиражирование их робота зубной хирургии, одобренного FDA -- https://venturebeat.com/2020/10/08/neocis-raises-72-million-for-its-dental-surgery-robot/).

в США уже планируют термоядерную реакцию запустить на новом токамаке, строительство могут начать чуть ли не в 2025 году. Это уже и Motley Fool пишет, вся научная пресса уже отписалась давно: https://www.fool.com/investing/2020/10/11/americas-first-nuclear-fusion-reactor-online-2025/. А что изменилось, в чём прорыв? Новые достижения в части сверхпроводящих магнитов. Вот ещё декабрьская 2019 года информация, всё идёт по объявленным тогда планам: https://www.nextbigfuture.com/2019/12/commonwealth-fusion-systems-raised-another-115-million-to-reach-arc-fusion-commercialization-phase-starting-2025.html
В фидике вдруг проснулась старая июльская тема перехода с яндекс.музыки на спотифай: https://freefeed.net/ailev/39f07de1-303e-4866-a950-f3a02347bcb8. Я сам пока не перехожу, подкасты там ещё в центре внимания, но уже не так навязчиво. Но перешедшие на спотифай люди выражают восторг и радость, и я задумался.

В эти выходные поучаствовал на фестивале DJ's Elite 3 совместно с KizzStars -- https://vk.com/kizzstars2020 (в прошлый раз я на этот фестиваль ходил в 2018 году, https://ailev.livejournal.com/1447611.html). Всё там было, как и раньше, только роль французов выполняли россияне. С ночных вечеринок я уходил где-то в полночь, зато шустрил на соушеле (это когда играют диджеи, и всё как на вечеринках, только без тонн макияжа и вечерней одежды, более уютно и по-домашнему). И посетил примерно половину мастер-классов. Перед этим я неделю смотрел ролики кизомба-олимпиады 2019 года, чтобы разобраться в текущих трендах. В кизомбе это нужно делать регулярно, потому как танец быстро меняется. Сегодня в нём выделяют сембу, сеншуал, урбан, мужской и женский стиль, таррашу (http://htdprod.fr/olympiads/en). В финалах в критерий судейства попадает хипхопский fresh, "покажите нам что-нибудь новенькое, чего ещё никто в кизомбе не видел". Поглядеть финалы и современный урбан киз можно в этом плейлисте: https://www.youtube.com/watch?v=DHDlbU54K3k&list=RDDHDlbU54K3k&start_radio=1&t=1. После просмотра я расслабился и перестал быть сильно озабоченным "попаданием в стиль". В какую точку этого стилевого разнообразия ни целься, всё равно не промахнёшься, нужно только качественное исполнение (body control, отслеживание качественного connection, попадание в базу, то есть прежде всего качественная работа на низких системных уровнях). Так что на самом фестивале я откровенно веселился в танце, никакой заботы о стиле: что танцевалось, то и танцевалось, и было очень весело. Фестиваль ещё не закончился, сегодня будет афте-пати, схожу и туда.

Ещё подоспели фоточки с фестиваля бальбоа пару недель назад, и в одной из них даже в кадр попали не только я и партнёрша Анна, но и саксофонист! Говорят же, что танцуют трое: партнёр, партнёрша и диджей, а на этом фестивале вместо диджея была живая шикарная музыка:
2019

lytdybr

Опубликовал вчера драфт структуры книжки по вычислительному мышлению (https://ailev.livejournal.com/1539088.html), получил минимум замечаний -- никакого шквала особых мнений, несмотря на всю остроту темы. При этом многие замечания IMHO про улучшения книги для обучение программистов, а не директоров стадионов, и в этом основная боль. Я уже почти смирился, что как минимум начальную работу над курсом мне придётся делать самому. Единственное что, так я не понимаю: сделать ли сначала очный лекционный курс, а потом уже онлайн-версию, или сразу с книги/курса начинать. Подумал, что в этот раз проще сразу с книги/курса. Вздохнул тяжело, открыл вордовый файл и перенёс туда структуру книги из поста. Добавил оглавление, получил сразу три страницы, "дорога в тысячу ли начинается с первого шага".

В связи с вольфрамовской инициативой по физическому проекту (про него вещают сейчас из каждого утюга) вдруг возник опять вопрос о роли инфографики. Ещё бы! Автор Mathematica богато проиллюстрировал своё творчение, и это немало дало к его распространению, Стивен Вольфрам понимает в пиаре. Вот тут в профильном сообществе опять пошёл разговор о моей позиции против визуального мышления: https://www.facebook.com/groups/264158970440888/permalink/1469249639931809/. Там и Бурбаки помянули, и Арнольда, и аджайл (ага, практически через запятую). И упор на интуицию как чисто визуальную. Ох. В книжке по визуальному мышлению (https://ridero.ru/books/vizualnoe_myshlenie/) у меня специально на обложке "инфографика" космических путешествий. Основная мысль: с инфографикой в космос не полетишь, этот детский сад только для несерьёзных, журналистких применений, для потехи и пиара. А для реального использования пригодны совсем другие представления: тексты на формальных языках, просто тексты, длинные запутанные таблицы и прочая "невизуальщина". А интуиция синестезийна, а не визуальна (вот тут я касался этой темы последний раз -- спектр формальности сознания: https://ailev.livejournal.com/1536934.html).

В нашем мире постправды всё трудней отличать фейки от реальных прорывов. Прошлая неделя была богата на интересные заявления. Вот, например, про EmDrive крутейшее заявление о тяге в 0.1н (не ищите в новостях, даже в жёлтой прессе этого нет -- но какова "непроверенная новость"!): https://www.nextbigfuture.com/2020/09/darpa-laser-version-of-emdrive-has-a-test-result-better-than-commercial-ion-drive.html. Вольфрамовский физический проект может легко с этим соперничать -- https://www.wolframphysics.org/, но он визуально красивый, и поэтому у него дикий пиар (даже по-русски это перевели уже: https://m.habr.com/ru/post/518206/). Ещё интересно обсуждение конспирологической (поиск соответствий там, где их вроде бы нет) программы, которая выросла из антиплагиатного софта: https://www.facebook.com/groups/agirussia/permalink/3506149302756956/ и продолжение в https://www.facebook.com/groups/agirussia/permalink/3515993935105826/. Слово "конспирология" там не используется, но почему именно оно приходит в голову после чтения достижений тамошней программы?! При этом похожие программы анализируют уже не плагиат, а пристрастность судей, и терпят поражение от самих же судей (корпорация судей во всех странах обычно сильней, чем кажется. Законодатели ведь тоже с юридическим образованием, никуда от этого не деться): https://ceur.ru/news/specproekty/item357050/, а ещё статистические данные и оценки вероятностей пытаются исключить из судебных рассмотрений: https://www.kommersant.ru/doc/4502458.

Тем временем компьютер переоткрыл термодинамическую стрелку времени: https://www.nature.com/articles/s41567-020-1018-2, сетка GPT-f пополнила Metamath библиотеку новыми типами доказательств (это первый случай, когда доказательства от нейросетки были приняты математическим сообществом), https://arxiv.org/abs/2009.03393. Нейронные сетки существенно быстрее и точнее учатся, как и люди, не самостоятельно, а когда учителя корректируют их ошибки: https://openai.com/blog/learning-to-summarize-with-human-feedback/, а ещё придумали как тренировать языковую модель на 1.3млн 8 бит целых параметров без учителя примерно с той же точностью, что и BERT на 440млн 32 бита плавающх параметров с дотренировкой с учителем -- https://ai.googleblog.com/2020/09/advancing-nlp-with-efficient-projection.html, имя модели доставляет: pQRNN.

С аппаратурой всё бодро: сделали полностью плоскую линзу "рыбий глаз" https://scitechdaily.com/mit-engineers-completely-flat-fisheye-lens-this-isnt-just-light-bending-its-mind-bending/, а TSMC строит уже завод на проектную норму 2нм -- https://www.tomshardware.com/news/tsmc-mulls-another-fab-for-2nm-and-two-fabs-for-advanced-packaging. Там же говорится о сборке и тестировании микросхем: строится заводик для этого, который будет стоить $10млрд., а запуск уже во второй половине 2021, затем в 2022 году будет запущен ещё один завод. Это всё Тайвань, крошечное государство, остров с 36тыс. кв. км и 23млн. человек. Вот что означает специализация и концентрация ресурсов. Про новости Tesla я молчу, об этом на всех углах пишут: начальная цена электромобиля через полтора годика будет сравнима с ценой на авто с ДВС при несопоставимо более низких затратах на обслуживание, это сделали таки новую батарею и нужно просто довести её до массового выпуска: https://www.forbes.com/sites/jamesmorris/2020/09/26/teslas-25000-electric-car-means-game-over-for-gas-and-oil/

Я бодро хожу на самые разные вечеринки, и там много танцевальных приключений. В том числе я начал часто попадать на видео (сценарий простой: съёмка ведётся подружками партнёрш, а потом партнёрши пересылают эти видео мне). Вот с Виолеттой Шумеевой -- https://vk.com/video2449939_456239367, вот с Ириной Парамоновой -- https://vk.com/video2449939_456239371. Это и есть социальные танцы: ничего заученного, полная импровизация. А ещё на видео плохо видно происходящее в паре: когда кажется, что движения в паре нет, там идёт довольно интенсивное взаимодействие -- просто мелкие движения корпуса снаружи незаметны, а внутри пары хорошо чувствуются. Неделя запомнилась ещё и тем, что идёт фестиваль свинговых танцев, и я забегал на этот фестиваль потанцевать ещё и свинговые: эти фестивальные вечеринки были в соседних залах с теми, куда я обычно хожу танцевать импро и урбан сембу. Вчера я забежал туда со своей старинной партнёршей по кизомбе, и попытался станцевать. DJ Sway вдруг выскочил, и за руку утащил нас с танцпола. Оказалось, мы к удивлению тамошней публики выскочили на конкурсный танцпол -- благо там ещё разминка шла, а не конкурсные танцы. Ах, какой был вчера биг бэнд (Moscow Ragtime band), совершенно восхитительный! Вот https://www.moscowcomesaround.com/ (и вы не поверите, сегодня я опять иду на вечеринку, и опять этот фестиваль с живым джазом и свинговыми танцами будет в соседнем зале!). Так что нужно прекратить писать буковки и срочно бежать получать удовольствие. Приходите, спляшем.
2019

Мощность вычислителей оцениваем в тера/триллионах, пета/квадриллионах, экза/квинтиллионах

Я разделяю идею, что нужно срочно усилить интеллект человечества, чтобы решить сегодняшние "проблемы человечества" типа биологического бессмертия и быстрого перемещения на другие планеты, а ещё поставить новые задачи, которые сегодня ещё никому не пришли в голову. Для этого нужно поднять интеллект людей (у меня про это месяц назад вышла книжка "Образование для образованных 2020", https://ridero.ru/books/obrazovanie_dlya_obrazovannykh/), и поднять интеллект компьютеров.

Интеллект компьютеров, похоже, зависит главным образом от вычислительной мощности -- это так называемый "горький урок" (http://incompleteideas.net/IncIdeas/BitterLesson.html), полученный анализом всех прошлых прорывов в области AI. Все эти прорывы оказывались прорывами не столько в хитрых конструкциях самого интеллекта, сколько прорывами в вычислительной мощности, которую давали простым алгоритмам. Поэтому внимание исследователей искусственного интеллекта обращается к HPC, high performance computing. Я писал довольно много об этом три недели назад в "сладкие плоды горького урока: спасение закона Мура на многих системных уровнях, https://ailev.livejournal.com/1533055.html и добавил потом, что во второй половине 2022 года (уже через пару лет) ожидается переход на 3нм проектные нормы, а 5нм чипы уже вовсю производятся прямо сейчас https://ailev.livejournal.com/1534180.html.

Ну и как, это окупается? Да, июльское 2020 исследование Hyperion research показало, что это зона сверхприбылей: каждый $1 инвестиций в HPC возвращает $44 -- https://www.dellemc.com/resources/en-us/asset/analyst-reports/products/ready-solutions/hyperion-hpc-investment-brings-high-returns.pdf. The financial ROI of HPC database consists of over 150 use cases worldwide that show an average revenue of $463 dollars per dollar of investment in HPC, as well as $44 of profit for every dollar of investment in HPC. To put that into context, for an HPC system purchased at $100,000 by a private corporation, the analysis estimates that the profit will be around $4.4 million (хотя там это и отличается по отраслям -- самая высокая отдача в финансовом секторе $61 на доллар инвестиций в HPC, а в розничной торговле хуже всего -- ROI всего $12 на каждый доллар. Это и "традиционное имитационное моделирование" (курс computational thinking на Julia обсуждает движение в эту сторону, https://mitmath.github.io/18S191/Fall20/), и AI на суперкомпьютерах (про что я писал в тексте про сладкие плоды горького урока).

Гонка мегагерц в компьютинге закончилась (примерно на 5ГГц, неплохо! и даже на арсенид галлия пока не переходили), гонка числа ядер в процессоре не закончилась (ядра, правда, стали не процессорные, а вычислительные) -- по факту это гонка компактности вычислителя, где CPU, DTU (передача данных между вычислителями), GPU (неуниверсальные наборы вычислительных ядер для наиболее частых вычислительных операций) упаковываются буквально на один чип, и счёт транзисторов там пошёл на триллионы (2.6 триллионов транзисторов в очередном чипе Cerebras, я писал об этом в "спасении закона Мура"). Почему важно всё иметь на чипе? Потому что компактность даёт простоту сборки (сборка становится не нужна) и скорость самих вычислений (все передачи данных внутри чипа). Для чипа 1.2 триллиона транзисторов нужно было отвести 15Квт с площади примерно тетрадного листа (и решить ещё много каких других вопросов -- https://techcrunch.com/2019/08/19/the-five-technical-challenges-cerebras-overcame-in-building-the-first-trillion-transistor-chip/). Переход к давно ожидаемым 3D архитектурам на чипе только усугубляет проблему теплоотвода, так что толку от этого не будет. Но и тут есть экспоненциальный рост: https://arstechnica.com/science/2020/09/researchers-demonstrate-in-chip-water-cooling/ и даже двухдневной давности статья в Nature https://www.nature.com/articles/s41586-020-2666-1 про Co-designing electronics with microfluidics for more sustainable cooling. Там вот такие цифры: Our results show that heat fluxes exceeding 1.7 kilowatts per square centimetre can be extracted using only 0.57 watts per square centimetre of pumping power. We observed an unprecedented coefficient of performance (exceeding 10,000) for single-phase water-cooling of heat fluxes exceeding 1 kilowatt per square centimetre, corresponding to a 50-fold increase compared to straight microchannels. Это прорыв, электроника никогда больше не будет прежней.

Но люди из AI всё чётче и чётче говорят свои хотелки: языковые модели с триллионом/тера параметров. Помним, что GPT-3 это 175млрд. параметров (175Гигапараметров, чтобы было проще сравнивать). Вот что такое 1Терапараметр по части вычислительных затрат: Training a trillion-parameter model would require the combined memory of at least 400 Nvidia A100 GPUs (which have 40GB of memory each), and Microsoft estimates it would take 4,000 A100s running at 50% efficiency for about 100 days to complete the training. И вот Microsoft вчера открыло библиотеку DeepSpeed, которая даёт ускорение в подобных расчётах -- DeepSpeed can train a language model with one trillion parameters using as few as 800 NVIDIA V100 GPUs -- https://www.microsoft.com/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/. We obtain close to perfect-linear compute efficiency scaling and a throughput of 47 teraflops per V100 GPU. This is impressive scaling and throughput for the given hardware. А ещё в этой библиотеке технология ZeRO-Offload allows training up to 13-billion-parameter models on a single NVIDIA V100 GPU, 10x larger than the state-of-the-art while retaining high training throughput of over 30 teraflops per GPU. Это всё про Volta, даже не Ampere! Всё это опирается на более низкий системный уровень ускорения арифметики: Triton, a language and compiler centered aroundthe concept oftile, i.e., statically shaped multi-dimensionalsub-arrays. Our approach revolves around (1) a C-based lan-gauge and an LLVM-based intermediate representation (IR)for expressing tensor programs in terms of operations onparametric tile variables and (2) a set of novel tile-level opti-mization passes for compiling these programs into efficientGPU code -- http://www.eecs.harvard.edu/~htk/publication/2019-mapl-tillet-kung-cox.pdf

Как всегда, напомню, что не меньше всего происходит в области оптических и квантовых вычислителей. При этом ускорение тут идёт от классического AI-компьютинга: то, что настраивать параметры квантовой системы проще при помощи нейронных сеток, это уже общее место. Но вот новый поворот, ускорение производства: среди тысяч однофотонных наноизлучателей нужно быстро найти бездефектные. Использовали подход машинного обучения для тестирования, и процесс пошёл в сто раз быстрее -- https://www.purdue.edu/newsroom/releases/2020/Q3/new-machine-learning-assisted-method-rapidly-classifies-quantum-sources.html. Помните "кремниевые компиляторы", когда первые компьютеры начали помогать проектировать новые чипы? Вот это то же самое: классические компьютеры помогают проектировать и даже делать квантовые компьютеры. Такое происходит сейчас практически каждую неделю (это только то, что публикуют. Боюсь, не всё публикуют).

Пока всё в посте было конкретно, измеримо, архитектурные идеи абсолютно понятны.

А теперь поглядим на такие "новости" (в кавычках), как запуск IBM и Тодаем (университет Токио) Quantum Innovation Initiative Consortium -- https://www.hpcwire.com/off-the-wire/ibm-and-the-university-of-tokyo-unveil-the-quantum-innovation-initiative-consortium/. Профессор Макото Гоноками, президент Тодая сказал следующее: "Общество 5.0 -- это концепция лучшего будущего, с инклюзивным [включающим самых разных альтернативно одарённых, пардон май френч], самоподдерживающим ["устойчивое развитие", гомеостаз -- привет из 80х, когда это слово было модным] и знание-ёмким обществом, где информация и сервисы создают пользу на основе цифровых инноваций. Ключ к воплощению такого общества -- это использование реальных данных в реальном времени. Чтобы этого достичь, необходимо защищать и пестовать глобальную окружающую среду, сущность физического и киберпространства как одну, ... дальше я не могу переводить это бла-бла-бла, сами идите по ссылке и удивляйтесь. Не думаю, что перевод с японского на английский и далее на русский сильно тут что-то исказил, этот новояз чиновников универсален. Мы никогда не узнаем, что ж там реального будет сделано, кроме поставки одного квантового компьютера в Японию. Ни одного слова о сути проекта.

Фантастический, конечно, текст профессора Макото Гоноками, просто как какая-то словесная каша от GPT-3, не несущая никакого смысла, кроме как перечисления "очень модных слов" очередного поколения бюджетного процесса. Краткий пересказ: "Общество с очередной модной цифрой поколения -- это за всё давно и десятки лет известное хорошее и модное при неупоминании всего неизвестного плохого. Типа реальных данных против данных моделирования (прошлая мода была на модели), и эти реальные данные просто стали модней предыдущего поколения бюджетного цикла, там были действенные данные/actionable data. А ещё помним, что бывают ещё и вычисления реального времени, а то как-то подзабыли уже, а они ведь рулят!". Каждое слово фантастически ничего не означает, типа "цифровых инноваций", это очень удобно для бюджетного процесса.

А ведь всё с точностью наоборот: квантовые компьютеры ни разу не цифровые в привычном компьютерном смысле этого слова, поэтому как раз в данном случае "антицифровые инновации". Но это никого не волнует, это ж передовицы из газеты "Правда" (я ещё застал эти передовицы!). Так что не читайте на ночь новостей о государственных программах поддержки того или сего в AI или HPC. Они никак не продвигают понимания происходящего в сфере HPC, только вносят информационный шум. Ничего эти новости от крупных чиновников не меняют в наших жизнях. Ну, меняют в жизни пары человек из пары компаний, которые долбят пару чиновников в надежде на какие-то бюджеты из денег налогоплательщиков, и поэтому показывают удачные примеры других таких же пилильщиков бюджета под модные слова. И пиар-пиар-пиар. Но мы ж тут не про это? И не рассказывайте, что "только за счёт госинвестиций" (вариант: "только за счёт военных программ") у нас на планете прогресс. Враньё чистой воды, выход ICT на терагерцы (тоже прогресс: терагерцовые волноводы на чипе с крутыми изгибами -- https://www.nature.com/articles/s41566-020-0618-9), терабайты в памяти, терапараметры в нейронных сетках, уже петафлопы (квадриллионы) в операциях в секунду (https://medium.com/@khairy2011/tpu-vs-gpu-vs-cerebras-vs-graphcore-a-fair-comparison-between-ml-hardware-3f5a19d89e38) произошёл не за счёт крошечных государственных инвестиций, как бы ни пытались пиращики их нарисовать драматически "ключевыми". Нет, это всё рыночная экономика.

А экономика госпредпринимательства? Когда прибыли частных компаний, а убытки налогоплательщиков? Японский проект компьютеров пятого поколения (пролог-архитектуры) загнулся, и ничего не дал. Российский поисковик "Спутник" тихо закрыт на прошлой неделе, после траты 2млрд.рублей (а что, в момент запуска это кому-то непонятно было, включая обеспечивавших финансирование чиновников? Формулировки-то какие "государственный сервис закрыт из-за изменения стратегии компании" -- кто там кем рулит, государство компанией или компания государством?! https://www.gazeta.ru/tech/news/2020/09/08/n_14908952.shtml. Деньги-то чьи были потрачены, налогоплательщиков или от коммерческих сервисов -- но тогда причём тут государство?! А вот 2017 год, уже было понятно, что проект мёртвый: https://ria.ru/20170512/1494144326.html, что ж его кормили ещё три года?!). Это во всех странах так, циничность чиновников и высших чинов транснациональных корпораций в США не знает границ, когда речь идёт о распиле госбюджета, в этом они одинаковы с коллегами из всех стран мира.

Поэтому у меня в ленте про госпроекты вы читаете мало, а про усиление интеллекта -- много. Вопреки разбазариванию ресурсов через госпроекты мы говорим уже о триллионах/тера характеристиках в вычислителях, начинаем говорить о квадриллионах/пета (я писал о начале этого говорения в 2009 -- https://ailev.livejournal.com/699111.html) и примериваемся к экза/квинтиллионам (сейчас самый быстрый суперкомпьютер Fugaku имеет скорость 0.54 квинтиллионов операций с плавающей точкой двойной точности FP64 в секунду, но его быстро превзойдут -- https://en.wikipedia.org/wiki/Fugaku_(supercomputer). Эти квинтиллионы имеют значение, человечество с их помощью становится умнее. И это происходит с такой скоростью, что скоро придётся вспоминать, что там после квинтиллионов/экза.

UPDATE: обсуждение в https://www.facebook.com/ailevenchuk/posts/10219387175524152