Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Category:

AI таки сдаёт российский ЕГЭ в этом году!

Моё предложение провести конкурс AI по сдаче экзаменов ЕГЭ (я давал его в апреле на одном из совещаний, подробности см. в https://ailev.livejournal.com/1468166.html) таки реализовано, хотя и не UpGreat, а Сбербанком -- https://contest.ai-journey.ru/ru/competition. 4 сентября стартовали, через 43 дня совревнование закончится, вот тут рейтинг участников, https://contest.ai-journey.ru/ru/leaderboard, там всё уже более чем бодро. Всё, как я и предлагал, включая проверку сочинения по тем же правилам, что и в реальном ЕГЭ -- https://4ege.ru/russkiy/56964-kriterii-ocenivaniya-sochineniya-v-ege-2019.html. И даже перевод результатов в знаменитые "сто баллов" тоже будет как в ЕГЭ -- https://4ege.ru/novosti-ege/4023-shkala-perevoda-ballov-ege.html. Моя идея была -- проверять AI на интеллект ровно так, как проверяют людей, причём неизбежная дискуссия покажет с ещё большей очевидностью, что все эти "проверки на интеллект" не работают -- ни для людей, ни для роботов.

При этом в США такой экзамен проводится по тесту науки (мультипредметный тест), https://leaderboard.allenai.org/anli/submissions/about -- люди по нему получают 92%. Even in 2016, the best AI system achieved merely 59.3% on an 8th Grade science exam challenge. This paper reports unprecedented success on the Grade 8 New York Regents Science Exam, where for the first time a system scores more than 90% on the exam's non-diagram, multiple choice (NDMC) questions. In addition, our Aristo system, building upon the success of recent language models, exceeded 83% on the corresponding Grade 12 Science Exam NDMC questions. The results, on unseen test questions, are robust across different test years and different variations of this kind of test. They demonstrate that modern NLP methods can result in mastery on this task. While not a full solution to general question-answering (the questions are multiple choice, and the domain is restricted to 8th Grade science), it represents a significant milestone for the field. Это всё те самые языковые модели, подхаканный BERT (RoBerta в данном случае, подробности решения https://arxiv.org/abs/1909.01958), картинка с результатом для теста 8 класса:


Современные языковые модели, конечно, содержат не только модели именно языка. Они содержат и модели мира, конечно: отражают не только то, как описывают мир текстами, но и существенные черты самого мира -- что описывается текстами.

Дальнейший прогресс, конечно, будет по линии гибридных вычислений: knowledge graphs aka семантические сети aka символический искусственный интеллект в сочетании с нейронными сетями. Вот небольшой обзорчик knowledge graphs на конференции Association for Computational Linguistics ACL2019 (30 докладов из 660 -- почти 5%, это немало): https://medium.com/@mgalkin/knowledge-graphs-in-natural-language-processing-acl-2019-7a14eb20fce8. Но уже после этого обзора появились интересные работы, типа https://arxiv.org/abs/1908.07141, LogicENN: A Neural Based Knowledge Graphs Embedding Model with Logical Rules. We prove that LogicENN can learn every ground truth of encoded rules in a knowledge graph. To the best of our knowledge, this has not been proved so far for the neural based family of embedding models. Moreover, we derive formulae for the inclusion of various rules, including (anti-)symmetric, inverse, irreflexive and transitive, implication, composition, equivalence and negation. Our formulation allows to avoid grounding for implication and equivalence relations. Our experiments show that LogicENN outperforms the state-of-the-art models in link prediction.

Link prediction -- это create or recover missing links in knowledge graphs, e.g., identifying the birthplace of a person or the CEO of a company. Проблема тут не только в точности предсказания (и глубокие модели тут, конечно, побеждают всякие одноуровневые алгоритмы), но и в огромных вычислениях. Так что в эту точку бьют и работы, позволяющие меньше вычислять, типа https://exascale.info/assets/pdf/ostapuk2019www.pdf. Этих работ множество. Помним, что один из лидеров в knowledge graphs классического вида CYC делает ставку тоже на нейронные сети и вероятностные методы для эвристических способов ускорять логические вычисления в своих огромных графовых базах знаний -- Doug Lenat, например, хвастается тем, что от по факту финансирования госсиловиками перешёл в последнее время к нормальному финансированию коммерческими компаниями и теперь CYC прибыльная компания -- https://www.forbes.com/sites/cognitiveworld/2019/07/03/what-ai-can-learn-from-romeo--juliet/, https://www.cyc.com/publications/ (при этом они не стали более открытыми, всё так же мало кто понимает, что там происходит. Но точно происходит много интересного. Другое дело, что теперь они абсолютно не одиноки. Их стремительно догоняют по всем фронтам).

Тема Ontology Summit 2020 -- как раз knowledge graphs, http://ontologforum.org/index.php/OntologySummit2020. Слайды и видео первой встречи "Why Knowledge Graphs Hit the Hype Cycle and What they have in common" см. http://ontologforum.org/index.php/ConferenceCall_2019_09_04.

Так что наступает очередная весна не только нейронных сетей, но и семантических сетей (минус слово "семантические", ибо semantic web и OWL существенно дискредитировал идею, и идёт возврат к истокам).

А дальше, как всегда: дикие дискуссии о том, что школа учит не жизни, а сдаче ЕГЭ. Школьники на выпуске будут не уметь жить и работать, а уметь сдавать ЕГЭ, в совершенстве! И AI будут уметь не жить и работать, а сдавать ЕГЭ в совершенстве! Самые разные ЕГЭ самых разных стран. Например, сдадут экзамен на доктора (почему бы и нет!) и захотят работать врачом. Другое дело, что работать врачом -- это не сдавать экзамен, на экзамен-то можно натаскать, а на работу что-то другое требуется.

Я вот даже в своей семье не могу объяснить, что учиться нужно работать, а не сдавать экзамен. Мне говорят "потерпи год, и всё кончится". Я-то потерплю, а бесполезно проведённый год жизни вьюноша куда девать? Ему, бородатому, работать уже нужно, или хотя бы учиться работать. А он учится сдавать ЕГЭ, и я единственный, кто против.

Ровно та же история с экзаменами по профстандартам в качестве допуска к профессии. Тестируется одно, а на работе требуется абсолютно другое!

Очень надеюсь, что успешно сдающий экзамены ЕГЭ, экзамены на профстандарты AI как-то внесёт свежую струю в эти обсуждения.
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 2 comments