Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Category:

Распознавание математической вёрстки

Проблема с инженерными текстами в машинном обучении в том, что они не совсем тексты: там полно картинок, таблиц и формул. Вот свеженькое про распознавание математической вёрстки: What You Get Is What You See: A Visual Markup Decompiler, http://arxiv.org/abs/1609.04938. While a standard domain-specific LaTeX OCR system achieves around 25% accuracy, our model reproduces the exact rendered image on 75% of examples.

Тут ещё можно напомнить про решение геометрических задач: там не вёрстка распознавалась, но геометрические построения вкупе с текстами задач -- иначе ведь задачу не поймёшь. Вот: http://allenai.org/euclid/

Никаких разовых "прорывов", но из не-прорывов идёт ливневый дождик -- и эти ливневые потоки много чего из сегодняшней цивилизации смоют, в самое ближайшее время.
Subscribe

Recent Posts from This Journal

  • lytdybr

    Я написал, что регламенты -- это учебники, а табличное моделирование альф -- это домашки (четвёртый пункт в…

  • lytdybr

    В это воскресенье закончился поток СМИ27, по итогам -- три мастера, один практик. Из экспериментов -- включение скоростного прохода по…

  • Обновление "Системного обучения личности".

    В курсе "Системное обучение личности (пререлиз)" обновлены разделы: 4. Практика методической работы: "как учить" 5. Архитектурная работа в обучении…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 1 comment