Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Распознавание математической вёрстки

Проблема с инженерными текстами в машинном обучении в том, что они не совсем тексты: там полно картинок, таблиц и формул. Вот свеженькое про распознавание математической вёрстки: What You Get Is What You See: A Visual Markup Decompiler, http://arxiv.org/abs/1609.04938. While a standard domain-specific LaTeX OCR system achieves around 25% accuracy, our model reproduces the exact rendered image on 75% of examples.

Тут ещё можно напомнить про решение геометрических задач: там не вёрстка распознавалась, но геометрические построения вкупе с текстами задач -- иначе ведь задачу не поймёшь. Вот: http://allenai.org/euclid/

Никаких разовых "прорывов", но из не-прорывов идёт ливневый дождик -- и эти ливневые потоки много чего из сегодняшней цивилизации смоют, в самое ближайшее время.
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 1 comment