Внимание!!! Интернет ресурс Шняги.НЕТ может содержать контент, запрещенный к просмотру лицам не достигшим 18 летнего возраста.
Dailmaran

ИИ поможет создать первый в истории корпус древнеславянских текстов ( 3 фото )

Ученые впервые создадут интерактивную базу древнеславянских текстов с помощью технологий искусственного интеллекта

ИИ поможет создать первый в истории корпус древнеславянских текстов Наука и технологии

Коллаборация ученых Института русского языка им. В. В. Виноградова РАН, НИТУ «МИСиС», НИУ ВШЭ при поддержке Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы запустила масштабный проект по созданию с помощью технологий искусственного интеллекта и машинного обучения уникальной базы древнеславянских рукописных текстов — корпуса.

Создание корпуса древнеславянского языка даст исследователям-лингвистам и историкам мощный инструмент для изучения всех современных национальных славянских языков и культур и станет уникальным ключом к пониманию их наследия.

Корпус – это структурированная база данных языка, информационно-справочная система, основанная на собрании текстов на определенном языке в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.

Древнеславянские тексты представляют собой многообразие рукописных памятников XI – XVII веков, фундамент всех современных национальных славянских языков и культур. Создание системного корпуса языка связано с трудоемкой, тонкой и кропотливой работой, требующей объединения усилий профессионалов из различных областей и, по мнению ученых, является задачей общенационального характера.

ИИ поможет создать первый в истории корпус древнеславянских текстов Наука и технологии

Страница одного из Изборников Святослава (1073 и 1076 гг.), которые относятся к древнейшим сохранившимся древнерусским рукописным книгам.

Иеромонах Родион (Ларионов), заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы, отметил, что создание корпуса дрвнеславянских текстов является важной задачей.

Объем таких текстов составляют древнерусские, болгарские, сербские тексты XI – XVII веков — это несколько тысяч богослужебных рукописей, в которых язык меняется от века к веку. Ученым важно понять, во-первых, почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой.

«Если анализировать и систематизировать человеческими ресурсами тот объем данных, который представляют собой древнеславянские рукописи – это астрономическая работа, которая растянулась бы на века, особенно, учитывая, что профессионалов, которые способны делать эту работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести это важную работу в обозримое время», — Иеромонах Родион (Ларионов).

Искусственный интеллект позволит охватить весь этот гигантский массив данных, систематизировать и создать алгоритмы расстановки лингвистической разметки – главной характеристики корпуса. Именно она отличает корпус от простой библиотеки.

Проекты по использованию цифровых подходов к анализу культурного наследия активно развиваются в европейских странах и являются прекрасным примером междисциплинарного взаимодействия.

В отношении языковых памятников, можно отметить два принципиальных направления работ – преобразование сканированных изображений в «машиночитаемый» вид и построение языковых моделей, упрощающих анализ и понимание текстов. Со славянскими текстами, написание букв (графем) которых отличается витиеватостью и широким использованием диакритических знаков, таких системных наработок еще не предпринималось.

ИИ поможет создать первый в истории корпус древнеславянских текстов Наука и технологии

«В некотором смысле, такой проект является мостиком от культуры прошлого к технологиям будущего, — комментирует Андрей Устюжанин, ведущий эксперт Центра инфраструктурного взаимодействия и партнёрства MegaScience НИТУ «МИСиС». — По нашему опыту междисциплинарных проектов не так важно заручиться самой продвинутой технологией, как заложить основы общения людей друг с другом – специалистов по языку со специалистами по искусственному интеллекту».

Первым этапом проекта станет оцифровка и разметка комплекса древнеславянских миней XI-XVII веков на древнерусском, болгарском и сербском языках – служебных церковных книг, содержащих распорядок служб всех дней церковного года, рукописи которых хранятся в собраниях Государственного исторического музея, Российской национальной и государственной библиотек, Российского государственного архива древних актов, Свято-Троицкой Сергиевой лавры.

Взято: Тут

+203562
  • 0
  • 8 041
Обнаружили ошибку?
Выделите проблемный фрагмент мышкой и нажмите CTRL+ENTER.
В появившемся окне опишите проблему и отправьте уведомление Администрации.
Нужна органическая вечная ссылка из данной статьи? Постовой?
Подробности здесь

Добавить комментарий

  • Внимание!!! Комментарий должен быть не короче 40 и не длиннее 3000 символов.
    Осталось ввести знаков.
    • angelangryapplausebazarbeatbeerbeer2blindbokaliboyanbravo
      burumburumbyecallcarchihcrazycrycup_fullcvetokdadadance
      deathdevildraznilkadrinkdrunkdruzhbaedaelkafingalfoofootball
      fuckgirlkisshammerhearthelphughuhhypnosiskillkissletsrock
      lollooklovemmmmmoneymoroznevizhuniniomgparikphone
      podarokpodmigpodzatylnikpokapomadapopapreyprivetprostitequestionrofl
      roseshedevrshocksilaskuchnosleepysmehsmilesmokesmutilisnegurka
      spasibostenastopsuicidetitstorttostuhmylkaumnikunsmileura
      vkaskewakeupwhosthatyazykzlozomboboxah1n1aaaeeeareyoukiddingmecerealguycerealguy2
      challengederpderpcryderpgopderphappyderphappycryderplolderpneutralderprichderpsadderpstare
      derpthumbderpwhydisappointfapforeveraloneforeveralonehappyfuckthatbitchgaspiliedjackielikeaboss
      megustamegustamuchomercurywinnotbadnumbohgodokaypokerfaceragemegaragetextstare
      sweetjesusfacethefuckthefuckgirltrolltrolldadtrollgirltruestoryyuno