Узбекский язык стал вторым тюркским языком после турецкого, с которым успешно работает программа «Фразеоэкстрактор»
«Сейчас гуманитарные и технические науки стремительно сближаются, при том, что понять друг друга «физикам» и «лирикам» не так легко. И именно Лингвистический университет внедряет передовые компьютерные технологии, создавая продукты, которые обрабатывают большие данные и решают актуальные задачи лингвистов, преподавателей, переводчиков», — сообщил исполняющий обязанности ректора Никита Авралев.
По словам Никиты Владимировича, узбекский язык стал уже вторым тюркским языком после турецкого, с которым успешно работает программа.
«Узбекистан и Турция являются стратегическими партнерами нашего региона, и изучение языков этих стран – важный шаг для укрепления нашего сотрудничества. Считаю, что новые модели будут особо востребованы, так как аналогов в мире не существует», — добавил и.о. ректора.
Ректор отметил, что пользовательский интерфейс программы в настоящее время находится в стадии разработки, но студенты НГЛУ, обучающиеся лицея-интерната «Центр одаренных детей» и все интересующиеся имеют возможность получить от НГЛУ программные коды и реализовать их в онлайн-редакторе, одновременно приобретая базовые навыки программирования.
«В дальнейшем мы планируем создать пользовательскую версию программы и дальше продолжить внедрять новые языки, исходя из потребностей современного общества», — поделился планами Никита Авралев.
Об этапах работы над программой рассказал старший научный сотрудник Научно-образовательного центра дизайна и проектирования инновационной среды дополнительного образования Максим Чиков.
«Традиционных средств обработки лингвистического материала для образовательных, научных целей, переводческой деятельности сейчас недостаточно — нужны программируемые инструменты. Создание Фразеоэкстрактора началось в 2022 году и прошло разные этапы — от оптимизированного формального извлечения, отдельных моделей для обработки английского языка до двух способов извлечения по грамматико-семантическому и частеречному принципам, которые апробируются на целом ряде европейских и восточных языков», — прокомментировал Максим Борисович.
Старший научный сотрудник подчеркнул, что сейчас наиболее актуальна проблема дообучения существующих моделей обработки для достижения более качественных результатов. «Модель обработки узбекского языка создана нами с нуля, и сейчас необходимо создание большого набора данных — сначала 5000 слов, затем десятки тысяч и так далее — для ее точного функционирования. Восточные языки, особенно узбекский — наше конкурентное преимущество!
Напомним, что программы «Фразеоэкстрактор» была разработана НОЦ НГЛУ совместно с ГБОУ «Лицей-интернат «Центр одаренных детей» в сфере компьютерной лингвистики и предназначена для автоматизированного составления глоссариев из словосочетаний на базе текстов на русском, английском, немецком, французском, испанском, китайском, корейском, турецком и узбекском языках.