Особенности процессинга арабского языка: морфологическое моделирование
DOI:
https://doi.org/10.21638/spbu13.2023.302Аннотация
В статье рассматриваются особенности морфологического моделирования арабского языка на основе определения специфики его формализации. Морфологическое моделирование является одним из ключевых этапов автоматического анализа текстов и включает в себя инструменты для возведения словоформы к основе, корню, определение части речи, автоматическое построение (генерация) заданной словоформы и т.д. Задачи исследования носят междисциплинарный характер и включают в себя как теоретические аспекты изучения особенностей арабского языка, которые наиболее актуальны для его автоматической обработки, так и анализ имеющихся морфологических анализаторов и определение специфики их работы. Практическая часть основана на тестировании инструмента CAMeL TOOLS, одним из преимуществ которого является его комплексный характер, позволяющий осуществлять как препроцессинг текста, так и решение задач прикладного характера, включая сентимент-анализ. Критерии выборки примеров для тестирования учитывали особенности арабского языка, представляющие трудность для его формализации (сегментация служебных слов, имеющих слитное написание, морфологическая и лексическая омонимия и т.д.). Кроме того, принимается во внимание вариативность обобщенного понятия «Арабский язык», которое объединяет классический арабский язык, современный арабский литературный язык и современные арабские диалекты. Тестирование инструментов для морфологического моделирования позволяет сделать выводы о необходимости совершенствования терминологического аппарата, вариативность которого отмечена при описании словоформ. Такого рода варьирование (расхождение с понятиями, принятыми в общем языкознании) потенциально ведет к искажению результатов лексико-семантического разбора. В ходе анализа отмечены некоторые лакуны, связанные с определением частеречной принадлежности, описанием словоформ и т.д. Результаты исследования актуальны как для проведения лингвистических исследований, так и для совершенствования разработки программных приложений, направленных на процессинг арабского текста.
Ключевые слова:
арабский язык, морфологическое моделирование, анализатор, процессинг
Скачивания
Библиографические ссылки
تقرير حالة اللغة العربية ومستقبلها إعداد وإشراف وزارة الثقافة والشباب في دولة اإلمارات العربية المتحدة الرقم الدولي
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Статьи журнала «Вестник Санкт-Петербургского университета. Востоковедение и африканистика» находятся в открытом доступе и распространяются в соответствии с условиями Лицензионного Договора с Санкт-Петербургским государственным университетом, который бесплатно предоставляет авторам неограниченное распространение и самостоятельное архивирование.