Формирование корпуса текстов и определение частотности слов в арабском языке: проблемы и решения
Аннотация
Хотя проблема формирования корпуса текстов на материале индоевропейских языков, включая русский, сравнительно хорошо разработана, в отношении других языков, прежде всего арабского, она далека от своего окончательного решения. В статье рассматриваются проблемы и возможные решения при построении арабского корпуса текстов на базе материала из Интернета и других доступных источников, а также принципы отбора данных. В статье также приведены результаты формирования частотного словаря арабского языка, список наиболее распространенных арабских слов с их частотной индексацией. Библиогр. 6 назв. Табл. 1.
Ключевые слова:
Арабский язык, корпус, компьютер, данные, обработка, частотность, словарь
Скачивания
Библиографические ссылки
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Статьи журнала «Вестник Санкт-Петербургского университета. Востоковедение и африканистика» находятся в открытом доступе и распространяются в соответствии с условиями Лицензионного Договора с Санкт-Петербургским государственным университетом, который бесплатно предоставляет авторам неограниченное распространение и самостоятельное архивирование.