Формирование корпуса текстов и определение частотности слов в арабском языке: проблемы и решения

Авторы

  • Олег Иванович Редькин Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7-9

Аннотация

Хотя проблема формирования корпуса текстов на материале индоевропейских языков, включая русский, сравнительно хорошо разработана, в отношении других языков, прежде всего арабского, она далека от своего окончательного решения. В статье рассматриваются проблемы и возможные решения при построении арабского корпуса текстов на базе материала из Интернета и других доступных источников, а также принципы отбора данных. В статье также приведены результаты формирования частотного словаря арабского языка, список наиболее распространенных арабских слов с их частотной индексацией. Библиогр. 6 назв. Табл. 1.

Ключевые слова:

Арабский язык, корпус, компьютер, данные, обработка, частотность, словарь

Скачивания

Данные скачивания пока недоступны.

Библиографические ссылки

Литература

AbdelRaouf A., Higgins C. A., Pridmore T., Khalil M. Building a multi-modal Arabic corpus (MMAC) // International Journal on Document Analysis and Recognition. 2010. Vol. 13 (Dec., 2010), N 4. P. 285–302.

Haslina H., Mat D. N., Atwell E. S. Connectives in the World Wide Web Arabic Corpus // World Applied Sciences Journal. 2013. Vol. 21 (Special Issue of Studies in Language Teaching and Learning). P. 67–72.

Kilgarriff A., Rundell M., Dhonnchadha E. U. Efficient corpus development for lexicography: building the New Corpus for Ireland // Language Resources and Evaluation. Vol. 40, N 2 (May, 2006). P. 127–152.

Mansour M. A. The Absence of Arabic Corpus Linguistics: A Call for Creating an Arabic National Corpus // International Journal of Humanities and Social Science. Vol. 3, N 12 (Special Issue — June 2013). P. 83–84.

Hammo B., Abuleil S., Lytinen S., Evens M. Experimenting with a Question Answering System for the Arabic Language // Computers and the Humanities. Vol. 38, N 4 (Nov., 2004). P. 397–415.

Ferguson Ch. Diglossia // Word. 1959. N 15. P. 325–340.

Загрузки

Опубликован

19.03.2014

Как цитировать

Редькин, О. И. (2014). Формирование корпуса текстов и определение частотности слов в арабском языке: проблемы и решения. Вестник Санкт-Петербургского университета. Востоковедение и африканистика, (1), 14–22. извлечено от https://aasjournal.spbu.ru/article/view/2075

Выпуск

Раздел

Языкознание

Наиболее читаемые статьи этого автора (авторов)