viagra super force

+7(495) 123-XXXX  г. Москва

Выпуски журналов

  • Серия
  • Серия
  • Серия
  • Серия
  • Журнал
  • Журнал
  • Журнал
  • Журнал

М.С. Кудинов,  (Аспирант, Федеральный исследовательский центр ИУ РАН)

Серия «Естественные и Технические науки» # Февраль  2016

Языковые модели
В статье представлены предварительные результаты использования рекуррентных нейронных сетей для языкового моделирования на материале русского языка. Решалась задача ранжирования равновероятных гипотез распознавания. Для уменьшения разреженности данных модели оценивались на лемматизованном новостном корпусе. Также для предсказаний использовалась морфологическая информация. Для финальной сортировки была использован метод опорных векторов для ранжирования. В статье показано, что комбинация нейронных сетей и морфологической модели дает лучшие результаты, чем 5-граммная модель со сглаживанием Кнессера-Нея.

Ключевые слова: Языковые модели, рекуррентная нейронная сеть, флективные языки, ранжирование гипотез, распознавание речи.

 

1. Введение

Известно, что проблема статистического моделирования флективных языков представляет большую сложность, чем для английского языка [1]. Основные проблемы возникают вследствие большого количества морфологических форм слов (лемм) и более свободного порядка слов [2]. Обе проблемы в результате усиливают разреженность данных и снижают эффективность n-граммных моделей.

В то время как использование n-граммных моделей на первых стадиях распознавания сегодня является стандартной практикой [3], возможности для последующей обработки в рамках алгоритма распознавания, осуществляющего несколько проходов по входным данным, гораздо шире. Например, для переранжирования гипотез, возвращаемых процедурой лучевого поиска Витерби, может быть использована морфологическая, синтаксическая и семантическая информация. В последнем случае значения слов представляются посредством вложения слов в некоторое векторное пространство. К методам, осуществляющим такие вложения, относятся: латентно-семантический анализ [4], вероятностное тематическое моделирование [5] или нейронные сети [6]. В 2010 году была представлена языковая модель на рекуррентной нейронной сети (RNNLM) [7]. Использование данной модели позволило улучшить предыдущие результаты на стандартных наборах данных как в перплексии, так и в пословной ошибке в экспериментах по распознаванию речи. Несмотря на то, что модель была предложена для английского языка, в [8] были приведены обнадеживающие результаты, полученные на небольшом наборе данных для чешского языка. Сходство чешского и русского языков общеизвестно, а значит, перспективы применения рекуррентных нейронных сетей к русскому материалу выглядят многообещающе. Тем не менее, эксперименты в [9] продемонстрировали в целом невысокую эффективность данной модели для русского языка. Параметры, используемые авторами, впрочем, не выглядят оптимальными с точки зрения качества модели, однако выбор именно таких параметров был, очевидно, продиктован необходимостью поддержки большого словаря – списка потенциальных словоформ.

Таким образом, проблема обучения рекуррентной нейронной сети для языков с богатой морфологией является более сложной, по крайней мере, если использовать оригинальный подход из [7]. В дополнение к уже упомянутым трудностям, связанным с разреженностью данных, обучение модели, использующей словник, содержащий все допустимые словоформы, потребовало бы слишком длительного времени. Более перспективным в этой связи выглядит использование сложных векторных моделей, отражающих сходство семантики слов [10,11], для предсказания лемм, с последующим выбором морфологической формы на основании более простых моделей. В данной работе было решено поставить предварительные эксперименты и решить более простую задачу, а именно произвести переранжирование гипотез распознавания, исходя из оценок отдельной лексической модели, основанной на рекуррентной нейронной сети, и морфологической модели, основанной на условных случайных полях.

Статья организована следующим образом. В разделе 2 приводится общая информация о рекуррентных нейронных сетях. В разделе 3 обсуждается применимость оригинальной архитектуры рекуррентной нейронной сети к статистическому моделированию флективных языков и сопутствующим проблемам. В разделах 4 и 5 описаны результаты экспериментов.

2. Рекуррентная нейронная сеть для статистического моделирования языка

Рекуррентные нейронные сети впервые были рассмотрены в [12] Элманом в 1990 году. В данном исследовании также была высказана идея о применимости рекуррентной нейронной сети для моделирования языка. Тем не менее, вследствие значительной вычислительной сложности и отсутствия доступных лингвистических корпусов достаточного объема на тот момент метод не получил широкого распространения.

Читать полный текст статьи …


СПИСОК ЛИТЕРАТУРЫ:
1. Oparin: Language Models for Automatic Speech Recognition of Inflectional Languages. PhD thesis, University of West Bohemia, Pilsen, 2008.
2. E.W.D. Whittaker: Statistical Language Modeling for Au- tomatic Speech Recognition of Russian and English. PhD Thesis, Cambridge University, 2000.
3. A.Deoras, T.Mikolov, S. Kombrik: Approximate inference: A sampling based modeling technique to capture complex dependencies in a language model. Speech Communication, 2012
4. J.Bellegarda: Exploiting latent semantic information in statistical language modeling. Proc. IEEE. 88, 2000
5. D.Gildea, T.Hoffman: Topic-Based Language Models Using EM. In Proceedings of EUROSPEECH, 1999
6. Y.Bengio, R.Ducharme, P.Vincent, C.Jauvin: A Neural Probabilistic Language Model. Journal of machine learning research, 2003
7. T.Mikolov, M.Karafiat, L.Burget, J.Cernocky, S.Khudanpur: Recurrent neural network based language model, In: Proceedings of the 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010), Makuhari, Chiba, JP
8. T.Mikolov,: Statistical Language Models based on Neural Networks. PhD thesis, Brno University of Technology, 2012.
9. D.Vazhenina, K.Markov, Evaluation of Advanced Language Modeling Techniques for Russian LVCSR, M.Zelezny et al. (Eds.): SPECOM2013, LNAI 8113, pp.124-131, 2013.
10. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
11. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.
12. J.Elman. Finding Structure in Time. Cognitive Science, 14, 179-211, 1990.
13. Y.Bengio, P.Simard, P.Frasconi. Learning Long-Term Dependencies with Gradient Descent is Difficult, IEEE Transactions on neural networks, 1994
14. R.Pascanu, T.Mikolov, Y.Bengio. On the difficulty of training Recurrent Neural Networks, CoRR, 2012
15. Hochreiter, S. and Schmidhuber, J. (1996). Bridging long time lags by weight guessing and Long Short-Term Memory. In F.Silva, J.Principe, L.Almeida, Spatiotemporal models in biological and artificial systems
16. S.Muzychka, A.Romanenko, I.Piontkovskaja. Conditional Random Field for morphological disambiguation in Russian., Conference Dialog-2014, Bekasovo, 2014
17. J.Goodman. A Bit of Progress in Language Modeling, Microsoft Research Technical Report, 2001
18. T.Joachims. Optimizing Search Engines using Clickthrough Data, Proceedings of the ACM Conference on Knowledge Discovery and Data Mining, 2003
 



© 
М.С. Кудинов, Журнал "Современная наука: актуальные проблемы теории и практики".
 

 

 

 
SCROLL TO TOP

 Rambler's Top100 @Mail.ru