viagra super force

+7(495) 123-XXXX  г. Москва

Выпуски журналов

  • Серия
  • Серия
  • Серия
  • Серия
  • Журнал
  • Журнал
  • Журнал
  • Журнал

В.Е. Сачков,  (Аспирант, ФГБОУ ВО «Московский технологический университет»)

Е.Ф. Гильмутдинова,  (Магистрант, ФГБОУ ВО «Московский технологический университет»)

Е.Д. Матяш,  (Магистрант, ФГБОУ ВО «Московский технологический университет»)

Д.А. Акимов,  (К.т.н., ФГБОУ ВО «Московский технологический университет»)

Серия «Естественные и Технические науки» # ДЕКАБРЬ  2016

NLP
Обработка естественного языка (Natural language Processing, NLP), представляет собой важное направление разработки прикладного программного обеспечения, и в будущем эта потребность будет только возрастать.
Обработка текстов на естественном языке используется для решения обширного числа задач, таких как: поиск, аннотирование, классификация, распознавание речи, анализ запросов. Также применяется для расширения функциональной возможности приложений, например для упрощения ввода пользователем исходных данных и преобразование текста в более удобные формы, используя при этом последовательность ключевых операций для преобразования текста и извлечения из него информации.

Ключевые слова: NLP, NER, POS, SBD, Обработка, естественные языки, токенизация, поиск границ предложения.

 

Введение

Обработка естественного языка (Natural language Processing, NLP) – это обширная область ИТ, связанная с использованием компьютеров для анализа естественных языков, к которым относятся такие дисциплины, как распознавание, обработка, реферирование, аннотирование, категоризация и. т. д. Существует большое разнообразие задач обработки естественного языка:

  1. Поиск фрагментов текста - разделение материала на различные элементы разных типов: слова, предложения, абзацы и. т. д.
  2. Поиск предложений (Sentence Boundary Disambiguation, SBD) – определение границ предложения.
  3. Поиск именованных объектов (Named entity recognition, NER) – механизм поиска адресов, названий, имен, дат, или любых других именованных сущностей.
  4. Определение частей речи (Parts of speech, POS) – классификация элементов текста на уровне предложения. Предложение может быть разделено на отдельные слова и словосочетания по таким категориям, как существительные, глаголы, наречия, предлоги и. т. Д.
  5. Классификация текстов и документов - цель данной классификации в присвоении меток фрагментам, найденным в текстах и документах.
  6. Выделение взаимоотношений – выявление связей между словами или словосочетаниями, для построения семантического дерева.

Несмотря на большое количество разнообразных задач анализа текста, можно выделить базовый алгоритм, применяемый в большинстве методов обработки текста с применением компьютера:

  1. Разделение текста на фрагменты
  2. Определение границ предложений
  3. Выделение отношений между элементами

На данный момент уже существует множество инструментов, библиотек и алгоритмов для обработки и анализа текста, некоторые из них приведены в табл. №1.

Читать полный текст статьи …


СПИСОК ЛИТЕРАТУРЫ:
1. Грант С. Ингерсолл, Томас С. Мортон, Эндрю Л. Фэррис. Обработка неструктурированных текстов. Поиск, организация и манипулирование. / Пер. с англ. Слинкин А.А. – М.: ДМК Пресс, 2015. - 414 с.
2. Риз Р. Обработка естественного языка на Java / пер. с англ. Снастина А. В. – М.: - ДМК Пресс, 2016. - 264 с.
3. Луис Педро Коэльо, Вилли Ричард. Построение систем машинного обучения на языке Python. 2-е издание /пер. с англ. Сликин А.А. – М.: ДМК Пресс, 2016. – 302 с.
4. Представление символов в регулярных выражениях [Электронный ресурс] - https://ru.wikipedia.org/wiki/Представление_символов_в_регулярных_выражениях - статья в интернете.
5. Поиск именованных объектов [Электронный ресурс] - https://en.wikipedia.org/wiki/Named-entity_recognition - статья в интернете.
6. Алгоритмы интеллектуального анализа данных [Электронный ресурс] - https://tproger.ru/translations/top-10-data-mining-algorithms - статья в интернете.
 



© 
В.Е. Сачков, Е.Ф. Гильмутдинова, Е.Д. Матяш, Д.А. Акимов, Журнал "Современная наука: актуальные проблемы теории и практики".
 

 

 

 
SCROLL TO TOP

 Rambler's Top100 @Mail.ru