viagra super force

+7(495) 123-XXXX  г. Москва

Выпуски журналов

  • Серия
  • Серия
  • Серия
  • Серия
  • Журнал
  • Журнал
  • Журнал
  • Журнал

Д.А. Потапов,  (Аспирант, Московский технологический университет)

Д.А. Акимов,  (К.т.н., Московский технологический университет)

Серия «Естественные и Технические науки» # ЯНВАРЬ  2017

Библиотеки данных; лингвистический анализ; индексирование
Эффективность работы системы информационного поиска измеряется полнотой и точностью, при улучшении одного из этих показателей алгоритмами обработки текста на другой показатель оказывается обратное воздействие, таким образом обе величины являются обратно зависимыми. Для общего повышения полноты и точности информации следует применять ряд алгоритмов оказывающих в сумме повышение обеих величин, за счёт того что в частности при их применении сглаживается снижение обратнозависимого показателя в угоду показателю на улучшение которого нацелен алгоритм.
В данной статье будет предложен алгоритм выявляющий наиболее информативные элементы текста, которым можно будет раздать более высокие веса в сравнении с другими элементами.
Актуальность исследования обусловлена перечнем приоритетных направлений развития науки, технологий и техники Российской Федерации утвержден Указом Президента Российской Федерации от 7 июля 2011 г. № 899.

Ключевые слова: Библиотеки данных; лингвистический анализ; индексирование.

 

Проведение анализа мнений пользователей сети интернет в первую следует начать лингвистического анализ текстов сообщений. Результативность лингвистического анализа измеряется по полноте и точности классификации сообщения. На вход могут поступать сообщения разной размерности и тематик, на выходе будет получена библиотека размеченных сообщений пользователей с указанием принадлежности к тематикам и датой актуальности.

Сообщения пользователей слишком разнородны что бы можно было прийти к единому методу проведения лингвистического анализа. Опираясь на эмпирические знания выделим диапазон размерности текста, который достаточен что бы нести в себе смысловую нагрузку и мнение, но в тоже время не является слишком большим многосмысловым текстом, например статьёй. Размер оригинального текста сообщения в нашем случае должен быть в диапазоне от 10 до 100 слов.

С течением времени появляются новые темы обсуждения, поэтому использовать только заранее размеченную библиотеку не рационально, т.к. она либо потеряет актуальность либо будет требовать периодической ручной актуализации. Однако часть тематик возможно предусмотреть заранее, например такие темы как: революция, праздник, ЧС, правительство. Заранее размеченная библиотека позволит использовать более жёсткие правила на автоматическое пополнение библиотеки новыми речевыми конструкциями. В библиотеку должны попадать речевые конструкции размером не более 3 слов, в случае если конструкция является единым понятием, то система должна производить разделение конструкции на несколько элементов. Так например элемент «Коммунистическая партия Российской Федерации» может быть преобразована в элементы «коммунисты» и «Россия», в таком случае текст описывающий события связанное с КПРФ должен ссылаться на оба  понятия и «коммунисты» и «Россия».

Использование в библиотеке слов, а не фраз обусловлено тем фактом, что фразы обладают худшими статистическими характеристиками чем одиночные слова [1]. Фразы допустимо использовать только как идентификаторы конкретных людей или гео-объектов. Так как библиотека будет представлять из себя только набор терминов, т.е. хранить только значение, то её реализация будет в виде пополняемого списка.

Так как сообщения пользователей короткие, искать термины для библиотеки тематик следует только массивах текста агрегированных из некоторого количества сообщений. С целью повышения качества сырья в единый массив следует объединять сообщения смежных направлений.

Исходя из вышесказанного сформируем требования к алгоритму поиска терминов для библиотеки тематик:

1. Выявление смежности сообщений;
2. Взвешивание слов;
3. Определение диапазонов весов, достаточных для внесения слова в список  тематик.

 

Читать полный текст статьи …


СПИСОК ЛИТЕРАТУРЫ:
1. Lewis D.D., An evaluation of phrasal and clustered representations on a text categorization task. In Proceedings of SIGIR 92, 15th ACM International Conference on Researchand Development in Information Retrieval (Kobenhavn, DK, 1992), pp. 37–50., 1992
2. Kechedzhy K.E., Usatenko O.V., Yampol'skii V.A. Rank distributions of words in additive many-step Markov chains and the Zipf law (англ.) // Phys. Rev. E.. — 2004.
3. Яцко В.А., Имметричное взвешивание терминов, Символ науки, (2015), 12-1 (декабрь), 87-90.



© 
Д.А. Потапов, Д.А. Акимов, Журнал "Современная наука: актуальные проблемы теории и практики".
 

 

 

 
SCROLL TO TOP

 Rambler's Top100 @Mail.ru