viagra super force

+7(495) 123-XXXX  г. Москва

 

 

 

 

 

ВАС ПРИВЕТСТВУЕТ

VIP Studio ИНФО

 

Публикация Ваших Материалов

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus rutrum, libero id imperdiet elementum, nunc quam gravida mi, vehicula euismod magna lacus ornare mauris. Proin euismod scelerisque risus. Vivamus imperdiet hendrerit ornare.

Верстка Полиграфии, WEB sites

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus rutrum, libero id imperdiet elementum, nunc quam gravida mi, vehicula euismod magna lacus ornare mauris. Proin euismod scelerisque risus. Vivamus imperdiet hendrerit ornare.

Книжная лавка

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus rutrum, libero id imperdiet elementum, nunc quam gravida mi, vehicula euismod magna lacus ornare mauris. Proin euismod scelerisque risus. Vivamus imperdiet hendrerit ornare.

Нэй Лин,  (Аспирант, Курский государственный университет)

Серия «Естественные и Технические науки» # СЕНТЯБРЬ  2017
Кластеризация
В статье анализируется один из способов кластеризации документов. Определяются подходы к реализации этого способа. Кластеризация текста традиционными методами осуществляется на основе синтаксический информации, а не семантической информации. Поэтому система кла-стеризации не понимает значение слов, и при этом в документах имеются си-нонимы и полисемии. Но здесь существуют и другие проблемы, которые приводят к потере данных и ошибкам в информации. Когда осуществляется замена онтологией одинаковых семантически слов, возникает вероятность потери данных.

Ключевые слова: Кластеризация, онтология, поиск, семантический вес.

 

Кластеризация текста традиционными методами осуществляется на основе синтаксический информации, а не семантической информации. Поэтому система кластеризации не понимает значение слов, и при этом в документах имеются синонимы и полисемии. Но здесь существуют и другие проблемы, которые приводят к потере данных и ошибкам в информации. Когда осуществляется замена онтологией одинаковых семантически слов, возникает вероятность потери данных. В этой статье предлагается новый обобщенный метод кластеризации, который использует Wikipedia понятия и Wikipedia категории.

Понятие онтологии в информатике используется для представления доменов пространства. Например, в промышленном производстве, научных исследованиях, сельском хозяйстве, военной области и т.д. Посредством онтологии определяются понятия в информатике.

Общая онтология (высший уровень онтологии) представляет собой самую общую онтологию, прямо или косвенно связанную с другими онтологиями. Онтология строиться для конкретной предметной области. Например, спорт, медицина, промышленное производство. Задача онтологии представление, обработка и использование знаний предметной областей.

Онтология состоит из трех частей: понятия, свойства и отношения между понятиями. Все они используются для представления и обработки текстов. Использование онтологии для анализа документов заключается в выделении понятий онтологии, которые совпадает с актуальными термами документа. При этом исходные слова заменяются получающимися понятиями онтологии или добавляется как дополнителные характеристики. После этого отношения между атрибутами и понятиями онтологии используется для анализа документа.

В Wikipedia каждая статья имеет единственный заголовок. Таким образом, имеется сходство Wiki заголовка и понятия в онтологии. Эквивалентность этих понятий позволяет использовать их для перенаправленных ссылок. Это средство структуры Wiki представляет собой иерархическую систему категоризации. Чтобы сравнивать термины текстов и понятия онтологии, надо применять строгие методы согласования. При точном совпадении - метод прямого соответствия актуальных термов и понятий онтологии. Когда актуальные термы не существует, в понятиях онтологии используют связанные понятия в базе знаний, которые строятся на отношениях между wiki понятиями и документами. После завершения процесса поиска соответствий у каждого документа появляется набор wiki понятий. Поэтому в wiki поисковая система каждый документ связывает с определенной категорией документов.

Xiaohua[7] утверждает, что трудно найти комплексную онтологию, которая представляет всё понятия онтологии. Другой проблемой является то, что замена и добавление свойства происходит достаточно сложно. Когда понятие онтологии заменяет исходное слово, это может привести к потере знаний. Кроме этого, добавление свойства приводит к искажению данных в базе данных.

Wikipedia состоит из множества документов, у которых есть собственные заголовки. Эти заголовки сходны понятиям онтологии. Равнозначные понятия онтологии формируют непрямые ссылки. Поэтому Wikipedia – это иерархическая система категоризации. Каждая статья связанна с одной категорий. Из-за этого структура онтологии становиться потенциальной онтологией.

При группировании документов и представлении документов[7] с использованием понятия онтологии применяются два метода.

Для группирования документов надо создать матрицу сходства между документами и понятиями категории Wikipedia:

  • Создать отношения между Wiki понятиями и Wiki категориями,
  • Установить вектор соотвествия каждого документа и Wiki понятия,
  • Определить совпадающие документы и набор wiki категории.

Для отношения понятия - категории используют отношения между понятиями и категориями, представленными в Wiki, для отношения документ - понятие матрицы используют метод строгого согласования и и метод связанное согласования понятий в базе знаний. Для отношения документы - категории используют отношения понятие - категория и документ - категория.

Читать полный текст статьи …


СПИСОК ЛИТЕРАТУРЫ:
1. Hotho, A., Staab, S.andStumme, G. 2003. Wordnet improves text document clustering. In Proceedings of Semantic Web Work-shop, the 26th annual International ACM SIGIR Conference. (Toronto, Canada, Jul. 28-Aug.1, 2003)
2. Hotho, A., Maedche, A. and Staab, S. Text Clustering Based on Good Aggregations, In Proceedings of the 2001 IEEE International Conference on Data Mining. (San Jose, CA, Nov. 29-Dec.02, 2001,). IEEE Computer Society, Washington, DC, 07-608.
3. Yoo, I., Hu, X. and Song, I.-Y. 2006. Integration of semantic-based bipartite graph representation and mutual refinement strategy for biomedical literature clustering. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge dis-covery and data mining. (Philadelphia, PA, August 20 – 23, 2006). ACM Press, New York, NY, 791 – 796.
4. Zhang, X., Jing, L., Hu, X., et al. A Comparative Study of Ontology Based Term Similarity Measures on Document Cluster-ing. In Proceedings of 12th International conference on Database Systems for Advanced Applications. (Bangkok, Thailand, April 9-12, 2007).115-126.
5. G. Salton, “The SMART Retrieval System Experiments in Automatic Document Retrieval”, New Jersey, Englewood Cliffs: Prentice Hall Inc., 1971.
6. G. Salton and C. Buckley, “Term-Weighting Approach in Automatic Text Retrieval,” Information Processing & management, vol. 24,no. 5, 1988, pp. 513-523.
7. Xiaohua.Hu, Xiaodan.Zhang, Caimei.Lu, Xiaohua.Zhou, “Exploiting Wikipedia as External Knowledge for Document Clus-tering” , KDD’09, June 28-July 1,
8. L. Jing, M. K. Ng, J. Xu and Z. Huang, “Subspace clustering of text documents with feature weighting k- means algorithm, Proc.of PAKDD, pp. 802-812,2005.
9. HmwayHmway Tar and ThiThiSoeNyunt, “Ontology-Based Concept Weighting for Text Documents”, 2011 International Conference on InformationCommunication and Management IACSIT Press, Singapore.
10. Ahmed Sameh, Amar Kadray, “Semantic Web Search Results Clustering Using Lingo and WordNet”, InternationalJournal of Research and Reviews in Computer Science (IJRRCS) Vol. 1, No. 2, June 2010.
11. Zeng, Hua-Jun, Qi-Cai He, Zheng Chen, Wei-Ying Ma, and Jinwen Ma. "Learning To Cluster Web Search Re-sults”,SIGIR'04, July 2004, Sheffield, South Yorkshire, UK.
12. RekhaBaghel, RenuDhir, “Text Document Clustering Based on Frequent Concepts”, 2010 1st International Conference on Parallel, Distributed and Grid Computing (PDGC - 2010).
13. Rakesh Agrawal and Ramakrishnan Srikant, “Fast algorithms for mining association rules”. In Jorge B. Bocca,Matthias Jarke, and Carlo Zaniolo, editors,Proc 20th Int. Conf. Very Large Data Bases, VLDB, pp.487–499, 1994.
14. Imielinski, and A. N. Swami, “Mining Association rules between sets of items in large databases”. In Proceedings of ACMSIGMOD International Conference onManagement of Data (SIGMOD93), pp.207–216, Washington, D.C., May 1993.



© 
Нэй Лин, Журнал "Современная наука: актуальные проблемы теории и практики".
 

 

 

 
SCROLL TO TOP

 Rambler's Top100 @Mail.ru