keflex 750

Login

VIP Studio - журнал «Современная наука»

Russian (CIS)English (United Kingdom)

МОСКВА +7(495)-XXX-XX-XX

Автоматизация поиска информации в сети интернет по заданной тематике

E-mail Печать

А.К. Гордеев,  (Студент, Финансовый университет при Правительстве РФ, Москва)

Ю.А. Сергеев,  (Студент, Финансовый университет при Правительстве РФ, Москва)

alt

Конференция 01
Секция - ИНТЕРНЕТ-ТЕХНОЛОГИИ В НАУКЕ, БИЗНЕСЕ И ОБРАЗОВАНИИ

 

«ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В НАУКЕ, БИЗНЕСЕ И ОБРАЗОВАНИИ»:

Сборник статей V Международной научно-практической конференции студентов, аспирантов и молодых ученых.

Мы живем в век информационных технологий. Объемы информации, доступные в сети Интернет, скорость и количество участников информационного обмена растет с каждым годом. Чтобы эффективно использовать этот массив информации, необходимо обладать эффективными инструментами поиска и анализа информации.

Например:

  • служба безопасности предприятия решает вопросы кадровой безопасности, заключающиеся, в том числе, в сборе данных о сотрудниках предприятия. Такие же сведения о сотрудниках конкурентов могут оказаться очень полезной информацией;
  • маркетолог проводит маркетинговые исследования, собирает информацию о деятельности конкурентов и поведении потребителей, осуществляет мониторинг имиджа компании;
  • аналитик собирает информацию для анализа;
  • трейдер собирает новости о ситуации на рынке и в мире, систематизирует данные для анализа, оценивает настроение рынка, тенденции и прогнозы;
  • журналист настраивается на необходимые источники информации, автоматически собирает информацию для статей, фильтрует и рубрицирует найденную информацию.
  • менеджер по персоналу настраивается на необходимые кадровые агенства, специализированные порталы и форумы, автоматически собирает картотеку возможных кандидатур, извлекает и рубрицирует необходимые предприятию кандидатуры.

 

Поисковые системы отлично справляются с простыми однократными запросами. Однако если информационный поиск надо повторять постоянно или если предметная область сложна по структуре, то можно заметить, что:

  • популярные поисковые системы сети Интернет перегружают вас тысячами бесполезных ссылок.
  • поисковые системы не помнят, что вы уже видели, а что нет, и при следующем запросе принесут вам те же тысячи уже просмотренных ссылок.
  • поисковые системы не умеют правильно сортировать полученную информацию и раскладывать ее по нужным рубрикам.
  • Поисковые системы не всегда видят свежие тематические новости или события. Задержка в индексировании конкретного сообщения может доходить до двух недель.
  • поисковая система сети Интернет выполняет поиск по конкретному запросу, а значит, нагружает вас повторяющейся рутинной работой.

 

Для оптимизации и автоматизации информационного поиска мы начали разрабатывать свой программный продукт – автоматизированную поисковую систему Dinase. В отличие от популярных поисковых систем сети Интернет, Dinase требует ручной настройки модели предметной области в виде списка источников и правил рубрикации. Правила рубрикации закрепляются за «умными папками». Каждая «умная папка» «знает», что в ней должно находиться и следит за своим наполнением. Сбором информации занимается специализированный поисковый робот, который постоянно работает на сервере или периодически запускается на локальном компьютере.

Технология Dinase базируется на 7 шагах обработки информации:

По расписанию:

  • сбор информации со всех указанных источников специальным роботом-пауком,
  • разбор ресурсов до машиночитаемого состояния (парсинг),
  • выделение «полезной» информации
  • выбор новой информации,
  • сохранение информации в базе данных,
  • По запросу «умной папки»:
  • рубрицирование новой информации,
  • формирование новостной ленты Atom, понятной для многих почтовых клиентов.

 

Пример работы программы приведен на рисунке 1.

alt

Рисунок 1. Результат работы программы Dinase

Техническая информация о программе Dinase:

  • Лицензия: GPL
  • Состояние: indev
  • Язык программирования: python
  • Окружение: паук: GNU/Linux, клиент: любое
  • СУБД: mongodb
  • Похожие коммерческие программные продукты:
  • Avalanche – http://www.tora-centre.ru/avl3.htm
  • Продукты компании RCO – http://www.rco.ru/
  • Продукты компании Медиалогия – http://www.mlg.ru/
  • Продукт X-Files компании АйТеко – http://www.i-teco.ru/xfiles.html

 


© Г.О. Крылов,  Изд-во "Научные технологии", 2012.
 
 
 

ПРАВОВАЯ ИНФОРМАЦИЯ:  Перепечатка материалов допускается только в некоммерческих целях со ссылкой
на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке. © ООО "Научные технологии"

Книжные Изданияbadge

badge
  • Реструктуризация информационного пространства органов государственной власти Санкт-Петербурга
  • Профессия «Бухгалтер»: прошлое, настоящее, будущее
  • Финансово-кредитная политика России
  • О недостаточности категории «графическое слово» для описания языкового материала арабского литературного языка (в связи с акцидентальными письменными словами в АЛЯ)

 

Текущие статьи

Два способа организации процесса прогнозирования и идентификации состояния канала связи в адаптивных СПИДва способа организации процесса прогнозирования и идентификации состояния канала связи в адаптивных...
Л.К. Кузнецов,  (Профессор, Финансовый университет при Правительстве...
Методика анализа и синтез процесса освоения учебной дисциплины ВПОМетодика анализа и синтез процесса освоения учебной дисциплины ВПО
С.Б. Бурнашова,  (Cт. Преподаватель, Братский государственный...
Исследование особенностей фонетического строя речи и идентификация дикторов по голосуИсследование особенностей фонетического строя речи и идентификация дикторов по голосу
Р.А. Васильев,  (Аспирант, Нижегородский государственный лингвистический...
Тестирование надёжности – необходимый этап в создании качественного программного продуктаТестирование надёжности – необходимый этап в создании качественного программного продукта
Е.А. Калиберда,  (Доцент, Омский государственный институт сервиса)...

Журнал - Маркшейдерия и Недропользование Журнал Земля и Недвижимость Сибири Журнал - Минеральные Ресурсы России. Экономика и Управление Журнал - Геология Нефти и Газа Журнал - ГЛОБУС: Геология и Бизнес

Последние комментарии

RSS
VIP Studio Retro
levitra bitcoin