viagra super force

+7(495) 123-XXXX  г. Москва

Выпуски журналов

  • Серия
  • Серия
  • Серия
  • Серия
  • Журнал
  • Журнал
  • Журнал
  • Журнал

И.Д. Панков,  (Аспирант, Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации, г. Москва)

Серия «Естественные и Технические науки» # СЕНТЯБРЬ-ОКТЯБРЬ  2016

Анализ схожести текстов
В данной статье затрагиваются предпосылки возникновения задачи поиска схожих дефектов в рабочем процессе отдела бизнес-контроля качества IT компаний, обосновывается необходимость поиска похожих дефектов в рамках задачи ранжирования дефектов по важности. Приведен обзор стандартных методов параметризации текстов, затронуты метрики схожести описания двух дефектов и набор эвристик, позволяющих увеличить значение метрик схожести заведомо похожих дефектов. Определены стандартные метрики выявления качества списка похожих дефектов и предложен новый. Намечены основные направления по улучшению существующей методики.

Ключевые слова: Анализ схожести текстов, обработка технической документации, анализ дефектов, информационный поиск, интеллектуальный анализ текста.

 

Задача, с которой часто сталкивается отдел бизнес-контроля качества - финальная приемка перед выпуском новой версии продукта на рынок. Задача нетривиальная, ведь каждый новый продукт технически сложен.

В рамках этой задачи анализируется набор дефектов D, в котором содержатся два подмножества – исправленных в рамках релиза дефектов Dr (Defects resolved) и неисправленных Da (Defects active). Исходя из различных критериев приемки, которые приняты на разных предприятиях, бывают ситуации, когда продукт не разрешается к публикации, если среди дефектов Da присутствуют высокоприоритетные (High) или критичные (Critical). Такие требования понятны, но иногда приводят к ситуации, когда среди Da есть баги с заниженными приоритетами. В случае, если поиск высокоприоритетных дефектов среди подмножества Da оказывается верно организован и такие дефекты будут найдены в кротчайшие сроки, то у разработчиков остается время на исправление дефектов. Такое удачное стечение обстоятельств поможет продукту выйти на рынок в срок. В противном случае компания может столкнуться с откладыванием выхода продукта до исправления выявленных дефектов, что повлечет за собой экономические потери и репутационные риски. Риски связанные с репутацией особенно актуальны в случае проведения активной маркетинговой компании приуроченной к выпуску продукта.

Таким образом, перед экспертами отдела бизнес-контроля качества стоит задача оценки всех дефектов группы Da за срок, отведенный для анализа проекта. Если на поздних этапах приемки темпы проверки отстают от запланированных, то может возникнуть ситуация, при которой эксперты вынуждены работать сверхурочно и с пониженной производительностью.

Данную проблему можно решить двумя способами – автоматическое ранжирование набора Da в порядке убывания потенциальной критичности, основанной на внутренней информации и поиск исторической информации о критичности похожих дефектах в более ранних версиях или параллельных продуктах. Если первая задача теоретически еще может быть решена без применения экспертной валидации, а только посредством проведения кросс-валидации и определения размера ошибки на тестовой выборке, то вторая задача не может быть решена без экспертной оценки. Вторая задача является приоритетной еще по одной причине. Если для нового дефекта удается найти похожий дефект с наличием Инцидентов у пользователей, то это может резко увеличить важность исходного дефекта.

В условиях, когда экспертное время слишком дорого для ручной оценки, настройка модели должна быть проведена автоматически без привлечения экспертов на первых этапах. Для понимания того, что же может быть показателем похожести дефектов, хорошо подходят данные о схожести, которые уже имеются в системе. Такими данными является информация о дублировании отчета о дефекте в системе. Данные о дубликатах дефектов имеются как в закрытых коммерческих системах ведения разработки, так и в открытых источниках вроде bugzilla.org. Очевидно, что если экстраполировать значение абстрактной меры похожести двух дефектов до максимума (1 при использовании коэффициента Жаккара и 0 при косинусной мере), то таким теоретическим максимумом должны обладать пары дефектов – Мастер-Дубликат, полностью друг друга копирующие «слово-в-слово». В исследуемой системе информация о дубликатах обозначалось явной связкой {Dm, Dd, 1} (Master Defect – Duplicate Defect). К этим данным можно было добавить случайных шумовых пар {Dm, Dm, 0} и выявить закономерности – что может являться признаком похожести дефектов.

Процесс обработки текстов

Для целей анализа схожести дефектов необходимо сравнить тексты, описывающие их – текстовые поля заголовка (Title) и описания (Description). В отдельных случаях можно дополнить информацию о дефекте данными из обсуждений дефекта (Comments), но они имеют несравнимо большую размерность и должны отдельно обрабатываться и разбиваться на несколько модулей (выделение разных частей – ссылки, машинный код, общение и обмен комментариями, автоматически генерируемые комментарии системы). Сложность так же вызывает тот факт, что в случае с обсуждением имеет значение очередность.

В [2] достаточно хорошо разобран ряд вопросов предварительной обработки (препроцессинга) текстов дефектов: как учитывать токены (текстовые единицы, в простейшей постановке вопроса – отдельные слова) и какая именно обработка нужна, как разделять тексты на токены, какие токены лишние, как учитывать токены, которые совместно создают неделимые смысловые единицы.

Стандартный подход к препроцессингу является относительно простой последовательностью применения методов: восприятие текстов как простой совокупности слов, лемитизация, выделение коллокаций и квазиколлокаций (учет отрицания при токенах), стемминг отдельных токенов, применение tf-idf меры параметризации, нормализация. [2]

    Далее будут рассмотрены некоторые из этих методов.

Препроцессинг методом Bag of words

Для анализа и сопоставления текстов двух дефектов их необходимо привести к набору параметров в векторном пространстве. Стандартным подходом при анализе схожести двух документов является подход оценки текста как совокупности всех слов (bag of words), при котором не оценивается семантика. [3] Такой подход позволяет абстрагироваться от сложных методов анализа смысла, содержащегося в дефекте. Негативной стороной данного подходя является потеря некоторой части информации, которая могла бы улучшить поиск похожих дефектов.

Читать полный текст статьи …


СПИСОК ЛИТЕРАТУРЫ:
1. Александров М.А. Разработка общей методологии анализа общественного мнения Интернет-сообщества и ее приложение к заданным темам (власть, экономика, коррупция и пр.) на основе инструментов Data/Text Mining // Москва, 2013. — 204 с.
2. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие — М.: МИЭМ, 2011. — 272 с.
3. Маннинг Кристофер Д., Рагхаван Прабхакар, Шютце Хайнрих, Введение в информационный поиск, — М.: Вильямс, 2014. — 528 с.
4. Chengnian Sun1, David Lo2, Xiaoyin Wang3, Jing Jiang2, Siau-Cheng Khoo A Discriminative Model Approach for Accurate Duplicate, Bug Report Retrieval, Cape Town, South Africa, 2010
5. Hooimeijer P., Weimer W. Modeling Bug Report Quality // ASE’07, Atlanta, Georgia, USA, 2007
 



© 
И.Д. Панков, Журнал "Современная наука: актуальные проблемы теории и практики".
 

 

 

 
SCROLL TO TOP

 Rambler's Top100 @Mail.ru