keflex 750

Login

VIP Studio - журнал «Современная наука»

Russian (CIS)English (United Kingdom)

МОСКВА +7(495)-725-XX-XX

Исследование особенностей фонетического строя речи и идентификация дикторов по голосу

E-mail Печать

Р.А. Васильев,  (Аспирант, Нижегородский государственный лингвистический университет  им. Н. А. Добролюбова)

alt

Конференция 01
Секция - ПРИКЛАДНЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

 

«ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В НАУКЕ, БИЗНЕСЕ И ОБРАЗОВАНИИ»:

Сборник статей V Международной научно-практической конференции студентов, аспирантов и молодых ученых.

В  работе предлагается метод фонетического анализа речи – выделение списка элементарных речевых единиц типа отдельных фонем из непрерывного потока разговорной речи конкретного диктора. В статье описан практический алгоритм идентификации диктора — процесс определения говорящего из заданного набора дикторов.

В связи с возросшей информатизацией современного общества, увеличением числа объектов и потоков информации, которые необходимо защищать от несанкционированного доступа, а также необходимостью интеллектуализации всех форм взаимодействия пользователей автоматизированных систем управления с техническими средствами, все более актуальными становятся проблемы использования механизмов речевых технологий для разграничения доступа к информационно-вычислительным системам, в частности метод идентификации пользователей системы по голосу. Привлекательность данного метода — удобство в применении.

Исследования осуществлены в терминах универсального теоретико-информационного подхода и  информационной теории восприятия речи [1, с. 3-9]. Их главная цель – создание необходимой методологической и программной базы для дальнейшей конструкторской разработки системы идентификации диктора по голосу.

Идентификация дикторов осуществлялась по требованиям в соответствии с ГОСТ 16600-72 «Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений». В соответствии с ГОСТ 16600-72 были выбраны тексты фраз и команд последовательно во времени, многократно (в разных реализациях) проговаривались в микрофон группой из десяти дикторов, все разного возраста, мужчины и женщины, в режиме продолжительного (до 1мин), достаточно информативного звучания. Полученные сигналы через АЦП (частота дискретизации 8 кГц) были записаны в память ПК в виде соответствующих звуковых файлов.

Для реализации предложенных экспериментальных исследований, сотрудниками кафедры математики и информатики НГЛУ им. Н. А. Добролюбова во главе с профессором Савченко В. В. был разработан лабораторный образец информационной системы  фонетического анализа слитной речи (ИС ФАР) (Патент на полезную модель  № 90251. Устройство для фонетического анализа и обучения речи. / Роспатент: по заявке № 2009122158/22 от 09.06.2009). Данная система представляет собой фонетический анализатор. Варианты применения такого анализатора можно привести из самых различных областей. Это может быть, например, задача анализа качества речи по ее фонетическому составу, как для отдельного диктора, так и для идентификации диктора по голосу. В качестве прикладной задачи можно привести текстонезависимую идентификацию разных дикторов по голосу [2, c. 3-5].

Интерфейс ИС ФАР изображен на рисунке 1, состоит из главной формы, на этой форме отображаются дикторы, внесенные в БД и главное меню программы. При выборе любого диктора из списка в правой части окна отображается краткая информация о нем. Кроме того, при помощи имеющегося меню, можно выбирать различные режимы работы, загрузки, сохранения и отображения данных.

alt

Рисунок 1. Общий вид интерфейса ИС ФАР

В процессе эксперимента на сегментирование подавались фразы отдельных дикторов и производилась идентификация конкретного диктора посредством подсчета распознанных фонем. Решение о принадлежности произнесенной фразы конкретному диктору принимается автоматически после подсчета всех распознанных фонем и вычисления доминирующих фонем среди всех остальных, что представлено на рисунке 2.

На рисунке 2 видно, что в произнесенной фразе всего выделено 759 фонем, из них 609 фонем принадлежат диктору «роман», а 150 фонем распознаны как «ложные» фонемы, похожие на фонемы других дикторов. Таким образом, по большему количеству принадлежащих определенному диктору фонем, можно идентифицировать кто произнес фразу. При этом в системе «ИСФАР» нет привязки к произнесенным командам и фразам и осуществляется автоматическая текстонезависимая идентификация диктора.

alt

Рисунок 2. Окно выполнения идентификации диктора по количеству фонем

В ходе решения поставленной задачи были получены следующие результаты:

  • Проанализирован процесс речеобразования и исследована работа артикуляторного аппарата человека, в результате чего выработаны пути построения модели идентификации голосового сообщения;
  • Произведён обзор и анализ методов, которые могут использоваться при идентификации голосового сообщения – нейросети, частотные цифровые фильтры, Фурье-анализ, кепстральный анализ, методы машинного обучения, векторное квантование, гауссовы смеси и вейвлет-анализ.;
  • Построена структурная схема модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса.

 


СПИСОК ЛИТЕРАТУРЫ:

1. Савченко В. В. Информационная теория восприятия речи // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - № 6. - С. 3–9.

2. Савченко В. В., Акатьев Д.Ю., Карпов Н.В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - № 4. - С. 3–5.


© Р.А. Васильев,  Изд-во "Научные технологии", 2012.
 
 
 

ПРАВОВАЯ ИНФОРМАЦИЯ:  Перепечатка материалов допускается только в некоммерческих целях со ссылкой
на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке. © ООО "Научные технологии"

Книжные Изданияbadge

badge
  • Реструктуризация информационного пространства органов государственной власти Санкт-Петербурга
  • Профессия «Бухгалтер»: прошлое, настоящее, будущее
  • Финансово-кредитная политика России
  • О недостаточности категории «графическое слово» для описания языкового материала арабского литературного языка (в связи с акцидентальными письменными словами в АЛЯ)

 

Текущие статьи

Разработка алгоритма распознавания трехмерной поверхности на базе исходных  2D изображенийРазработка алгоритма распознавания трехмерной поверхности на базе исходных 2D изображений
А.Б. Исаев,  (Аспирант, Нижегородский государственный лингвистический...
Программная среда для оперативного расчёта финансово-кредитных показателейПрограммная среда для оперативного расчёта финансово-кредитных показателей
Р.В. Cеменцов,  (Студент, Харьковский институт банковского дела...
Современные требования и проблемы реализации системы управления вузомСовременные требования и проблемы реализации системы управления вузом
И.С. Фофанов,  (Аспирант, Финансовый университет при Правительстве...

Журнал - Маркшейдерия и Недропользование Журнал Земля и Недвижимость Сибири Журнал - Минеральные Ресурсы России. Экономика и Управление Журнал - Геология Нефти и Газа Журнал - ГЛОБУС: Геология и Бизнес

Последние комментарии

RSS
VIP Studio Retro
viagra super force