А В Кийко - Идентификация дикторов путем нейросетевого анализа динамики распределения энергии речевого сигнала по частотным группам - страница 1

Страницы:
1  2 

Зависимость Р (%) от параметра А в условиях моделируемого шума

А

D=0,0001

D=0,001

D=0,01

1

50

50

50

2

65

55

52

3

89

68

54

4

92

70

55

7

98,5

82

63

10

100

90

67

29

 

100

80

50

 

 

100

В таблице не отображены данные для D =0,1, поскольку изображение практически не информативно (рис. 1), но в целях эксперимента.

Надійшла в редколегію 26.04.2011

***

УДК 004.032.26:004.93

Кийко А.В., Петров А.С.

ИДЕНТИФИКАЦИЯ ДИКТОРОВ ПУТЕМ НЕЙРОСЕТЕВОГО АНАЛИЗА ДИНАМИКИ РАСПРЕДЕЛЕНИЯ ЭНЕРГИИ РЕЧЕВОГО СИГНАЛА ПО ЧАСТОТНЫМ ГРУППАМ

В статье рассмотрено применение узкополосных нерекурсивных цифровых фильтров и самонастраивающихся карт Кохонена для идентификации пользователя по голосу. Перечислены основные параметры, характеризующие индивидуальные особенности речевых сигналов. Изложена методика расчета коэффициентов узкополосного цифрового фильтра, настроенного на заданную частоту. Представлена структура нейронной сети Кохонена и описан алгоритм ее настройки.

Анализ проблемы идентификации диктора по голосу

Интерес к проблеме идентификации по голосу обусловлен следующими преимуществами установления и проверки подлинности личности по отрезку речевой волны: голос невозможно украсть, а в процессе идентификации не требуется непосредственного контакта с пропускной системой. При распознавании голоса речь может идти об идентификации или о верификации говорящего. Идентификация - это нахождение в известном множестве контрольных фраз экземпляра, соответствующего манере говорить данного диктора. Верификация диктора - это определение идентичности говорящего: тот ли человек, за которого он себя выдает.

Индивидуальность речи человека характеризуется двумя группами признаков, связанными с анатомическими особенностями речевого тракта человека и уникальным характером приведения его в действие (артикуляционной деятельностью), обусловленным работой центральной нервной системы.

Первая группа признаков основывается на хорошо известной модели речевого тракта [4], состоящей из передаточной функции резонансной системы и генератора импульсов сигнала возбуждения. Передаточная функция практически полностью характеризует индивидуальную геометрическую форму пустот речевого аппарата: задняя глоточная пустота, сужение между языком и небом, передняя пустота рта, сужение между губами и

Вісник Східноукраїнського національного університету ім. В. Даля, №7 (161), 2011, Ч. 1. 45т.д. Основными параметрами здесь выступают характеристики четырех формантных областей (средняя частота, частотный диапазон, энергия), огибающая спектра, формантные траектории и производные от этих параметров. Частота импульсов возбуждения находится в прямой зависимости от колебаний голосовых связок, которые, в свою очередь, зависят от длины, толщины и натяжения последних. Основными параметрами здесь являются частота основного тона, параметр тон/шум, звонкость, подъем основного тона и производные от этих параметров.

Для расчетов параметров, связанных с физиологическими особенностями речевого тракта, используются методы спектрально-временного анализа, в основе которых лежит классический Фурье-анализ [4] или параметрический авторегресионный анализ (линейное предсказание как частный случай) [2, 3]. Тесно связан со спектральным представлением речевого сигнала довольно часто применяемый в последнее время гомоморфный метод [4]. Этот метод представляет речевой сигнал в виде последовательности векторов кепстральных коэффициентов, которые требуют значительно меньшего объема памяти для хранения эталонных образов. Небольшим количеством кепстральных коэффициентов (обычно 8 или 16) можно аппроксимировать формантный разрез, который имеет высокое спектральное разрешение. Параметры сигнала возбуждения рассчитываются с помощью известных методов выделения частоты основного тона (например, корреляционного метода, кепстрального метода, метода Голда-Рабинера [2, 4]).

Исследование ритмической картины языковой фразы показало, что ее временной рисунок остается инвариантным для индивидуальной артикуляционной программы, независимо от абсолютной продолжительности отдельных слов и слогов, которые входят в ее состав, т.е. остается инвариантным относительно темпа речи [5]. Наосновании этого можно предположить существование в центральной нервной системе некоторых уникальных для каждого человека схем, которые обеспечивают генерирование определенной и повторяемой последовательности действий речевого аппарата во времени.

К параметрам речевого сигнала, которые обуславливают индивидуальность голоса человека, относятся и интегральные параметры речи

Установлено, что конкретный источник голоса существует в речевом сигнале в виде некоторого постоянного фона. Слух человека, легко фильтруя необходимую ему информацию, осуществляет постоянное наблюдение за окраской голоса. Иногда совсем не различая фонетические элементы языка и даже содержание произносимого предложения, человек тем не менее легко идентифицирует говорящего по характерному потоку параметров голоса.

Это обстоятельство позволяет использовать в качестве характерных признаков голоса некоторые интегральные свойства речевого сигнала, т.е. свойства, которые проявляются в виде усредненных значений на отрезке анализируемого сигнала. Анализ интегральных параметров речевого сигнала дает возможность определить особенности индивидуального произношения для речевых фрагментов с разным фонетическим содержанием. Такое предположение хорошо согласовывает с повседневным опытом, когда стойкая идентификация диктора не зависит от фонетического содержания речи.

Одним из наиболее распространенных интегральных признаков является средневзвешенный спектр речи. Несмотря на то, что данный параметр голоса является наиболее простым видом обработки первичных данных, он считается одним из эффективных признаков для идентификации голоса в потоке слитной речи. Важное значение имеет высота голоса диктора, которая может быть выражена в виде среднего значения частоты основного тона речевого сигнала на фиксированном отрезке времени.

Определение параметров речевого сигнала

Для идентификации диктора нужны параметры, которые позволяют определить особенности его речи. Параметры речевого сигнала быстро меняются в течение времени, поэтому принято снимать их на отрезке звукового сигнала 10-20 мс, считая, что сигнал на

46        таком отрезке примерно стационарен (постоянен).

Человеческий слух имеет свойство образовывать частотные группы. То есть можно заменить абсолютные значения амплитуд в частотном диапазоне на некоторую величину, характеризующую суммарную амплитуду частот, попадающих в определенную группу. Число групп может быть порядка нескольких десятков, при этом группы в области высоких частотах должны иметь больший диапазон, чем в области низких частот, так как человеческий слух более точно распознает низкие частоты, чем высокие.

В качестве входных параметров для распознавания диктора можно использовать распределение энергии речевого сигнала по этим частотным группам.

Расчет коэффициентов узкополосного фильтра

Для узкополосной фильтрации речевого сигнала используются инфранизкочастотные нерекурсивные цифровые фильтры, методика синтеза которых разработана в [1]. Физически реализуемый инфранизкочастотный фильтр можно рассматривать как некоторую аппроксимацию идеального фильтра нулевой частоты (т.е. постоянной составляющей сигнала), АЧХ которого представляет собой дискретную 8 -функцию.

Для оценки качества такой аппроксимации в [1] предложен следующий критерий:

J Н(П;p,p)dП

K ; p,p) = -2-< 1, (1)

J Н (П; p,p)d П

0

где Н2я(П;Р,ф) - модуль амплитудно-частотной характеристики фильтра:

Н2я (П; p,p) =       1 + Р2 - 2Pj cos(n - pj) J1 + p2 - 2pj cos(n + pj) ; m - число каскадов

j=i

второго порядка в цифровом фильтре; П = 2ж— - нормированная частота; П„ - правая

граница "полосы пропускания" фильтра (интервала на оси П, для которого вычисляется величина K6); левой границей    всегда    является начало    координат;  аа - частота

дискретизации фильтруемого сигнала; p = (p1,...,ря) и p = (р1,...,ря) - m-мерные векторы,

компонентами которых соответственно являются модули pj и аргументы pj нулей zj

дискретной передаточной функции W2rn (z_1)  цифрового фильтра; K6 - коэффициент,

характеризующий "узкополосность" АЧХ ИНЦФ (т.е. ее сосредоточенность в окрестности П = 0).

Нули дискретной передаточной функции инфранизкочастотного нерекурсивного цифрового фильтра порядка 2m, максимизирующие величину критерия (1), лежат в комплексной z-плоскости на единичной окружности, поэтому pj = 1, j = 1, 2, ... m. C учетом этого дискретная передаточная функция инфранизкочастотного цифрового фильтра порядка 2m с симметричной АЧХ, реализуемого в последовательной (каскадной) форме, имеет вид:

mm

Wrn (z-) = П(1 -z,z 1 )(1 -Zjz-) = П(1 -2cospj.z 1 + z-2) = Xakz-k ,

j=1 j=1 k=0

где zj и zj - комплексно-сопряженные нули дискретной передаточной функции W2rn (z 1):

Коэффициенты    ak, k = 0,2я    вычисляются   по   следующему итерационному Вісник Східноукраїнського національного університету ім. В. Даля, №7 (161), 2011, Ч. 1. 47алгоритму:

а(и+1) = a(n)

a(«+1) = a(n) + a(n) p a1 ai     + ao pn+i

(n+1) = a(n) + a(n) p      + a(n)

a(n+1) = a(n) + ai—> p„+l + ai—>, i = 2,2n

a2n+1 a2n pn+1 + a2n-1 a2n+ 2       a2n ,

n = 1,2, ..., m 1, где pn = —2cosq>n.

Начальные значения коэффициентов равны:

= af = 1; сР

Для выделения из речевого сигнала компонент с частотами +Qd необходимо

использовать два включенных параллельно узкополосных цифровых фильтра, настроенных на   частоты       +Qd    и    -Qd    соответственно.   Эти   фильтры   получаются из

инфранизкочастотного фильтра путем поворота на комплексной z-плоскости всех его нулей соответственно на углы +Qd и —Q.d . Их общая дискретная передаточная функция имеет

следующий вид:

W2m (Z— ) = \ П(1 )(1 j«Z 1 ) + \ П(1 j^Z 1 )(1 j-Z 1 ) =

Z j=1 Z j=1

= —       2cosq>je'Q° z—1 + e'121° z ) + —       2cosq)je ,Q° z— + e ,121° z ). Обозначив u = e'Qs z— , v = e ,Q'J z— , получим:

1 тп лтп і   2 m і   2 m

W2m (z 1 ) = 2П(1 PjU + u2) + 2П(1 PjV + S) = 2Xakuk + 2Xakvk

2 j=1 2 j=1 2 k=0 2 k=0 12m                                  12m 2m

= - X a (uk + vk ) = -

2

X ak (uk +v )=1X ak (e'ta" + e~,ka°) z~l=X akcos kQ°z~

k=0 2k=0 k=0

Таким образом, для получения коэффициентов узкополосного цифрового фильтра, настроенного    на    частоты ,    достаточно    умножить    коэффициенты ak

инфранизкочастотного фильтра на cos kQ.d .

Нейросетевой подход к задаче идентификации

Для опознавания пользователей по голосу используется самоорганизующаяся карта Кохонена. Она осуществляет адаптивное преобразование поступающих векторов параметров речевых сигналов, имеющих произвольную размерность, в двумерную дискретную карту. На рис. 1 показана схематическая диаграмма двумерной решетки нейронов, используемой в качестве дискретной карты. Все нейроны этой решетки связаны со всеми узлами входного слоя. Эта сеть имеет структуру прямого распространения с одним вычислительным слоем, состоящим из нейронов, упорядоченных в столбцы и строки.

48

Слой входных узлов

Рис. 1. Двумерная решетка нейронов

Алгоритм формирования самоорганизующейся карты содержит следующие этапы:

Инициализация. Для исходных векторов синаптических весов Wj (0) выбираются случайные значения. Единственным требованием является различие векторов для разных значений j = 1,2,...,/, где l- общее количество нейронов в решетке. При этом рекомендуется сохранять малой амплитуду значений.

Страницы:
1  2 


Похожие статьи

А В Кийко - Идентификация дикторов путем нейросетевого анализа динамики распределения энергии речевого сигнала по частотным группам