О Савенкова, О Карпов - Інформаційна технологія реалізації складового синтезу - страница 1

Страницы:
1  2 

ВІСНИК ЛЬВІВ. УН-ТУ

Сер. прикл. матем. та інформ.

2008. Вип. 14. C. 194-203

VISNYKLVIV UNIV Ser. Appl. Math. Comp. Sci. 2008. No 14. P. 194-203

 

УДК 004.934

ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ РЕАЛІЗАЦІЇ СКЛАДОВОГО СИНТЕЗУ

О. Савенкова, О. Карпов

Дніпропетровський національний університет вул. Наукова, 13, м. Дніпропетровськ, 49050, e-mail: 2sol@ukr.net

Запропоновано інформаційну технологію систем розпізнавання мовлення для великих словників на підставі складового синтезу траєкторії параметрів. Головну увагу приділено алгоритмам побудови опису мовних одиниць словника (сплайн-опис, опис у класі дзвіноподібних функцій).

Ключові слова: інформаційна технологія, розпізнавання, мовленнєвий сигнал, дзвіноподібні функції, сплайн-опис.

1. ВСТУП

У системах з мовленнєвим уведенням інформації актуальною є проблема побудови системи розпізнавання мови (СРМ) зі словником великого розміру [6, 9, 10, 13, 14]. Створення таких СРМ грунтується на підході, в якому на першому етапі виконується розпізнавання звукових одиниць, які значно менші від слова (фонеми), а потім - із використанням різних джерел лінгвістичних знань визначають можливі мовні структури повідомлень [6, 9, 13]. Однак за таким підходом розглядають у такій реалізації мовного сигналу (МС) послідовність сегментів як незалежні події, яким відповідають незалежні мовні одиниці (МО). Проте параметри сегментів МС залежать як від попередніх, так і від наступних сегментів, отже, необхідно розглядати неперервні послідовності параметрів, або траєкторії параметрів (ТП) МС, які враховують залежність між сегментами та задовольняють вимогу максимальної повноти покриття множини слів цієї мови. Ці вимоги задовольняють склади [2, 5, 11]. Процес розпізнавання поданого МС - це синтез еталонної ТП із ТП складів, які належать до певного словника, що найбільше відповідають усьому мовному повідомленню по всій сукупності МО словника. Отже, постає проблема розробки інформаційної технології для СРМ, яка грунтується на складовому синтезі й вирішує таке: вибір МО словника; побудова адекватного опису параметрів МО словника; пошук такої комбінації мовних одиниць словника, яка є близькою за параметрами з параметрами поданого для розпізнавання повідомлення.

2. ФОРМУЛЮВАННЯ ЗАДАЧІ

Необхідно розробити інформаційну технологію для СРМ на підставі алгоритмів реалізації складового синтезу, яка розв'язує такі задачі.

1.  Аналіз МС, вибір інформативних параметрів для опису МС, реалізація автоматичної сегментації.

2.  Створення словників МО. Вибір формату збереження МО словника, опис ТП мовних одиниць у класі аналітичних функцій.

3.  Реалізація алгоритмів розпізнавання на підставі сегментно-складового синтезу мовної послідовності параметрів для поданого МС та визначення критеріїв ефективності цих алгоритмів.

 

© Савенкова О., Карпов О., 2008.

4. Розробка програмної реалізації цієї інформаційної технології. Усі задачі розв'язано за допомогою моделі навчання системи та моделі розпізнавання.

3. МОДЕЛЬ НАВЧАННЯ

Загальна схема моделі навчання цієї інформаційної технології зображена на рис. 1 і складається з таких етапів.

1. Уведення та первинне опрацювання МС, яка полягає в видаленні пауз на
початку та в кінці промови
[5, 12].

2.    Обчислення параметрів МС. Спочатку для поданого МС знаходимо
спектрально-часове зображення (СЧЗ), а потім
- спектрально-смугове зображення
(ССЗ). Надійність розпізнавання цих видів подання ТП мовних сигналів досліджено

у [12].

Первинне опрацювання МС

J3-


Декомпозиція МС на акустичні склади-еталони
J3-СЧЗ


ССЗ


Сплайн-опис ССЗ

Опис СЧЗ у класі дзвіноподібних функцій

 

3.  Автоматична сегментація МС. Сегментація МС виконується незалежно для СЧЗ та ССЗ, у цьому разі уточнюють межі сегментів-фонем.

4.  Декомпозиція МС на акустичні склади-еталони. На цьому етапі виконують автоматичний поділ сегментованої мовної послідовності параметрів на акустичні


 

 

Зберігання параметрів складів у словникахсклади-еталони (дво-, три-, чотирисегментні склади) з відповідним маркуванням. Згідно з форматом зберігання, ТП складів-еталонів розподіляють у словники.

Інформація про мовні одиниці у словнику наведена в такому вигляді:

<Номер МО>_<Им 'я МО><Транскрипція МО>_

<Кількість часових відліків>_<Кількість сегментів>_

< Адреси меж сегментів>_

<Групова належність сегментів>.

Головна проблема синтезу еталонної ТП з ТП мовних одиниць словника - це розриви першого роду в точках склеювання суміжних ТП, тобто синтезована ТП не є гладкою функцією, що відповідно призводить до зростання похибок у разі розпізнавання. Отже, для досягнення найліпшої близькості синтезованої траєкторії параметрів з траєкторією параметрів поданого МС постає задача побудови опису параметрів МО словника, який би забезпечив гладкість синтезованої ТП.

Необхідно побудувати опис МО словника { YS*k } у класі аналітичних функцій, які є гладкими функціями на всій області визначення вихідного спектрально-часового подання { YSk(о, t)}. У випадку склеювання ТП { YS k } необхідно отримати гладку

функцію опису еталонної ТП XS *(о, t), для якої досягнута найліпша близькість з ТП XS(о, t), тобто

d = X%S *(o,t)#XS(o,t) — min, (1)

де # - операція зіставлення.

3.1. ПОБУДОВА СПЛАЙН-ОПИСУ СПЕКТРАЛЬНО-СМУГОВИХ ПАРАМЕТРІВ МОВНИХ ОДИНИЦЬ СЛОВНИКА

На кожній часовій ділянці, яка відповідає сегменту-фонемі, послідовності параметрів спектрально-смугового подання YS(о, t) в кожній частотній смузі мають просту форму, яку можна описати поліномами низьких порядків (не вище третього порядку, n < 3 ) [5, 12]. Отже, для кожної k -ї МО словника побудуємо таку модель опису, яка з достатньою точністю апроксимує послідовності параметрів у кожній частотній смузі l: на кожному сегменті i знаходимо параметри моделі опису заданого сегмента поліномом третього порядку (кубічна модель)

Yl,=ak ,і 13+bk ,i 11+ck ,i t+dk ,i, (2)

для чого розв'язуємо задачу мінімізації середньоквадратичного наближення з умовами в точках сегментації, які забезпечують гладкість склеювання ТП

 

min, (3)

S   ( N^                                            l2 ^1

^[1]=z її к, - к, і

де Nk - межі сегментації; S - кількість сегментів для k -ї МО словника.

На рис. 2 зображено результат побудови моделі опису ТП для двосегментного складу словника "ін" в одній із частотних смуг. Застосовано такі позначення: Y -вихідна сегментована послідовність параметрів у частотній смузі;  Ym 3_ SG -

послідовність параметрів, побудована на підставі кубічної моделі опису з вузлом у точці сегментації.


3.2. ПОБУДОВА ОПИСУ СПЕКТРАЛЬНО-ЧАСОВИХ ПАРАМЕТРІВ МОВНИХ ОДИНИЦЬ СЛОВНИКА У КЛАСІ ДЗВІНОПОДІБНИХ

ФУНКЦІЙ

Побудуємо опис спектрально-часових параметрів МО словника YS о, t) у

класі дзвіноподібних функцій (локон Ан'єзі), які є гладкими на всій області визначення цих функцій [3]:

 

(4)

Z ( X) :

є2 + (x - Ь)2 '

Нехай у деякій частотно-часовій області о0, сои]x[t0, tN] таблично задана спектрально-часова функція мовного сигналу YSок, t,), де сок - дискретно задана частота; tt - дискретно заданий час (к = 1,M, І = 1,N).

Необхідно для YSо, t) знайти параметри функцій { Zt(t,) }, { Zco(cok) }, які є дзвіноподібними та гладкими на всьому діапазоні визначення, причому:

а) функція Zt(J) (tt) (i = 1,L ) описує часові властивості компонент мовного

сигналу, визначена в діапазоні Zt є [0, tN ] і має вигляд

 

Zt(i )(ti):


(5)

 

б) функція   ZC(i) ок)   (i = 1..L )  описує частотні властивості компонент мовного сигналу, визначена в діапазоні Zсoє [0, сом ] і має вигляд

 

(і)


(6)

 

 

Тоді можна побудувати опис СЧЗ мовного сигналу YS ок, tt) у вигляді суперпозиції L добутків дзвіноподібних функцій Zt(i) (tt), Za(J) ок) (к = 1.M, І = 1..N, і = 1..L )

так:

YS * Ок, t, ) = £ Za(l) о, )-Zt(i) (t,),


(7)

 


(8)

 

Невідомі параметри дзвіноподібних функцій Zt(i) (t ,), Za{.) (ск) (і = 1..L ) визначають за алгоритмом, який запропоновано в [3]. Діапазоном визначення добутків функцій { Zt (t,) }, { Za(o)k) } є область D розміром [0, tN] х [0, сом].

Рис. 3. Вихідне СЧЗ слова "один".Для прикладу, на рис. 3, 4 зображено СЧЗ слова "один" та опис СЧЗ слова "один" у класі дзвіноподібних функцій.

4. МОДЕЛЬ РОЗПІЗНАВАННЯ

Загальна схема моделі розпізнавання цієї інформаційної технології зображена на рис. 5 і складається з таких етапів.

1.  Уведення та первинне опрацювання МС.

2.  Обчислення параметрів МС. Знаходження СЧЗ та ССЗ.

3.  Автоматична сегментація МС.

4.  Синтез еталонної траєкторії параметрів (ЕТП) [1, 5, 8].

Розпізнавання сегментованої послідовності параметрів починається з процедури пошуку розв'язку-комбінації для ЕТП. Щоб знайти ЕТП, для якої досягнута найліпша близькість з траєкторією параметрів поданого МС по всій сукупності МО, необхідно синтезувати можливі ЕТП, складені із ТП, наявних у словнику МО, що потребує величезних часових затрат. Подолання часової складності за допомогою використання стратегій пошуку в просторі станів у ширину, глибину, із застосуванням евристик досліджено у [4, 1, 7, 8].

Згідно з обраною моделлю опису ТП у словниках, для синтезу ЕТП обирають алгоритм склеювання (алгоритм синтезу з лінійним / квадратичним перетворенням ТП складів, алгоритм сплайн-синтезу, алгоритм синтезу ТП у класі дзвіноподібних функцій). Для знайденої ЕТП, яка найліпше відповідає послідовності параметрів поданого МС, будують її символьний аналог як результат розпізнавання.

Первинне опрацювання МС

 

 

 


 

 

Евристичний алгоритм пошуку розв'язку для еталонної ТП

 

Синтез з лінійним перетворенням ТП складів

Синтез з квадратичним перетворенням ТП складів

 

Сплайн-синтез ТП

 

Синтез ТП у класі дзвіноподібних функцій

І

Зіставлення поданої та еталонної ТП

 

Синтез еталонної ТП

 

Синтез символьного аналога мовної послідовності

Рис. 5. Схема моделі розпізнавання системи.

 

4.1. АЛГОРИТМ СПЛАЙН-СИНТЕЗУ ЕТП

Синтез еталонної ТП XS (о, t) відбувається за такою моделлю:

' Y1,   N'0< i < N1,

 

XS = \ Yk,   N't-1 +1 < i < N'k, (9)

 

_ YM,   N'R_i +1 < i < NR, де k = 1 +- R ; R - кількість складів в еталонній ТП XS*(а>, t); Y%ik - ТП мовної одиниці словника; Nk - кількість часових відліків ТП k МО словника, t1 є [1, N1 ], t2 є [1, N2],     tk є [1, Nk],     tR є [1, NR].    Межі    складів    усередині поточної комбінації МО для еталонної ТП визначені так:

Страницы:
1  2 


Похожие статьи

О Савенкова, О Карпов - Інформаційна технологія реалізації складового синтезу

О Савенкова, О Карпов - Інформаційна технологія реалізації складового синтезу