Автор неизвестен - Информация, язык, интеллект - страница 121

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99  100  101  102  103  104  105  106  107  108  109  110  111  112  113  114  115  116  117  118  119  120  121  122 

Рассмотрим аспекты, которые препятствуют глобальному решению проблемы качественного распознавания речи.

1. Темп речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропор­ционально. Например, гласные изменяются зна­чительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные — это звуки при генерации которых необходимо участие голосовых связок, как и для гласных зву­ков, но сами они в обиходе считаются согласными. Например, так обычно звучат "м", "н", "л" и "р". Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например "б", "п", "д", "т". Образование щелевых звуков связано с шипением и прочими эффектами турбу­лентности в органах артикуляции. Можно назвать "в", "ж", "с", а также "ш" и другие шипящие. В качестве примеров для простоты намеренно не приведены звуки, не имеющие буквенных обозна­чений.) Это свойство называется временной неста­ционарностью образцов речевого сигнала.

Произнося одно и то же слово или фразу в раз­ное время, под влиянием различных факторов (на­строения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намногосильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесен­ной разными людьми. Обычно этот эффект назы­вают спектральной нестационарностью образцов речевого сигнала (см. примеры спектрограмм).

3.  Изменение темпа речи и четкости произно­шения является причиной коартикуляционной нестационарности, означающей изменение взаи­мовлияния соседних звуков от образца к образцу.

4.  Проблема кластеризации слитной речи: в не­прерывном речевом потоке трудно распознать рече­вые единицы: из-за неточного определения границ.

Вот лишь некоторые причины, препятствующие полной реализации систем распознавания речи.

4. Области применения

Обозначим основные области применения сис­тем распознавания речи:

1. Автоматизированный пользовательский ин­терфейс. На сегодняшний день для многих людей общение с компьютером все еще вызывает затруд­нения. Системы распознавания речи позволяют преодолевать эти трудности. Огромное преиму­щество систем распознавания голоса в том, что они намного быстрее любых других типов интер­фейсов. Голосовая программа электронной почты позволяет включать компьютер, диктовать и пос­лать сообщения, не прикасаясь к мыши и клавиа­туре. Также люди с физическими недостатками по­лучат более эффективный способ взаимодействия с компьютером.

Наиболее очевидное использование системы рас­познавания слитной речи заключается в создании систем автоматического стенографирования, кото­рые могут заменять секретарей при диктовке голо­сом текстов писем, заметок в ежедневник, докладов. В таком случае происходит не только экономия за счет сокращения работы стенографиста, но и повы­шение степени конфиденциальности информации.

2. Управление мобильными устройствами. Извес­тно, насколько неудобно и опасно использование мобильных телефонов с обычным (тактильным) способом набора номера за рулем. Во многих стра­нах приняты законы о запрете использования во­дителями таких телефонов с целью сокращения количеств ДТП. Поэтому в последнее время по­пулярностью пользуются мобильные телефоны с голосовым набором, избавляющие пользователя от необходимости набирать нужный номер вруч­ную. Достаточно произнести имя абонента, и со­единение произойдет автоматически. Аудиосис­темы контроля и управления уже применяются в автомобилях некоторых производителей. Владелец автомобиля голосом подает команды управления температурным режимом, радио, навигационной системой, которые воспринимают голос и выпол­няют команды (DIVO и VoiceCommander).

 

3. Информационные услуги. Современные систе­мы распознавания речи применяются, например, для заказа авиабилетов, просмотра новостей, до­ступа к базам данных.

Технология распознавания голоса быстро изме­нила рынок телефонных услуг. Системы, распозна­ющие разговорную речь, работают в информацион­ных телефонных центрах (rVR-системы — Interactive Voice Response). Эти системы позволяют автоматизи­ровать диалог с клиентом, в результате чего отпадает необходимость в огромном количестве операторов, принимающих телефонные звонки, и сокращаются расходы на содержание персонала. Вдобавок улуч­шается качество обслуживания клиентов, так как соединение с машиной осуществляется практичес­ки сразу, избавляя клиентов от длительного ожида­ния освободившегося оператора на линии.

4. Бизнес и профессиональная поддержка. Уже многие годы голосовые диктофонные системы, предназначенные для представителей опреде­ленных профессий, например, врачей и юристов, можно найти на рынке программных продуктов. Многие представители этих профессий использу­ют системы распознавания речи в повседневной работе. Стали популярны активируемые голосом домашние приборы и приспособления.

5. Комбинированные человеко-машинные интер­фейсы. За последнее десятилетие области примене­ния таких систем значительно расширились и бу­дут продолжать расширяться. Они применяются, в частности, для контроля ограниченного доступа к объекту с помощью распознавания лица и речи человека, выполнения финансовых операций при помощи речи и сенсорных экранов банкоматов. В качестве примеров можно привести российско-бе­лорусский проект "Модель аудиовизуального син­теза и распознавания речи для интеллектуальных устройств массового обслуживания" (2008-2009 гг), российско-турецкий проект "Методы и многомо­дальные интерфейсы для бесконтактной коммуни­кации инвалидов с информационно-справочными системами" (2009-2010 гг.), проект Российской академии наук "Разработка средств универсально­го многомодального доступа для системы интерак­тивного телевидения" (2009-2010 гг.).

5. Перспективы развития

Основными препятствиями на пути дальнейше­го развития автоматизированных систем распозна­вания речи являются:

1) необходимость больших объемов словарей;

2) зашумленность речевого сигнала;

3) различные акценты и произношения.

Объемы словарей определяют степень сложнос­ти, требования к вычислительной мощности и на­дежность систем распознавания речи. Необходи­мо продолжать основательные исследования. Этопозволит решить проблемы, связанные с морфо­логией, акцентами, высотой звука, темпом, гром­костью, сливающимися словами, артикуляцией, лингвистической информацией и т. д. Ожидается, что основным направлением развития станет мо­делирование языков для использования в системах распознавания речи.

Не решена окончательно и проблема выделения речевого сигнала из шумового фона. В настоящее время пользователи систем распознавания голо­са вынуждены работать в условиях минимального шумового фона.

Одна из приоритетных разработок в области распознавания речи — это человеко-машинные диалоговые системы, работа над которыми ведется во многих исследовательских лабораториях мира. Одной из таких разработок является техническая система фирмы АТ&Т (США), которая использует­ся для распознавания речи в телефонной сети: кли­ент может запросить одну из пяти категорий услуг, используя любые слова; он говорит до тех пор, пока в его высказывании не встретится одно из пяти ключевых слов. Эта система в настоящее время об­служивает около миллиарда звонков в год.

Такие системы "умеют" работать с непрерыв­ным речевым потоком и с неизвестными дикто­рами, понимать значения фрагментов речи огра­ниченного словаря и предпринимать ответные действия. Системы работают в реальном времени и способны выполнять пять функций:

1) узнавание речи — преобразование речи в текст, состоящий из отдельных слов;

2) понимание — грамматический разбор пред­ложений и распознавание смыслового значения;

3) восстановление информации — получение данных из оперативных источников на основании полученного смыслового значения;

4) генерация лингвистической информации — построение предложений, представляющих полу­ченные данные, на выбранном пользователем язы­ке;

5) синтез речи — преобразование предложений в синтезированную компьютером речь.

Диалоговый интерфейс в таких системах позво­ляет человеку разговаривать с машиной, создавать и получать информацию, решать свои задачи. Сис­темы с диалоговым интерфейсом различаются по уровню инициативности человека или компьюте­ра. Исследования фокусировались на "смешанно инициативных" системах, в которых как человек, так и компьютер играют одинаково активную роль в достижении цели посредством диалога.

Как ожидают в Datamonitor, одном из лидирую­щих мировых маркетинговых агентств, объем ми­рового рынка систем автоматического распознава­ния речи вырастет с $32,7 млн в 2009 г до $99,6 млн в 2014 г. Примерно теми же темпами будет расти и рынок систем распознавания для автомобильных те­лематических систем: с $64,3 млн в 2009 г. до $208,2 млн в 2014 г. "Рост популярности голосового интер­фейса в телефонах будет расти по мере того, как все большее число их владельцев сталкиваются с необ­ходимостью использовать мобильник в ситуациях, когда руки и глаза заняты", — говорят спецгиалисты.

Заключение

Ограничения применения систем распознава­ния речи в рамках наиболее традиционных прило­жений позволяют сделать вывод о необходимости поиска потенциально новых решений в области распознавания речи. В ближайшее десятилетие задача распознавания и понимания естественной речи вне зависимости от языка и диктора будет за­нимать центральное место в речевых технологиях.

В настоящее время в ХНУРЭ разрабатывает­ся новый метод автоматического распознавания речевых сигналов в реальном масштабе времени, основанный на бионическом принципе анализа сигналов.

Список литературы. 1. Мясников Л.Л. Звуки речи и их объективное распознавание // Вестник ЛГУ. 1946. — №3.

2.Dudley H., Riesz R., Watkins S. "A Synthetic Speaker" // Journal of the Franklin Institute. 1939, 227. — P. 739—764.

3.Davies, K.H., Biddulph, R. andBalashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6). — P. 637 — 642. 4. Вокодерная телефония. Методы и проблемы. /Под ред. А.А. Пирогова. M: Связь, 1974. 5. Клэтт Д.Х. Основные результаты работ по проекту ARPA //Методы автоматического распознавания речи. М. — 1983. — Т. 1. 6. Рабинер Л. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор. ТИИЭР. — 1989, т. 77, №2. — С. 86-120. 7. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. — Киев: Наук. думка, 1987. — 262 с. 8. Секунов Н. Обработка звука на PC. — СПб.: БХВ-Петербург. — С. 2001-1248.

поступила в редколлегию 29.04.2010

 

УДК 004.934

Розпізнавання мови: етапи розвитку, сучасні техно­логії і перспективи їх застосування / М.Ф. Бондаренко, А.В. Работягов, С.В. Щепковський // Біоніка інтелекту: наук.-техн. журнал. — 2010. — № 2 (73). — С. 164—168.

Проводиться короткий огляд розвитку систем роз­пізнавання мови, розглянуті загальні принципи їх побу­дови, а також перераховані основні етапи розвитку цього напряму і актуальні проблеми, пов'язані з вирішенням завдань розпізнавання мови.

Бібліогр.: 8 найм.

UDC 004.934

Speech recognition: stages of development, modern tech­nologies and prospects of their application / M. Bondarenko, A. Robotyagov, S. Schepkovsky // Bionics of Intelligence: Sci. Mag. — 2010. — № 2 (73). — С. 164—168.

The brief review of development of the systems of speech recognition is conducted, general principles of their construc­tion are considered, and also the basic stages of development of this direction and issues of the day, related to the decision of tasks of speech recognition are transferred.ОБ АВТОРАХБондаренко Михаил Федорович

 

Дрюк Александр Дмитриевич Кругликова Наталья Павловна

 

 

Лещинская Ирина Александровна

 

 

Пославский Сергей Александрович

 

 

Работягов Андрей Валентинович

 

 

Русакова Наталия Евгеньевна

 

 

Хайрова Нина Феликсовна

 

 

Хаханов Владимир Иванович

 

 

Шабанов-Кушнаренко

Сергей Юрьевич

 

Шабанов-Кушнаренко

Юрий Петрович

 

Шаронова Наталья Валерьевна

 

 

 

Щепковский Сергей Вадимович


член-корреспондент НАН Украины, д-р техн. наук, профессор, ректор Харьковского национального университета радиоэлектроники

студент кафедры прикладной математики Харьковского национального университета радиоэлектроники

аспирант кафедры программного обеспечения ЭВМ Харьковского национального университета радиоэлектроники

аспирант кафедры программного обеспечения ЭВМ Харьковского национального университета радиоэлектроники

канд. физ.-мат. наук, доцент кафедры теоретической механики Харьковского национального университета им. В.Н. Каразина

научный сотрудник кафедры программного обеспечения ЭВМ Харьковского национального университета радиоэлектроники

аспирант кафедры программного обеспечения ЭВМ Харьковского национального университета радиоэлектроники

канд. техн. наук, доцент кафедры информационных технологий и математики Харьковского гуманитарного университета «Народная украинская академия»

д-р техн. наук, профессор, декан факультета компьютерной инженерии и управления Харьковского национального университета радиоэлектроники

д-р техн. наук, профессор кафедры программного обеспечения ЭВМ Харьковского национального университета радиоэлектроники

д-р техн. наук, профессор кафедры программного обеспечения ЭВМ Харьковского национального университета радиоэлектроники

д-р техн. наук, профессор, заведующий кафедрой интеллектуальных компьютерных систем Национального технического университета «Харьковский политехнический институт»

ведущий инженер кафедры программного обеспечения ЭВМ Харьковского национального университета радиоэлектроникиНаукове видання

 

 

 

БІОНІКА ІНТЕЛЕКТУ інформація, мова, інтелект

Науково-технічний журнал № 2 (73)

2010

 

 

 

 

Головний редактор М. Ф. БОНДАРЕНКО Відповідальний редактор Ю. П. Шабанов-Кушнаренко Заступник відповідального редактораГ. Г. Четвериков Відповідальний секретар І. Д. Вечірська

 

КоректорЛ. М. Денісова Комп'ютерна верстка О. Б. Ісаєва

 

 

 

 

 

Рекомендовано Вченою Радою Харківського національного університету радіоелектроніки (протокол № 63 від 28.05.2010)

 

 

Адреса редакції:

Україна, 61166, Харків-166, просп. Леніна, 14, Харківський національний університет радіоелектроніки, к. 127, 285 тел.702-14-77, факс 702-10-13, e-mail: bionics@kture.kharkov.ua

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99  100  101  102  103  104  105  106  107  108  109  110  111  112  113  114  115  116  117  118  119  120  121  122 


Похожие статьи

Автор неизвестен - 13 самых важных уроков библии

Автор неизвестен - Беседы на книгу бытие

Автор неизвестен - Беседы на шестоднев

Автор неизвестен - Богословие

Автор неизвестен - Божественность христа