Автор неизвестен - Информация, язык, интеллект - страница 120

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99  100  101  102  103  104  105  106  107  108  109  110  111  112  113  114  115  116  117  118  119  120  121  122 

Каждому полюсу логической сети ставится в соответствие своя предметная переменная моде­ли. Каждый полюс обозначается своей предмет­ной переменной. С каждым полюсом связывается область изменения атрибута этого полюса. Любой полюс логической сети в каждый момент времени несет какое-то знание о значении своего атрибута. Указывая состояние всех полюсов сети в данный момент времени, получаем состояние сети в тот же момент времени.

Каждой ветви логической сети ставится в со­ответствие свое бинарное отношение модели, ко­торое называется отношением этой ветви. Каждая ветвь соединяет два полюса, отвечающие тем пред­метным переменным, которые связываются отно­шением, соответствующим данной ветви.

Выводы

Логическую сеть можно превратить в электрон­ную схему для автоматического решения некото­рого класса задач, определяемого той моделью, для которой была построена данная сеть, и установить на материнской плате персонального компьютера [8]. По мере необходимости программа, управля­ющая работой компьютера, может обращаться к данной карте, которая за доли микросекунды фор­мирует ответ на запрос.

Такое распараллеливание действия при обработ­ке полнотекстовых баз данных повышает произво­дительность работы системы машинного перевода, с существенным улучшением качества перевода ес­тественно-языковых текстов. Использование дан­ной модели позволяет существенно уменьшить ко­личество семантических ошибок при переводе не только узкоспециализированных текстов, но и при переводе текстов общей тематики, так как в текстах данного типа правила формирования сверхфразо­вых единств сохраняются.

Список литературы: 1. Хайрова Н. Ф. Машинный перевод./ Н. Ф. Хайрова, И. В. Замаруева — Харьков: Око, 1998.— 82 с. 2. Бондаренко М. Ф. Теория интеллекта. / М. Ф. Бонда­ренко, Ю. П. Шабанов-Кушнаренко — Харьков: Изд-во СМИТ, 2007. — 576 с. 3. Schneiderman R. A. Why librarians should rule the net // E-NODE.— 1996.—Vol.1, N 4.— 5, Septem. 4. Хайрова Н Ф. Модель разбиения множества эле­ментов смысла многозначных слов переводимого предло­жения в системах автоматического перевода / Хайрова Н. Ф., Шаронова Н. В. Бионика интеллекта: научн.-техн. журнал. 2007. № 2 (67). С.37-40. 5. Шабанов-Кушнарен­ко Ю. П. Теория интеллекта: Технические средства.

Х.: Вища школа, 1986.— 134с. 6. Apresjan, Ju. Systematic Lexicography. Oxford University Press, 2000, XVIII, 304 pp 7. Бондаренко М.Ф. Модели языка / М. Ф. Бондаренко, Ю. П. Шабанов-Кушнаренко // Бионика интеллекта

Х.: Изд-во ХНУРЭ, 2004, № 1 - С. 27-37. 8. Хайрова Н.Ф., Замаруева И.В. 8. Хаханов В.И. Проектирование и тестирование цифровых систем на кристаллах / В. И. Хаханов, Литвинова Е.И., Гузь О.А. — Харьков: ХНУРЭ.

2009. — 484 с.

Поступила в редколлегию 26.04.2010

 

УДК 519.766.2

Використання логічної мережі для семантичного аналі­зу зв'язних фрагментів тексту / Н.Ф. Хайрова, Н.В. Ша­ронова / Біоніка інтелекту: наук.-техн. журнал. — 2010.

-  № 2 (73). — С. 159—163.

Проведено аналіз основних завдань семантичного аналізу в сучасних системах автоматичної обробки тек­стів природної мови. Запропонована модель побудови логічної мережі відносин перевідних еквівалентів бага­тозначних слів над фразової єдності. Для побудови ме­режі використовується математичний апарат кінцевих предикатів. Побудована логічна мережа, що дозволяє визначати значення багатозначного перевідного еквіва­ленту за попередніми багатозначними словами над фра­зової єдності.

Бібліогр.: 8 найм.

UDC 519.766.2

Use of the Lgic Network for the Semantic Analysis of Co­herent Fragments of the Text / N.F. Khairova, N.V. Sharon-ova / Bionics of Intelligence: Sci. Mag. — 2010. — № 2 (73).

—        С. 159—163.

The article suggests a model of a logical net of relations of translation equivalents of polysemantic words in superphrasal unities. Finite predicates are used to build the network. The logical network under consideration allows defining the meaning of a translation equivalent using the meanings of the previous polysemantic words in superphrasal unities.БИОНИКА ИНТЕЛЛЕКТА. 2010. № 2(73). С. 164-168УДК 004.934
РАСПОЗНАВАНИЕ РЕЧИ: ЭТАПЫ РАЗВИТИЯ, СОВРЕМЕННЫЕ ТЕХНОЛОГИИ И ПЕРСПЕКТИВЫ ИХ ПРИМЕНЕНИЯ

М.Ф. Бондаренко1, А.В. Работягов2, С.В. Щепковский3

В статье проведен обзор развития систем распознавания речи, рассмотрены общие принципы их построения, перечислены актуальные проблемы этого направления. Также рассмотрены актуальные области применения и перспективы развития систем распознавания речи.

МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧИ, СОВРЕМЕННЫЕ И ПЕРСПЕКТИВНЫЕ РЕЧЕВЫЕ

ТЕХНОЛОГИИ


1 ХНУРЭ, г. Харьков, Украина, 2 ХНУРЭ, г. Харьков, beloswet@kture.kharkov.ua Украина, 3 ХНУРЭ, г. Харьков, Украина, svserg@kture.kharkov.uaВ настоящее время существуют многочислен­ные технические средства, могущие воспринимать (распознавать) произносимые речевые сообщения: компьютеры, медицинское электронное оборудо­вание, автомобили, мобильные телефоны и др.

Что такое распознавание речи? На первый взгляд, все кажется очень просто: человек произ­носит слово (фразу), а техническая система адек­ватно реагирует на него: либо выполняет команду, содержащуюся в слове (фразе), либо набирает дик­туемый текст, либо как-то иначе "распоряжается" извлеченной из фразы информацией.

Бурное развитие распознавания речи с помо­щью персонального компьютера (ПК) началось с 1993 г.

Две ключевых задачи распознавания речи — до­стижение 100 % распознавания на ограниченном наборе команд хотя бы для одного диктора и неза­висимое от диктора распознавание непрерывно­го речевого потока в реальном масштабе времени произвольного языка с приемлемым качеством — до сих пор не решены, несмотря на многочис­ленные попытки решения этих задач в течение последних 50-ти лет.

Современные системы распознавания речи уже дают возможность пользователям диктовать слова (фразы) в обычной разговорной манере. Однако процесс непрерывного распознавания речи, да­ющий до 95 % качества распознавания при опти­мальных условиях, все-таки дает на 100 знаков 5 ошибок. Около 200 ошибок на странице формата A4 — слишком много для профессиональной рабо­ты. Рассмотрим ставшую традиционной последо­вательность действий для компьютерного распоз­навания речевого сигнала.

Как правило, система распознавания речи со­стоит из двух моделей: акустической и лингвисти­ческой.

Компьютер записывает звук речи в виде цифро­вого сигнала и делит его на аудиофрагменты дли­тельностью несколько миллисекунд. Акустичес­кая модель отвечает за преобразование речевого сигнала в набор признаков, в которых отображена информация о содержании речевого сообщения. Программа выполняет сложный анализ речи, срав­нивая аудиофрагменты с записанными в память речевыми образцами.

Лингвистическая модель анализирует инфор­мацию, получаемую от акустической модели, и формирует окончательный результат распознава­ния. На основе вероятностного расчета компьютер определяет, что именно мог произнести пользова­тель. В основе модели лежит понятие фонемы — наименьшей акустической единицы языка. В про­цессе обучения компьютер распознает наиболее важные признаки произношения пользователем фонем и записывает полученные данные в виде профиля пользователя. Для таких систем важно, чтобы в дальнейшем во время диктовки пользова­тель, по возможности, выдерживал мелодию речи и произношение.

1. Этапы развития систем распознавания речи

Создание устройств, способных воспринимать и "понимать" звучащую речь, имеет более короткую историю, чем построение "говорящих машин", синтезирующих речь. Следующие даты можно на­звать основными вехами в развитии компьютерно­го распознавания речи.

1962 г. Первое коммерческое устройство рече­вого вывода: модель 7772 от IBM.

1984 г. Первая система распознавания речи на базе ЭВМ. На распознавание слова уходили мину­ты. Система различала примерно 5000 слов.

1986 г. Опытный образец системы речевого вво­да Tangora 4. Благодаря специальному микропро­цессору впервые стала возможна обработка речи на рабочем месте в реальном времени. В системе уже появилась функция контроля контекста.

1990 г. Dragon System представила первую аме­риканскую версию программы речевого ввода Dragon Dictate System.

1992 г. Технология Tangora в модели клиент-сервер. Используется RISC-система IBM RS/6000. Речевой ввод с ПК под OS/2.1993 г. Появилась первая система речевого вво­да для ПК — Personal Dictation от IBM; стоимость $1000. Одновременно выходит Philips Dictation System — первая система непрерывного распозна­вания речи.

1995 г. IBM представила на CeBIT систему дик­товки VoiceType со специализированными слова­рями для медиков и адвокатов.

1997 г. Появилась система клиент-сервер Speech Magic от Philips. Lernout & Hauspie представила пер­вую англоязычную систему распознавания речи.

2001 г. Microsoft выпускает комплект офисных приложений Office XP с поддержкой речевого вво­да и управления.

Первые попытки в данной области относятся к 40-м годам прошлого века, и связаны они с по­явлением спектральных анализаторов — электри­ческих устройств, позволяющих анализировать спектральные характеристики речевых сигналов. В СССР в это время было создано первое техничес­кое устройство, которое могло распознавать глас­ные русского языка на основе разности энергии в 14 частотных полосах [1].

Развитие области знаний, связанной с анали­зом и распознаванием речевого сигнала, началось с решения задач передачи речи по узкополосным каналам связи с полосой пропускания меньшей, чем у обычной телефонной линии. Решение этой задачи привело к созданию вокодеров — устройств, выполняющих сокращение частотной полосы ре­чевых сигналов для линий дальней связи. Первым успехом в данной области считается полосный во­кодер американского инженера-связиста X. Дадли [2]. Он представлял собой параметрический воко­дер, фильтровавший спектр речи с интервалом в 20-30 мс на несколько полос, в каждой из которых измерялась энергия. Вокодер сначала осуществля­ет спектрально-временной анализ речевого сигна­ла, выделяя его акустические параметры, а затем может восстановить (ресинтезировать) исходный речевой сигнал на основании выделенных пара­метров. В отличие от предшествующих синтезато­ров, вокодер Дадли был основан не на имитации артикуляции, а на воспроизведении акустических параметров речевого сигнала.

Серьезные работы по распознаванию речи нача­лись в основном после Второй мировой войны. Пер­вое устройство для распознавания речи появилось в 1952 г., оно могло распознавать произнесённые че­ловеком цифры [3]. В AT&T Bell Labs была создана система распознавания отдельных цифр с помощью простого согласования акустических характеристик с шаблонами. Она представляла собой довольно примитивную систему, которая могла распознавать цифры, переданные голосом по телефону.

Для дальнейшего развития автоматическо­го распознавания речи (АРР), большое значение имели метод динамической спектрографии (типа "Видимая речь") и широкое использование соот­ветствующей аппаратуры в фонетических иссле­дованиях. К концу 50-х годов на материале самых разных языков был накоплен большой исследова­тельский материал, который свидетельствовал о сложной природе соответствия между привычны­ми для лингвистов представлениями речевых от­резков в виде последовательности фонем или алло­фонов и физической реальностью звучащей речи. В начале 60-х годов компания IBM разработала и продемонстрировала "Shoebox" — предшественни­ка современных систем распознавания речи. Это новаторское устройство распознавало и реагиро­вало на 16 произносимых слов, включая цифры от 0 до 9. Оно было показано по телевидению и в па­вильоне IBM на мировой ярмарке 1962 г. в Сиэтле.

Достижения в области анализа и передачи ре­чевого сигнала впервые в нашей стране были ши­роко изложены в монографии М. А. Сапожкова "Речевой сигнал в кибернетике и связи" в 1963 г. Позже вышла работа большого коллектива авторов "Вокодерная телефония. Методы и проблемы" под редакцией А. А. Пирогова [4]. За рубежом методы анализа речевого сигнала были опубликованы Дж. Фланаганом в своей монографии немного позже М. А. Сапожкова.

Система распознавания на основе вероятност­ного подхода была создана Фраем и Денесом в лон­донском University College. В этой системе впервые использовались вероятности переходов между фо­немами. Начиная с 1971 г. Агентство перспектив­ных исследовательских программ (DARPA) Ми­нистерства обороны США финансировало четыре конкурирующих пятилетних проекта по разработ­ке высокоэффективных систем распознавания речи. Победителем этой программы и единствен­ной системой, соответствующей требованиям по распознаванию словаря из 1000 слов с точностью 90%, стала система HARPY, разработанная в уни­верситете CMU. Окончательная версия этой сис­темы была создана на основе системы Dragon, раз­работанной аспирантом того же университета Дж. Бейкером [5]. В этой системе для вероятностного моделирования слов речи впервые были исполь­зованы скрытые марковские модели [6]. Скрытая марковская модель является на сегодняшний день наиболее широко применяемым и эффективным подходом к проблеме построения акустической модели.

Почти одновременно с системой Dragon в ком­пании IBM была разработана еще одна система на основе скрытых марковских моделей. Начиная с этих двух разработок, вероятностные методы в це­лом и скрытые марковские модели в частности ста­ли доминировать в исследованиях и разработках по распознаванию речи [7, 8]. Использование данного подхода, ввиду своей эффективности, стало в на­стоящее время почти промышленным стандартом.2. Возможности современных технологий

Увеличение вычислительных мощностей мо­бильных устройств позволило и для них создать программы с функцией распознавания речи. Сре­ди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет ра­ботать со многими приложениями при помощи го­лоса. Еще одной интересной программой является Speereo Voice Translator, голосовой переводчик. SVT способна распознавать фразы, произнесенные на английском языке, и "говорить" в ответ перевод на одном из выбранных языков.

Интеллектуальные речевые решения, позволя­ющие автоматически синтезировать и распозна­вать речевой сигнал, являются следующей ступе­нью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонно­го приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, со­кращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Таким образом, в телефонных интерактивных приложениях все чаще стали использоваться сис­темы автоматического распознавания и синтеза речи. При этом системы распознавания являются независимыми от дикторов, то есть распознают го­лос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируют­ся на получении и обработке речевых сигналов на ранней стадии артикулирования.

В настоящее время, каждый человек, разго­варивая по сотовому телефону, пользуется т.н. липредерами — вокодерами, работающими на ос­нове линейного предсказания речевого сигнала, используемыми в стандарте GSM. Однако до сих пор в области вокодерной связи не решена за­дача максимального сжатия речевого сигнала до фонемного уровня и передачи его с наименьшей скоростью 60 бит/с, что соответствует письменной передачи речи произносимой со средней для чело­века скоростью 10 фонем в секунду. Решение этой задачи непосредственно связано с распознаванием непрерывной звучащей речи.

В настоящее время на рынке представлено мно­жество коммерческих систем распознавания речи:

Voice Type Dictation, Voice Pilot и ViaVoice от

IBM;

Dragon Dictate и Naturally Speaking от Nuance Communications;

Voice Assist от Creative Technology;

Listen for Windows от Verbex и многие другие.

Некоторые из них (например, ViaVoice и Natu­rally Speaking) способны, как заявляют разработчи­ки, вводить слитную речь.

Компания Nuance Communications, в частнос­ти, постоянно обновляет свой программный про­дукт Dragon NaturallySpeaking, который позволяет надиктовывать текстовые документы, а также уп­равлять работой компьютера с помощью голосо­вых команд. Нужно отметить, что данный инстру­мент распознавания достаточно хорошо работает только с разговорным английским.

Петербургская компания "Центр речевых тех­нологий", целенаправленно занимающаяся техно­логиями распознавания речи, еще в 2008 г. создала технологию распознавания слитной русской речи "Руссограф", для создания которой был создан уникальный для России набор речевых баз данных, в который входят записи более чем 3000 дикторов общей длительностью около 300 часов, собран­ных с учетом 5 диалектных групп русского языка. Уникальность данной технологии заключается в том, что многочисленные системы распознавания речи, применяемые к другим языкам, не обеспечи­вают такого же качества распознавания при работе с русским языком. Сейчас эта технология развива­ется и адаптируется для применения в конечных программных продуктах.

3. Проблемы реализации систем распознавания речи

Страницы:
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99  100  101  102  103  104  105  106  107  108  109  110  111  112  113  114  115  116  117  118  119  120  121  122 


Похожие статьи

Автор неизвестен - 13 самых важных уроков библии

Автор неизвестен - Беседы на книгу бытие

Автор неизвестен - Беседы на шестоднев

Автор неизвестен - Богословие

Автор неизвестен - Божественность христа