Прикладные системы с использованием фонетических знаний icon

Прикладные системы с использованием фонетических знаний




Скачати 218.8 Kb.
НазваПрикладные системы с использованием фонетических знаний
Дата02.06.2012
Розмір218.8 Kb.
ТипДокументи

Н. В. Зиновьева, О. Ф. Кривнова
^

ПРИКЛАДНЫЕ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ
ФОНЕТИЧЕСКИХ ЗНАНИЙ


В настоящей статье описываются две прикладные системы, существенной частью которых являются знания о звуковой системе русского языка.

Первая система представляет собой программу автомати­ческого синтеза речи, в основе которой лежит идея совмещения методов компиляции и синтеза по коэффициентам линейного прог­нозирования (КЛП-синтеза). Метод компиляции при адекватном на­боре исходных элементов обеспечивает качественное воспроизве­дение спектральных характеристик речевого сигнала, а КЛП-син­тез — возможность просодического оформления высказываний в за­висимости от их коммуникативного типа. Кроме того, при этом обеспечивается существенное сокращение объёма памяти для хра­нения исходных элементов компиляции.

Вторая система ориентирована на автоматическое корректи­рование фонетически мотивированных ошибок в различных редак­торских пакетах программ, работающих с русским печатным текстом.

Рассмотрим последовательно эти системы.
^

I. Фонетическое обеспечение для программного синтеза русской речи


Фонетическое обеспечение синтеза должно включать следую­щие функциональные блоки:

А. Лингвистически обоснованный набор элементов компиляции (акустико-сегментный словарь синтеза).

Б. Правила перевода орфографического текста в последова­тельность кодов (имён) элементов компиляции (грамматика бук­венно-кодовых преобразований).

В. Правила формирования просодических характеристик высказывания с учётом их сегментного наполнения (просоди­ко-сегментная грамматика).

Рассмотрим более подробно устройство и функции каждого из выделенных блоков.
^ 1. Выбор элементов компиляции

В известных системах компилятивного синтеза в качестве элементов компиляции используются различные типы единиц: аллофоны, дифоны, слоги, полуслоги, двуслоги и т. д. Эти единицы выбираются так, чтобы, с одной стороны, избежать трудностей в отражении коартикуляционных процессов, а с другой стороны, не перегружать машинную память черезмерным их количеством. Выбор того или иного типа единиц имеет свои преимущества и не­досстатки.

Использование сложных единиц (т. е. единиц более чем фо­немной размерности) приводит к необходимости хранения доста­точно большого количества элементов компиляции. Кроме того, выбор этого типа единиц не снимает окончательно проблемы их адекватной стыковки при синтезе слитной речи.

Преимуществом выбора сложных единиц является относитель­ная простота формирования словаря элементов компиляции, кото­рый получается путём полного исчисления единиц выбранного типа для синтезируемого языка.

Выбор аллофонов (акустически и перцептивно различимых контекстных реализаций фонем) имеет такие преимущества, как сокращение памяти для их хранения в оцифрованном виде (за счет меньшей длительности, чем длительность сложных единиц) и воз­можность сокращения необходимого набора путем обобщения тож­дественных контекстных влияний. Следует отметить, что при удачном обобщении практически решается и проблема адекватной стыковки базовых элементов компиляции при синтезе речи. Однако задача поиска возможных обобщений и тем самым определения оп­тимального набора аллофонов может быть решена лишь с учетом знания акустических рефлексов коартикуляционных процессов. Та­кой подход можно считать основанным на фонетических знаниях в том понимании, которое принято в исследованиях по искусствен­ному интеллекту.

В предлагаемом нами варианте лингвистического обеспечения синтеза речи избран именно этот подход, т. е. в качестве базо­вых элементов компиляции выбраны аллофоны, оптимальный набор которых и представляет собой акустико-фонетический словарь синтеза. В нашей версии этот словарь включает в себя 667 еди­ниц. В большинстве случаев элементы компиляции представляют собой сегменты речевой волны фонемной размерности, однако в ряде случаев это соответствие нарушается. Например, для синте­за смычных и вибрантов используется более одного акустического сегмента, а для синтеза некоторых двухсимвольных последова­тельностей, в частности, заударных флексий, используется один акустический сегмент.

Для формирования аллофонной базы данных был подобран спе­циальный словарь, состоящий из слов, содержащий необходимые аллофоны в заданных контекстах. Слова этого словаря произноси­лись одним диктором-мужчиной (в дальнейшем количество дикторов предполагается увеличить), вводились в машину в оцифрованном виде с помощью специализированной платы АЦП-ЦАП. Затем с по­мощью пакета программ Tool Kit, связанного с АЦП-ЦАП, осущест­влялось вычленение акустических сегментов, соответствующих за­данным аллофонам, и запись этих сегментов в отдельные файлы, имена которых представляют собой аллофонные коды. При синтезе речи входной буквенный текст подвергается ряду преобразований, в результате которых получается последовательность аллофонных кодов, по которым из базы данных выбираются соответствующие им файлы акустических сегментов, объединяемых в звуковую цепочку. Остановимся на описании тех преобразований, которым подверга­ется письменный текст.
2. Грамматика буквенно-кодовых преобразований

В нашей системе правила буквенно-кодовых преобразований объединяются в два относительно самостоятельных блока: транскриптор и аллофонный кодировщик.
2.1. Транскриптор.

Транскриптор осуществляет перевод буквенных последова­тельностей (тек­стов в орфографической записи) в символьную за­пись, единицу которой мы будем далее называть звукотипом. В состав транскриптора входят блоки следующих преобразований: переход “буква-фонема”, переход “фонема-звукотип” и текстовый процессор.

Блок перехода “буква-фонема” осуществляет такие операции над орфографической записью, как, например, устранение орфог­рафических фикций (типа “ ого, -его” в окончаниях), обработка особых случаев произнесения стечений согласных, устранение твердых и мягких знаков, обработка йотированных и мягких букв с соответствующей интерпретацией твердости-мягкости соседних согласных и введением йота.

Блок перехода “фонема-звукотип” включает правила, обраба­тывающие случаи позиционного озвончения, оглушения согласных и редукции гласных (с учетом двух степеней редукции).

Блок текстового процессора обрабатывает межсловные стыки, функциональные слова, превращая их в проклитики, энклитики и слабоудщарные слова. Кроме того, в рамках этого блока осущест­вляется выбор места синтагматических границ и типа мелоди­ческого контура синтагмы на основании знаков препинания, а также выбор главноударного слова в синтагме.

Каждый блок транскриптора содержит не только общие прав­вила произнесения, распространяющиеся на подавляющее боль­шинство слов, но и списки исключений, позволяющие транскриби­ровать слова с нестандартным произношением (в большинстве сво­ем это слова иностранного происхождения). Кроме того, для пользователя предусмотрена возможность формирования собствен­ного словаря слов с нестандартным произношением.
^ 2.2. Правила формирования аллофонных кодов.

Этот блок тесным образом связан с формированием линг­вистически обоснованного набора элементов компиляции, т. к. именнно этот блок связывает входной текст с выбором акусти­ческих сегментов в базе данных. Решая вопрос о принципах коди­ровки, мы одновременно решали и вопрос об оптимизации базы данных, т. е. о целесообразности включения в неё тех или иных контекстно обусловленных акустических сегментов. Таким обра­зом, это две стороны одной проблемы, которые трудно отделить друг от друга, поэтому в дальнейшем мы не будем специально останавливаться на их различиях.

При формировании оптимальной акустико-сегментной базы данных, мы исходили из следующих общеизвестных принципов:

— количество контекстно обусловленных аллофонов (КОА) гласных существенно больше контекстно обусловленных аллофонов согласных;

— для гласных более важным является левый контекст, а для согласных — правый, т. е. взаимодействие сегментов в сочетании СГ существенно больше, чем в сочетании ГС;

— разные согласные в разной степени подвержены кон­текстному влиянию, что предполагает разное количество кон­текстно обусловленных аллофонов.

Несмотря на необходимость достаточно гибкого подхода к формированию наборов КОА для разных звукотипов, принципы их кодировки должны быть едиными, достаточно удобными для форми­рования кодов по входным транскрипционным записям и прозрачны­ми по своей структуре.

Мы избрали следующий подход: каждый аллофон кодируется набором из шести цифр, из которых первые две обозначают номер аллофона, следующие за ними две цифры — тип левого контекста, а две последние — тип правого контекста. Из двух первых цифр номера звукотипа первая цифра обозначает его класс, а вторая — собственно номер звукотипа в пределах этого класса. Это позво­ляет сгруппировывать звукотипы, в одинаковой мере подверженные контекстному влиянию, и в соответствии с этим строить свои правила кодировки для разных классов. Таким образом, обеспечи­вается достаточно гибкая процедура кодировки, позволяющая учесть различную степень подверженности разных звукотипов кон­текстным влияниям.

Всего нами сформировано 10 классов звукотипов, из них 8 — для согласных и два для гласных. Вообще говоря, все гласные, по нашему мнению, подвергаются одинаковой (и достаточно боль­шой) степени контекстного влияния, но по некоторым соображени­ям мы всё же разбили их на класс ударных и класс безударных.

Согласные распределяются по классам следующим образом. Классы 0 и 1 соответствуют звонким и глухим смычным. Для этих классов левый контекст не определяется, что в кодах отражается двумя нулями на соответствующем месте, а правые контексты сво­дятся в четыре основных типа: огубленные гласные, передние гласные, конец синтагмы и все остальные контексты.

Для классов 2 и 3 (твёрдые и мягкие фрикативные, кроме [х] и [х’]) левый контекст учитывается в минимальной степени, т. е. рассматриваются всего два типа контекстов: начало синтаг­мы и все остальные, а в качестве правых контекстов выделяются те же типы, что и для классов 0 и 1.

Класс 4 (все носовые) в наименьшей степени подвержен кон­текстному влиянию, и для него вообще не рассматриваются ни ле­вые, ни правые контексты.

Классы 5 (плавные сонанты и [в], [в’], [х], [х’]), 6 (виб­ранты) и 7 ([й]) в наибольшей степени подвержены контекстным влияниям, и для них сформированы детальные правила кодировки и правых, и левых контекстов.

Предложенная процедура разбиения на классы позволяет варьировать количество хранящихся в памяти контекстно обуслов­ленных аллофонов от одного (для звукотипов 4-ого класса) до 11 (для звукотипов 5-ого, 6-ого и 7-го классов).

Следует также упомянуть, что звукотипы классов 0, 1 и 6 представляют собой составные единицы, и для них в аллофонной базе данных хранятся отдельные части аллофонов, а в блоке ко­дировки, соответственно, специальные правила их кодирования.

Для каждого гласного звукотипа выделяется 10 левых и 5 правых контекстов. В качестве левых контекстов выделяются твердые зубной неносовой, губной неносовой, заднеязычный, зуб­ной носовой, губной носовой, альвеолярный, мягкий неносовой, мягкий зубной носовой, мягкий губной носовой и начало синтаг­мы. В качестве правых контекстов выделяются твердые переднея­зычный, губной, альвеолярный, любой мягкий и конец синтагмы. В результате учета всех вышеперечисленных контекстных влияний для большинства гласных звукотипов в аллофонной базе данных хранится по 50 аллофонов (исключение составляют звуки, коли­чество рассматриваемых контекстов для которых ограничено зву­ковой комбинаторикой русского языка).

Особый случай представляют собой правила кодировки (и, соответственно, последующей склейки) зияний и квазизияний в заударных суффиксально-флексийных комплексах. В последнем слу­чае мы говорим о квазизияниях, потому что на фонемном уровне гласные в этих комплексах как правило разделены йотом. Однако на акустическом уровне сохраняются лишь определенные рефлексы йота, что позволяет транскрипционную последовательность йГ (где Г — любой безударный гласный) кодировать одним аллофоном по специально разработанному правилу. Такого же рода операция производится при кодировке стечений переднего редуцированного гласного [ь] и любого гласного. Для кодировки других типов зи­яний в списки перечисленных выше правых и левых контекстов бы­ли дополнительно включены все гласные.

Блок кодировки работает следующим образом. Практически всегда (за редким исключением) он рассматривает последователь­ность из трех символов входной транскрипции [... yxz...], где x

— кодируемый элемент, y — левый контекст, а z — правый. Для каждого из элементов триады существуют специальные списки, ко­торые определяют класс звукотипа (для x) и тип контекста (для y и z). Класс звукотипа, как уже говорилось выше, определяет выбор правил анализа контекстов, что позволяет в ряде случаев сократить процедуру перебора до минимума, а также сократить акустико-сегментную базу данных до оптимального объёма.

Акустико-сегментная база данных, получившаяся в результа­те предложенного подхода, включает в себя 137 сегментов для согласных звукотипов и 530 — для гласных и при хранении в оцифрованном виде занимает около 2-х мегабайтов машинной памя­ти. При переводе акустических сегментов в КЛП-спектры объём необходимой памяти для хранения всей базы данных сокращается до 300 килобайт.
^ 3. Просодико-сегментная грамматика

Данный блок в нашей системе содержит правила временного и мелодического оформления синтагм с учетом их ритмического строения и сегментно-кодового наполнения. Функция этих правил состоит в том, чтобы определить временные (в мс) и мелоди­ческие в (Гц) характеристики для базовых элементов компиляции (акустических элементов базы данных), которые при обработке синтагмы выбираются в нужной последовательности блоком коди­ровки. Необходимые для этого предварительные операции: выделе­ние синтагм, выбор типа мелодического контура, определение степени выделенности (ударности-безударности) входящих в син­тагму гласных и символьного звукового наполнения слоговых комплексов, — осуществляются блоком автоматического транскрип­тора.
^ 3.1. Правила временного оформления синтагмы.

Правила, задающие временные характеристики гласных в об­рабатываемой синтагме, учитывают степени выделенности (редук­ции) гласного (4 градации) и его фонетическое качество (сте­пень открытости — 3 градации). Кроме того, для ударного гласного последнего полнозначного слова учитывается число сло­гов в слове и количество ударных гласных, предшествующих дан­ному в синтагме. Предусмотрено также продление гласных (неза­висимо от степени их редукции и фонетического качества) в по­зиции абсолютного конца синтагмы. Что касается влияния сог­ласных на длительность гласных, то оно учитывается лишь в наи­более ярких случаях, прежде всего, для гласных в позиции перед интервокальными вибрантами.

Для последовательностей гласных, образующих единый эле­мент компиляции (заударные флексии), действует правило адди­тивного сложения длительностей, задаваемых другими правилами временного процессора.

Правила, определяющие временные характеристики согласных, учитывают следующие факторы: позиция согласного относительно границ синтагмы и фонетического слова; интервокальная-неинтер­вокальная позиция; позиция в кластере (стечение согласных); простой-сложный состав базовых элементов компиляции, необходи­мых для звукового синтеза согласных.

Во временной процессор входят также правила, задающие длительность паузы после окончания синтагмы (конечной-неконеч­ной), которые необходимы для синтеза связного текста.
^ 3.2. Правила мелодического оформления синтагмы.

Окончательным результатом действия правил мелодического оформления синтагмы являются значения частоты основного тона (F0), приписанные каждому выбранному элементу компиляции в ка­честве его начальной и конечной мелодической характеристик. Вычисление этих “физических” значений происходит на основе предварительного определения по правилам мелодических характе­ристик транскрипционных аллофонов в полутоновой шкале (Т-зна­чения). Полутоновые характеристики (начальная и конечная) каж­дого аллофона формируются текущим образом (слева направо) сло­говыми циклами, т. е. в рамках последовательности (Cn)Г, где Cn — любое число согласных, в том числе 0, предшествующих гласно­му.

В нашей системе мелодический процессор содержит правила для формирования следующих типов мелодических контуров: завер­шенность, два вида незавершенности, общий вопрос, специальный вопрос. Для всех контуров, кроме последнего, учитывается воз­можность разного положения главноударного слога (ме­ло­ди­ческого центра) синтагмы. Специальный вопрос формируется для случая совпадения мелодического центра с вопросительным местоимением.

При определении мелодических характеристик элементов ком­пиляции, входящих в обрабатываемый слог, учитываются следующие факторы: тип мелодического контура синтагмы; положение слога относительно мелодического центра контура (совпадение, слева, справа); положение слога относительно начальной и конечной границы синтагмы; степень выделенности (редукции) гласного в обрабатываемом слоге; степень выделенности (редукции) гласно­го, непосредственно предшествующего обрабатываемому слогу; число символьных элементов в слоге; тип символьного элемента слога (согласный, гласный) и положение этого элемента относи­тельно начала слога (первый-непервый); фонетическое качество согласных в слоге (глухость-звонкость); простой-сложный состав базовых элементов компиляции, необходимых для звукового синте­за согласных в слоге.
^

II. Автоматический корректор орфографических ошибок в русских
печатных текстах


Для описания предлагаемого нами способа автоматической коррекции орфографических ошибок в русских печатных текстах введем ряд рабочих понятий.

^ Печатным текстом мы называем русский текст, введенный в компьютер с клавиатуры. Графическим словом считается цепочка идущих без пробелов букв русского алфавита [1, с.150].

В любом языке существуют правила чтения букв и графи­ческих слов, которые каждому графическому слову ставят в соот­ветствие определенную звуковую цепочку, состоящую из звуков данного языка. Такую звуковую цепочку мы будем далее называть фонетическим образом графического слова.

В силу неоднозначного соотношения между буквами и звуками одна и та же звуковая цепочка может иметь несколько графи­ческих соответствий. Будем считать графически правильной за­писью фонетического образа слова любое графическое слово, ко­торое по правилам чтения преобразуется в данный фонетический образ. Графически правильные записи одного и того же фонети­ческого образа будем называть далее фонетически эквивалентными.

Одна из графически правильных записей слова, а именно та, которая зафиксирована в словаре в качестве его канонического буквенного представления, называется словарной орфографической записью.

Теперь об ошибках. Мы будем считать, что графическое сло­во содержит ошибку, если оно не совпадает ни с одной из орфог­рафических записей, хранящихся в словаре. Легко видеть, что в этом случае так называемые грамматические ошибки (например, нарушение правил согласования или управления), а также непра­вильный выбор слова по смыслу выходят за рамки нашего опреде­ления: в дальнейшем такие ошибки не рассматриваются.

Ошибки в нашем понимании могут быть двух типов: опечатки и орфографические ошибки. Последние имеют место тогда, когда ошибочное графическое слово содержит среди фонетически эквива­лентных ему записей по крайней мере одну словарную орфографи­ческую запись. Далее мы будем рассматривать проблему коррекции орфографических ошибок, хотя предлагаемый нами подход может быть использован и для исправления опечаток.

Если известно, что графическое слово содержит ошибку, за­дача орфографического корректора сводится к отсеиванию опеча­ток и исправлению орфографических ошибок. Эта задача требует сопоставления входного графического слова со словарем. Теоре­тически можно говорить о трёх способах сопоставления: а) под­­гонка графического слова под словарь; б) подгонка словаря под графическое слово; в) установление связи между графическим словом и словарем с помощью некоторого промежуточного механиз­ма, который учитывает связи между буквами, обусловленные пра­вилами чтения.

Нам кажется более предпочтительным вариант “в”, поскольку он позволяет избежать громоздкого механизма порождения всех графически правильных записей, фонетически эквивалентных вход­ному графическому слову (как в случае “а”), или громоздкого словаря (как в случае “б”). Поэтому остановимся подробнее на одном из возможных вариантов реализации механизма “в”.

Предлагаемый нами корректор включает два основных компо­нента: таблицы близости букв с точки зрения правил чтения (да­лее — таблицы фонетической близости) и алгоритм сравнения гра­фических слов со словарем на базе этих таблиц.

Таблицы основаны на понятии фонетической близости букв. В общем виде отношение фонетической близости определяется следу­ющим образом: буква “x” фонетически близка букве “y”, если по имеющимся правилам чтения “x” может быть реализована таким звуком, для которого “y” является основной буквой. В общем случае отношение фонетической близости несимметрично. В то же время имеет смысл рассматривать это отношение как градуальное, т. е. использовать разные степени фонетической близости, учиты­вая при этом такие факторы, как тип и частотность контекстов, в которых действуют правила чтения, а также явления гиперкор­рекции. Приведем примеры фонетической близости букв по разным типам контекстов:

— близость между буквами, обозначающими парные по глу­хости-звонкости согласные в позиции конца слова (фонетический контекст);

— близость между буквами “г” и “в” в окончаниях прилага­тельных (грамма­ти­чес­кий контекст);

— близость между буквами “ч” и “ш” в отдельных словах ти­па “что”, “скучно” и др. (лексический контекст).

Явления гиперкоррекции охватывают случаи таких неправиль­ных написаний, как, например, “трова” вместо “трава”, в основе которых лежит некорректное использование знаний о фонетической близости между буквами. Учет этого явления несколько сглажива­ет несимметричность отношений фонетической близости, о которой шла речь выше.

Степень фонетической близости между буквами отражается через систему баллов (от 0 до 10) таким образом, что более близкие пары букв получают меньшее количество баллов, а более далекие — большее.

Алгоритм сравнения входного графического слова со слова­рем основан на использовании метода динамического программиро­вания [2]. Этот метод позволяет для любой пары сравниваемых графических записей определить суммарный коэффициент их подо­бия. Дадим формальное описание предлагаемого алгоритма.

Введем понятие сетки подобия. Это таблица, столбцы кото­рой помечаются буквами входного графического слова в их естественном порядке, а строки — буквами словарной орфографи­ческой записи, с которой в данный момент сравнивается входное слово. Узлу сетки подобия соответствует некоторая пара букв {an, bm}, где n — номер буквы в рабочей записи, а m — номер буквы в словарной (см. рис.1). На первом шаге алгоритма каждой такой паре (т. е. узлу сетки) ставится в соответствие тройка расстояний, определяемых с помощью таблицы фонетической бли­зости: {an+1, bm}; {an, bm+1} ; {an+1, bm+1} . Каждое расстояние можно рассматривать как стоимость пути из данного узла {an, bm} в один из cледующих трех узлов соответственно: {an+1, bm} ; {an, bm+1}; {an+1, bm+1}.

На втором шаге определяется такой непрерывный путь из уз­ла {a0, b0} в узел {ak, b1}, где k и l — конечные номера букв в рабочей и орфографической записи, суммарная стоимость которого является минимальной. Эта стоимость и служит коэффициентом по­добия данной пары записей.

Рассмотрим пример формального действия алгоритма в случае сопоставления входной графической записи “исчо” со словарной орфографической записью слова “ещё”.

Суммарный коэффициент подобия для рассмотренных записей равен 9 баллам. Используя нашу таблицу фонетической близости, можно определить, что, например, для пар записей “исчо” и “исчез” суммарный коэффициент подобия равен 20 баллам.


a 


ё  a3


















щ  a2


















е  a1


































0   b1    b2    b3   b4 b

  и    с    ч   о

Рис. 1. Сравнение записей “исчо” и “ещё” с помощью сетки подобия.

В общем случае необходимо отметить, что коэффициент подо­бия отражает кардинальное для орфографических ошибок разграни­чение между графически правильной записью искомого слова и другими словами в словаре. Это означает, что для любого графи­ческого слова с орфографической ошибкой в качестве ближайшего словарного эквивалента алгоритм определяет его орфографическую запись.

С содержательной точки зрения преимущества предложенного метода сравнения заключаются в следующем: он позволяет сравни­вать графические записи разной длины, находя в них совпадающие участки, независимо от места их локализации. Это существенно, т. к. одной из важных особенностей правил чтения в русском язы­ке является возможность преобразования двухбуквенных сочетаний в один звук (“сч” — [щ] и т. п.) и, наоборот, одной буквы — в последовательность из нескольких звуков (“я” — [йа] и т. п.). Степень фонетической мотивированности соответствующих буквен­ных замен учтена при составлении таблицы фонетической близости.

Перейдем к вопросу об оптимизации работы предложенного алгоритма. Здесь возникают три проблемы: а) оптимальный поиск наиболее дешевого пути по сетке подобия; б) выбор рабочей об­ласти словаря для сопоставления с входным графическим словом и в) определение наиболее вероятного словарного соответствия для входного графического слова в случае, когда сопоставление с помощью сетки подобия выявляет несколько возможных слов-кан­дидатов.

Из примера, приведенного на рис.1, видно, что, как правило, нет необходимости просчитывать стоимость всех возможных путей в сетке подобия. Работа алгоритма всегда начинается с узла {a0, b0}. Для него определяются все три расстояния и выбирается минимальное. В случае, если оно находится, корректор переходит в соответствуюший ему узел и продолжает работу только для не­го. Таким образом, на каждом шаге определяется текущий минимум по расстояниям, сумма которых и определяет наиболее дешевый путь. В случае, если для некоторого узла {an, bm} нет строго минимального пути, то система переходит соответственно в два или три следующих узла и продолжает работу в каждом из них. На этом шаге оцениваются уже шесть или девять возможных путей и среди них выбирается минимальный. Если такой путь находится, то для предшествующего узла выбирается путь, ведущий к этому минимуму. Если же и на втором шаге строго минимальный путь не обнаруживается, то поиск следует прекратить, так как это озна­чает, что в паре сравниваемых записей на участке, соответству­ющем всем рассмотренным узлам, нет букв, связанных отношением фонетической близости. Это, в свою очередь, свидетельствует о том, что сравниваемые графические слова являются записями раз­ных слов.

Решение проблемы оптимального выбора слов-кандидатов для сопоставления с входной графической записью также позволяет избежать лишних вычислений, так как в этом случае априори бу­дут исключены из рассмотрения слова с сильно отличающимся бук­венным составом. Прежде всего в этой связи кажется разумным выделение рабочей области словаря, содержащей словарные записи с началами, близкими к входному графическому слову. Например, можно ограничиться выделением подсловаря, содержащего слова с близкими (по таблице фонетической близости) трехбуквенными на­чалами. Если вернуться к нашему примеру (исчо — ещё), то ре­ально в словаре, содержащем 106 000 слов [2], обнаруживается всего 8 фонетически близких трехбуквенных начал из 148 теоре­тически возможных. Каждое гнездо, определяемое одним трехбук­венным началом, содержит от одного до трёх слов, что позволяет ограничить рабочую область словаря примерно 20-ю словами-кан­дидатами.

Для окончательного сокращения набора слов-кандидатов используются два дополнительных механизма, опирающихся на сле­дующие типы фонетических знаний. Это, во-первых, знания о па­радигматической и синтагматической близости букв, которые вво­дятся в таблицу фонетической близости в виде специальных ко­дов, указывающих возможное направление для движения по сетке подобия и соответствующую этому направлению стоимость пути. И, во-вторых, знания о сильных фонетических позициях, в которых сокращена возможность фонетически мотивированных буквенных за­мен. Для гласных букв — это, прежде всего, позиция под ударе­нием. Очевидно, что если словарная орфографическая запись снабжена меткой ударения, то работа алгоритма сравнения может быть существенным образом упрощена и оптимизирована, так как цена несовпадения входной буквы с ударным гласным должна быть значительно увеличена относительно табличной. Для согласных сильная позиция — это, в большинстве случаев, позиция перед гласным, где цена за несовпадение также должна быть увеличена.

На основе таких макроконтекстных знаний формируется меха­низм оправдания выделенных с помощью сетки подобия слов-канди­датов. Этот механизм отфильтровывает практически все сло­ва-кандидаты, которые не являются графически правильной зап­мисью обрабатываемого входного слова, причем в подавляющем числе случаев остается единственная и нужная словарная орфог­рафическая запись.

В заключение отметим, что система синтеза русской речи, описанная в разделе I, реализована в виде действующего прог­раммного макета, а автоматический корректор — в виде готового коммерческого продукта.

Мы приносим благодарность всем коллегам, которые вместе с нами принимали участие в этой работе: Л. М. Захарову, И. Г. Фроло­вой, А. Ю. Фролову — сотрудникам филологического факультета МГУ, а также сотрудникам отдела Рос НИИ ИТ и АП под руководством Э. В. Попова — А. Ф. Киселеву, М. Дагаеву и А. Радусу.

Литература


1. А. А. Зализняк. О понятии графемы.

2. Орфографический словарь русского языка. М., “Русский язык”, 1978.

Схожі:

Прикладные системы с использованием фонетических знаний iconВ. А. Лелюк информационные системы с базами знаний учебно-методическое пособие
Информационные системы с базами знаний: Учебно-методическое пособие. Харьков: хнагх, 2005. – 60 с ил
Прикладные системы с использованием фонетических знаний icon«Автоматизированный электропривод» и вопросы для контроля знаний для студентов 4 курса дневной и заочной форм обучения по специальности 090603 – «Электротехнические системы электроснабжения»
«Электротехнические системы электроснабжения». Сост. Гаряжа В. Н., Фатеев В. Н. – Харьков: хнагх, 2007. – 60 стр
Прикладные системы с использованием фонетических знаний iconSfab@bk
Предлагается следующая структура экспертной системы итоговой оценки знаний (см рис. 1)
Прикладные системы с использованием фонетических знаний iconИнформационное письмо академия знаний (г. Краснодар)
Уважаемые коллеги, руководство Академии знаний радо предложить Вам опубликовать материалы своих научных исследований во Всероссийском...
Прикладные системы с использованием фонетических знаний iconИнформационное письмо академия знаний (г. Краснодар)
Уважаемые коллеги, руководство Академии знаний радо предложить Вам опубликовать материалы своих научных исследований во Всероссийском...
Прикладные системы с использованием фонетических знаний iconЗаявка на участие в XV международной научно–практической конференции «фундаментальные и прикладные проблемы приборостроения и информационных технологий»
«фундаментальные и прикладные проблемы приборостроения и информационных технологий»
Прикладные системы с использованием фонетических знаний iconФедоров М. А. Преимущества и недостатки программирования с использованием технологии net Розов Е. Ю. Система компьютерной обработки англоязычных текстов Гайворонская А. И. Разработка системы «Абитуриент»
Савельев О. О. Классификация основных сетевых протоколов физического уровня модели osi
Прикладные системы с использованием фонетических знаний iconФедоров М. А. Преимущества и недостатки программирования с использованием технологии net 9 Розов Е. Ю. Система компьютерной обработки англоязычных текстов 12 Гайворонская А. И. Разработка системы «Абитуриент»
Савельев О. О. Классификация основных сетевых протоколов физического уровня модели osi 6
Прикладные системы с использованием фонетических знаний iconФедоров М. А. Преимущества и недостатки программирования с использованием технологии net Розов Е. Ю. Система компьютерной обработки англоязычных текстов Гайворонская А. И. Разработка системы «Абитуриент»
Савельев О. О. Классификация основных сетевых протоколов физического уровня модели osi
Прикладные системы с использованием фонетических знаний iconКонспект по предмету: «Системы технологий в менеджменте»
Различные организационные уровни обслуживают четыре главных типа информационных систем: системы с эксплуатационным уровнем, системы...
Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©zavantag.com 2000-2013
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи