Перейти к основному содержанию

Станислав Крейчи. Cинтез речи, или история говорящих машин (журнал "Компьютерра" №15, 1999 г.)

Когда мне впервые (около 30 лет тому назад) предложили синтезировать речь и сказали, что метод, которым мне предстояло заняться, называется "синтез речи по правилам", мне стало как-то не по себе: я живо представил себе речь человека, который никогда не существовал. Еще я вспомнил античных жрецов, наводивших божественный ужас на свою паству вовсе не "по правилам", а с помощью "говорящих" статуй. Обман вершился чисто архитектурным методом: внутри статуи делался канал для звука, через который вещал скрытый в прилегающем помещении или в самой статуе жрец.

Но у моих заказчиков правила игры были другие. Они вручили мне довольно объемную таблицу цифр, содержащую частоты, амплитуды и длительности отдельных спектральных составляющих речи - спектрально-временную модель фразы "мама мыла Маню". К тому времени у меня уже был 10-летний опыт работы с синтезатором звуков под названием АНС, а потому уже спустя несколько дней мои заказчики с восторгом внимали "голосу" большого черного агрегата, похожего на пианино. Происходило это в московской Студии электронной музыки на первом этаже музея Скрябина (кстати, название АНС происходило от инициалов композитора Скрябина, которому посвятил свое изобретение автор, Е. А. Мурзин). Надо сказать, что первые модели говорящих устройств тех времен были очень похожи на музыкальные инструменты, да и обучение операторов тоже напоминало обучение музыкантов и требовало времени и способностей.

Если моделирование речевой функции началось сравнительно недавно, то сам речевой тракт как источник и физическая "причина" речи заинтересовал ученых гораздо раньше (артикуляторный синтез). Еще в конце XVIII века сотрудник Петербургского университета Кратценштейн построил систему акустических резонаторов, издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком. А другой изобретатель того же времени, Вольфганг фон Кемпелен, разработал более сложную модель генерации связной речи (см. рис. 1). В ней в роли резонаторов речевого тракта выступала гибкая трубка из кожи, управляемая оператором. Имелись также отверстия для имитации носовых полостей и ручки управления свистками, создававшими фрикативные звуки. Оператор одной рукой приводил в движение меха, управлял "носовыми" отверстиями и плунжером язычка, имитируя работу легких и артикуляционных органов, а другой манипулировал кожаной трубкой, меняя "голосовой" тракт.

1
Рис. 1. Модель механизма речеобразования Кемпелена:
1 - кожаный резонатор,
2 - выход звуков речи,
3 - ноздри,
4 - свисток "sh",
5 - рычаг "sh",
6 - отключение язычка,
7 - рычаг "s",
8 - меха,
9 - свисток "s",
10 - язычок,
11 - вспомогательные меха.

А история АНСа, с которого начался мой рассказ, зарождалась приблизительно году в 38-м и была тесно связана с появлением звукового кино. Дар речи "великий немой" получил в начале 30-х, когда придумали фотооптический способ звукозаписи. Сбоку от кадров по всей длине киноленты протянулась оптическая звуковая дорожка, на которой оптическим же способом была записана речевая волна. Предшественник Мурзина в деле звукосинтеза Е. А. Шолпо решил, что звуковую дорожку можно создать искусственно. Он рисовал в крупном масштабе рассчитанные им звуковые волны, фотографировал их кадр за кадром и проигрывал готовую пленку через кинопроектор. Хотя работа была очень трудоемкой и малопроизводительной, Шолпо озвучил этим способом несколько мультфильмов (с помощью построенного им прибора - вариафона). Хорошо знавший работы Шолпо Мурзин, как говорится, пошел другим путем. Он выбрал метод синтеза речи с помощью ряда Фурье - в виде суммы элементарных спектральных составляющих, в музыкальной акустике получивших название "чистые тона". Банк "чистых тонов" Мурзин сконструировал в виде стеклянного диска, очень похожего на современный компакт-диск. Он был покрыт фотоэмульсией, и с помощью специального станка на него концентрическими кольцами были записаны 144 фотооптические звуковые дорожки "чистых тонов".Как происходил синтез звука показано на рис. 2.

2
Рис. 2. Функционально-оптическая схема синтезатора АНС.

Свет от источника (1) пропускался через вращающийся диск фотооптического генератора (2) и модулировался по интенсивности звуковыми дорожками. Между диском и читающим фотоэлементом (4) устанавливалась маска (3) с отверстиями для отбора лучей только от нужных дорожек. После фотоэлемента следовал обычный для кинопроектора тракт звукоусиления (5). Методы звукосинтеза Шолпо и Мурзина были попыткой моделировать либо формуколебаний самих звуков речи, либо их спектрально-временной картины.

Другая интересная (механическая) модель речевого тракта - говорящее устройство Риша (1937 год), в котором были воспроизведены артикуляторные органы человека: губы, зубы, твердое небо, мягкое небо, язык и глотка.

3
Рис. 3. Говорящее устройство Риша.

Для управления конфигурацией голосового тракта (рис. 3) применялись похожие на трубы духового оркестра клавиши 1-8. Клавиши 4 и 5 управляли клапанами возбуждения К4 (для извлечения глухих звуков) и К5 (для озвученного возбуждения с помощь язычковой камеры). Опытный оператор мог извлекать вполне разборчивую речь.

Первой электрической и одновременно последней аналоговой моделью речевого тракта стал прибор водер (на рис. 4 подробно описано его устройство), разработанный Дадли, Ришем и Уоткинсом.

4
Рис. 4. Структурная схема водера.

Происхождение его названия точно не установлено, возможно, что это просто аббревиатура трех фамилий авторов - Watkins, Dudley, Riesz. Прибор с успехом демонстрировался на выставках в Сан-Франциско и Нью-Йорке. (Надо сказать, что во все времена модели, сконструированные для изучения тех или иных явлений, часто представляли еще и аттракцион для публики. Не избежал этого и синтезатор АНС, демонстрировавшийся на Советской выставке в Италии в 1964 году. Но кроме шоу-приложений находились и более серьезные. Так, например, АНС сыграл большую роль в развитии электронной музыки.)

Водер управлялся от ручной клавиатуры и синтезировал сигналы с заданным спектром. Десять параллельно соединенных полосовых фильтров составляли блок управления резонансами. Переключение источника возбуждения - шумового или импульсного генератора - осуществлялось браслетом на запястье оператора, а управление частотой импульсов - ножной педалью. На выходе фильтров стояли потенциометры, управлявшиеся десятью пальцами и изменявшие напряжение сигнала каждого фильтра. Для имитации взрывных согласных использовались еще три дополнительные клавиши. Обучение операторов "игре" на водере требовало значительного времени, но зато в итоге получалась связная речь с хорошей разборчивостью.

С развитием электротехники и телефонной связи интерес к синтезу речи возрос. Стало окончательно ясно, что для синтеза звуков речи не обязательно копировать голосовой механизм человека, моделируя звукоизвлечение. Задачей стало получение электрического сигнала, аналогичного речевому по форме и воспринимаемого человеком как речь. Этот подход (а также идея, положенная в основу водера) получил развитие в системах синтетической телефонии после изобретения Дадли полосного вокодера, открывшего целую эпоху не только в синтезе речи, но и в технике связи, так как он впервые имел в своем составе помимо синтезатора еще и анализатор речи - блок полосовых фильтров, измерявших роль соответствующих спектральных компонентов. Это привело к новому способу кодирования (см. статью этого номера "Сжатие речи"), значительно сужавшему частотную полосу тракта передачи, и, кроме того, повысило скрытность переговоров - порядок передаваемых сигналов менялся по случайному закону на передающем конце и восстанавливался по тому же закону в приемнике.

Разборчивость вокодерной речи оказалось довольно высокой, но звучала эта речь неестественно и воспринималась как машиноподобная - типичный голос робота. Если сначала для военных, ставших основными потребителями технологии, это не имело особого значения, то позднее качество звучания их устраивать перестало. Конечно, когда во время военных действий по каналу связи передаются только команды, о качестве речи не думают. Но военные обеспечивают и правительственную связь, и тут уж подавай качество по высшему разряду. Поэтому модернизация вокодеров шла как по пути повышения естественности речи, так и по пути сокращения количества передаваемых сигналов. Появились корреляционные (по линии связи передается функция корреляции, получаемая быстрым измерением мгновенного спектра речи в дискретных точках, а в синтезаторе на приемном конце по ней восстанавливается мгновенный спектр речи) и формантные вокодеры (информация передается не обо всем мгновенном спектре, а только о резонансных максимумах и минимумах - частотах полюсов и нулей передаточной функции речевого тракта, а также частота ОТ и решение тон-шум). Подобные системы давали разборчивость речи почти 100% для гласных звуков и около 70% для согласных при частотной полосе передачи примерно 300 Гц.

С появлением компьютеров вокодерные синтезаторы стали подключать к выходу ЭВМ, так как управляющие сигналы можно было теперь вычислять математически, а с развитием микропроцессорной техники синтезаторы становятся миниатюрными, и их начинают выпускать в виде небольших периферийных устройств, плат или чипов. Сегодня на рынке имеются чипы ПЗУ, содержащие целые словари готовых слов естественной речи, которые широко применяются в информационных системах и автоматических переводчиках. А с появлением массовых персональных компьютеров синтез речи перешел преимущественно в область программных решений, хотя еще встречаются смешанные продукты для профессионалов.

Но человек, создавший компьютер, хочет общаться с ним на своем же человеческом языке и желательно в устной форме, что тесно связано с проблемами слухового восприятия и не ограничиваться при этом ранее записанными фразами. Более сложная и интересная задача - "настоящий" синтез речи, позволяющий озвучивать тексты (преобразование text-to-speech), обычно происходит так: из текста выделяются отдельные словоформы, и между ними расставляются паузы в соответствие с правилами языка, знаками препинания и пользовательскими предпочтениями. Озвучивание может осуществляться с помощью дробления словоформ на фонемы для получения фонемной транскрипции, а в некоторых системах сначала проводится преобразование слов к типовым их составляющим - морфам (корни, приставки, суффиксы, окончания). К такого рода алгоритмам, например, относится компилятивный метод. Суть его в том, что в библиотеке хранятся отдельные звуки. Здесь можно провести некоторую аналогию с компьютерным синтезом музыки на основе сэмплов. Но с музыкой легче: одним сэмплом можно сыграть целую мелодию, а в речи еще приходится "сшивать" самые разнородные звуки. При этом грубые "швы" настолько раздражают слух, что речь становится неразборчивой, хотя и составлена из естественных звуков. Все дело в том, что артикуляторные органы работают плавно и форма колебаний одного звука переходит в форму следующего очень постепенно через несколько промежуточных фаз, четкую границу между которыми провести совершенно невозможно (это хорошо видно на осциллограмме, приведенной на рис. 5).

5
Рис. 5. Осциллограмма слова "ау":
1 - гласная "а",
2 - переходный участок,
3 - гласная "у".

Видно, что однозначную границу между звуками "а" и "у" провести невозможно.

Более того, эти переходные участки играют исключительно важную роль в восприятии речи человеком, да и макроструктура речи весьма многопланова. Важной ее частью является просодия - ритмоинтонационные характеристики речи на уровне целых слов или высказываний. Нарушение произносительных норм приводит иногда к полному непониманию смысла высказывания. Вопросы эти очень важны и играют ключевую роль в построении синтезаторов, ведь для слушателя важно не то, как синтезировано, а что слышит его ухо.

Поэтому сэмплирование звуков речи представляет собой довольно тонкую задачу. А если учесть, что значительная часть смысла высказывания передается через просодию, то круг проблем расширяется еще больше.