Перейти к основному содержанию

Вокодер и формантный синтез

Станислав Крейчи. Cинтез речи, или история говорящих машин (журнал "Компьютерра" №15, 1999 г.)

Vocoder (Voice Operated reCorDER) и Voder (Voice Operation DEmonstratoR) - приборы, разработанные американским физиком Гомером Дадли (Homer Dudley) в результате исследований в области передачи голоса по телефону в Bell Laboratories. Это была первая попытка анализа и ресинтеза человеческого голоса.

Устройство состояло из анализатора и синтезатора. Анализатор определял уровни частотных компонентов спектра в последовательных выборках звука, результат мог быть представлен графически как изменение частотного спектра во времени.
Синтезатор осуществлял обратный процесс, применяя полученные данные к сигналу от генератора шума и получая таким образом разборчивую речь.

Соответствие синтезированной речи оригиналу было довольно низким, но вполне достаточным для использования в телефонной сети. Однако, немецкий физик Werner Meyer-Eppler оценил актуальность прибора для электронной музыки (Дадли посетил Боннский университет в 1948 г.), и использовал идею Вокодера в своих исследованиях, ставших основой движения “Electronische Musik”.

The Voder was first unveiled in 1939 at the New York World Fair (where it was demonstrated at hourly intervals) and later in 1940 in San Francisco. There were twenty trained operators known as the ‘girls’ who handled the machine much like a musical instrument such as a piano or an organ, but they managed to successfully produce human speech during the demonstrations. In the New York Fair demonstration, which was repeated frequently, the announcer gave a simple running discussion of the circuit to which the girl operator replied through the Voder. This was done by manipulating fourteen keys with the fingers, a bar with the left wrist and a foot pedal with the right foot.

“At the 1939 World’s Fair a machine called a Voder was shown . A girl stroked its keys and it emitted recognsable speech. No human vocal cords entered into the procedure at any point; the keys simply combined some electronically produced vibrations and passed these on to a loud-speaker.”
(“As We May Think” by Vannevar Bush, 1945. )

 

Формантный синтез

Формантный синтез (Formant Shaping Synthesis) — синтез, в основе которого лежит воссоздание в спектре звука акустических резонансов, формирующихся из групп обертонов и называемых формантами (подробнее обертонах здесь).

Изначально формантный синтез ассоциировался с синтезом речи. Речевой аппарат человека устроен таким образом, что нос и глотка являются, по сути, природными фильтрами. В процессе формирования звука эти фильтры чисто механически принимают определенные формы, исходя из которых в звуковом потоке образуются группы акустических резонансов, «сгустки» обертонов. В зависимости от частот, на которых появляются резонансы, и от структуры взаимодействия частот и амплитуд резонансов в спектре, наше ухо различает те или иные фонемы, то есть звуковое выражение букв. На картинке изображены формы резонаторов для воссоздания звуков разных гласных букв. Таким образом, имея возможность проанализировать спектры всевозможных фонем, мы получаем возможность воспроизвести их искусственным образом, т.е. синтезировать.

Форманты

Польза этого метода была очевидна для передачи сигналов, несущих речевую информацию, на большие расстояния посредством кодирования их в пункте передачи и раскодирования по обратному алгоритму в пункте приема. На этом построен принцип работы вокодера, который при анализе речи разбивает спектр на полосы, выявляет в них резонансы, а затем преобразует обратно в звуковой сигнал. Конечно, полного сходства с источником сигнала получить невозможно, но добиться доступности для понимания передаваемой информации вполне реально.

Каждая фонема содержит в себе несколько формант. Чем больше формант воссоздает вокодер, тем яснее и доступнее передаваемая информация. Гласные звуки становятся разборчивыми при воссоздании уже первых трех групп резонансов. А при воспроизведении четырех уже можно говорить о довольно точной передаче речи. Пока человек произносит одно слово, резонансы его голоса постоянно перемещаются по всему частотному спектру в зависимости от фонемного состава этого слова.

Важной особенностью формант является неизменность их частот для каждой конкретной фонемы вне зависимости от высоты извлекаемой ноты. Например, форманты гласной «о» появляются на частотах 275, 850, 2400 герц, форманты «а» — на частотах 575, 900, 2450 герц, и так далее.

Зная это, совершенно очевидным становится факт, что для формирования фонем совершенно необязательно иметь источник речи в виде человека. Можно просто создать резонансы на нужных частотах для придания звуку соответствующей фонемной окраски. Функция выделения резонансов возлагается на специальные формантные фильтры, работающие по тому же принципу, что и человеческая носоглотка, однако уже не механическим способом, а электронным.

Ярким примером устройства, работающего на основе воспроизведения в спектре акустических резонансов, является Yamaha FS1R, объединившая в себе два вида синтеза — формантный и частотную модуляцию. Другим примером можно назвать синтезатор Kawai K5000 в различных его модификациях, который, генерируя сигнал аддитивным методом, оснащен формантными фильтрами для создания звуков по описанному выше принципу. Звуки, получаемые на этих инструментах, могут быть близки своей окраской к человеческому голосу или хору голосов. (источник)