bigpo.ru
добавить свой файл
1
Шипило А.В., III курс, фонетика и речевые технологии

Автоматическая стилизация мелодических контуров

На сегодняшний день существуют несколько программ автоматической стилизации мелодических контуров, например, программа Сегаль Н.А. [Сегаль Н.А., 2003]. Однако, такие программы, которые обычно вставляются в качестве модуля в программы обработки звука, как правило, имеют возможность только стилизовать график движения ОТ. При этом подразумевается, что метки периодов ЧОТ, по которым строится мелодическая кривая, установлены правильно. Поэтому, чтобы пользоваться такими программами, необходимо быть уверенным, что метки периодов ЧОТ установлены правильно. Сегодня это возможно только при ручной обработке, что занимает много времени.

Программа, которая представлена в этой работе, призвана исправить этот недостаток. Программа перед построением стилизованного графика исправляет большую1 часть ошибок работы программы автоматической расстановки меток периодов ЧОТ. Эта программа считывает информацию из сег-файла (.seg_G1) и, обработав его, записывает файл со стилизованным графиком кривой либо в файл с расширением Pitch Track, читаемый программой WaveAssistant, либо создает файл с расширением stylized, содержимое которого является объектом программы PRAAT.

Для разработки программы был выбран язык Perl, так как «Perl оптимизирован для задач, при решении которых в 90% случаев работа ведется с текстом, а в 10% - с остальным материалом» [Рэндал Л. Шварц, Том Феникс, 2002, стр.23]. Это особенно удобно для обработки seg-файлов, которые, по сути, являются обычными текстовыми файлами2. Программа написана на языке Perl версии 5.10.


Принципы работы программы автоматической стилизации мелодических контуров

Настоящая программа состоит из двух взаимосвязанных модулей:

  1. Модуля, исправляющего наиболее вероятные ошибки работы программы автоматической расстановки меток ОТ.

  2. Модуля, генерирующего стилизованный мелодический контур.


Опираясь только на анализ сег-файла, скрипт может исправлять следующие типы ошибок автоматической расстановки меток ЧОТ:

  1. ОТ выделен на глухих участках сигнала.



Рисунок 1. ОТ выделен на глухих участках сигнала

  1. Неправильно вычислены значения ОТ в начале и конце озвонченных участков сигнала.

  2. Границы периодов ОТ смещены относительно начала периода.



Рисунок 2. Метки периодов ЧОТ смещены относительно начала периода (до автоматической проверки меток периодов ЧОТ)




Рисунок 3. Метки периодов ЧОТ смещены относительно начала периода (после автоматической проверки меток периодов ЧОТ)

  1. Программа автоматической расстановки периодов ОТ иногда воспринимает период за субгармонику предыдущего периода.



Рисунок 4. Программа автоматической разметки периодов ЧОТ восприняла период за субгармонику предыдущего(до автоматической проверки меток периодов ЧОТ)




Рисунок 5. Программа автоматической разметки периодов ЧОТ восприняла период за субгармонику предыдущего(после автоматической проверки меток периодов ЧОТ)


Стилизация мелодического контура


Найдя и устранив ошибки работы программы автоматической расстановки меток ОТ на анализируемом озвонченном участке, можно переходить к его стилизации.

Сначала программа обновляет значения времени и герц каждого периода ЧОТ3. Затем скрипт сглаживает все значения герц с помощью метода динамического среднего [Л.А. Славутский, 2006].

Для того, чтобы сгладить мелодическую кривую ОТ методом динамического среднего, выбирается число (размер окна или иначе количество элементов от которого будет считаться среднее). Затем создается цикл, который выполняется с элемента, порядковый номер которого равен округленному результату от деления значения выбранного окна на два. К примеру, пусть выбрано окно равное 7. Тогда номером, с которого начнется цикл, станет число 3 (т.е. первым будет обработан четвертый элемент массив, так как в Perl, как и во многих других языках программирования за исключением языка Matlab, нумерация элементов массива начинается с нуля). Значение четвертого элемента массива заменяется на среднее арифметическое элементов, порядковые номера которых начинаются с номера 0 и заканчивающихся номером 6 (всего 7 элементов). Описанная выше процедуры повторяется с каждым из последующих элементов массива, в котором находятся значения герц каждого периода ОТ, вплоть до элемента, порядковый номер которого равен количеству элементов в анализируемом массиве минус округленная разность от деления величины окна на два. Последующие элементы заменяются последним посчитанным средним арифметическим.

На графике представлены оригинальная кривая и кривая, сглаженная методом динамического среднего с окном в 7 меток:




Рисунок 6 Сглаживание методом динамического среднего

Сгладив кривую, программа конвертирует значения в герцах в полутоны (S). Для этого используется следующая формула:

S = 12*log(F0/f1)/log(2) , где

F0 - значение в герцах ЧОТ; f1 – значение в герцах первого периода (в программе используется значение 50) [C. Odé, 1989, p.16].

Затем на полученной кривой ищутся точки перегиба графика, которые затем вместе со значениями герц записываются в массив. На основании данных из сгенерированного массива, информация о стилизованном графике записывается в файл с расширением PitchTrack и файл с расширением stylized4. Моя программа может записать полученную информацию либо в файл .PitchTrack (читаемый программой WaveAssistant), либо записать информацию в файл, читаемый программой PRAAT.


Проверка качества автоматически стилизованной мелодической кривой.


Для проверки качества сгенерированных стилизованных графиков был проведен аудиторский эксперимент.


Материал и методика аудиторского эксперимента

В качестве материала для проведения аудиторского эксперимента были взяты 22 записи. Четыре из 22 – это материалы, записанные в будке звукозаписи кафедры фонетики, для моей прошлогодней курсовой работы Диктором выступила девушка 19 лет. Это следующие фразы:

  1. Лина мыла ванну.

  2. Лена ныла, ныла.

  3. Теперь у всех веселье.

  4. Нам вам объяснить?

Остальные 18 были взяты из записи рассказа «Обмен», произведенного в этом году на кафедре фонетики и методики преподавания иностранных языков в рамках реализации проекта по созданию программы синтеза русской речи с высоким качеством звучания. Взятые записи были выполнены двумя профессиональными дикторами – мужчиной и женщиной. Ниже представлен список этих записей.

  1. О будущем Наташки…

  2. Как у тебя язык поворачивается?

  3. Какая-то недоразвитость чувств.

  4. Как же можно?!

  5. И на твоем бы месте...

  6. Говори тише!

  7. На твоем месте я никогда первый…

  8. Тихо.

  9. Она махнула рукой.

  10. Оба прислушались.

  11. Да как ты можешь?

Некоторые из реализаций этих фраз были взяты как в мужском, так и в женском произнесениях. Затем в каждой записи были автоматически расставлены метки периодов ЧОТ, после того с помощью программы автоматической стилизации мелодических контуров были сгенерировано стилизованное представление графика мелодической кривой в формате программы PRAAT.

Затем в программе PRAAT с помощью модификации PSOLA были получены записи со стилизованной кривой ОТ.

Далее был проведен аудиторский эксперимент. 44 аудиторам в возрасте от 18 до 60 лет были представлены 22 пары записей. Они нумеровались по принципу: номер записи и после запятой ее тип (если после запятой стояла цифра 1, то это означало, что это оригинальный сигнал, если стояла цифра 2, то - модифицированный). Аудиторы всегда слушали сначала оригинальную запись, потом модифицированную, однако они не знали ни цели эксперимента, ни того, что является оригиналом, а что – модифицированным сигналом. Задачей аудиторов было сравнить на слух пары записей и определить: изменилась ли в них интонация или нет. В инструкции к эксперименты было указано, что, возможно, интонация всех записях как могла быть изменена, так и не изменена. Если аудиторы считали, что интонация в двух сигналах не отличается, то они в анкету ставили 0, если отличаются, то им по пятибалльной шкале предлагалось указать степень отличия. При этом, им были даны указания: ставить 1, если интонация на их взгляд отличалась очень несущественно; ставить 5, если менялся коммуникативный тип высказывания. В результате эксперимента получились следующие результаты.


Результаты аудиторского эксперимента


Ниже представлена диаграмма, иллюстрирующая результаты, полученные в результате аудиторского эксперимента.




Диаграмма 1. Результаты аудиторского эксперимента.


Как видно в каждой из диаграммы, в каждой из записей большинство аудиторов либо не слышали разницу в звучании, либо слышали несущественную разницу. Больше, чем в остальных разница была слышна в записях номер 7, 8, 16 и 18.

Рассмотрим график модификации номер 7.



Рисунок 7. Стилизованный контур номер 7


Как видно из картинки, программа стилизации потеряла часть графика. По этой причине 28 аудиторов из 44 (63%) услышали в большей или меньшей степени разницу между оригиналом и модифицированным сигналом.

В записи номер 8 программа стилизации тоже потеряла часть мелодического контура. Однако в этот раз чуть больше половины (54% аудиторов (24)) услышали разницу в звучании.



Рисунок 8. Стилизованный контур записи номер 8.


В остальных двух сигналах, где аудиторы большинством аудиторов была услышана разница тоже произошла потеря части мелодической кривой.


К сожалению, на сегодняшний день я не могу ответить на вопрос о причине искажения мелодической кривой. Скорее всего, причина потери части мелодической кривой связана с недостаточным, на сегодняшний день, качеством собственно алгоритма стилизации. Очевидно, что для дальнейших исследований его необходимо совершенствовать.


Чтобы иметь точную картину результатов аудиторского эксперимента рассмотрим полученные результаты в виде оценок качества голоса по пятибалльной шкале.


Таблица 1. Оценки качества модифицированных записей по пятибалльной шкале

1

4,704545

2

4,318182

3

4,613636

4

4,454545

5

4,272727

6

4,772727

7

3,863636

8

3,840909

9

4,545455

10

4,295455

11

4,659091

12

4,227273

13

4,113636

14

4,181818

15

4,727273

16

3,727273

17

4,227273

18

3,659091

19

4,363636

20

4,363636

21

4,454545

22

4,681818

Среднее

4,321281



Из таблицы видно, что только 4 записи из 22 были оценены аудиторами минимум на 3.65 балла (удовлетворительно). Остальные 18 были оценены на минимум на 4.1 балла (хорошо). И 4 записи были оценены минимум на 4.68 балла (отлично).


Выводы

В результате проделанной работы была разработана программа автоматической стилизации мелодических контуров, способная исправлять ошибки работы программы автоматической расстановки меток периодов ОТ, для последующей стилизации мелодической кривой.

Программа способна исправлять следующие виды ошибок неправильного выделения ЧОТ:

  1. ОТ выделен на глухих участках сигнала.

  2. Неправильно вычислены значения ОТ в начале и конце озвонченных участков сигнала.

  3. Границы периодов ОТ смещены относительно начала периода.

  4. Программа автоматической расстановки периодов ОТ иногда воспринимает период за субгармонику предыдущего периода.

Скрипт работает с файлами seg_G1, но не анализирует сам звуковой сигнал. Вследствие этого возможно достаточно достоверно исправлять только первые два типа ошибок. Что касается четвертого типа ошибок, то программа не всегда способна опознать этот тип ошибки и, следовательно, правильно исправить его5.

По графику периодов ЧОТ, в котором программа исправила ошибки, генерируется его стилизованное представление. Стилизованная кривая строится на основании соединения точек, находящихся в точках перегиба графика.

К сожалению, по результатам аудиторского эксперимента было выявлено, что на сегодняшний день программа генерирует стилизованную кривую не всегда идеально: в редких случаях возможна потеря небольшой части мелодического контура.

В будущем планируется сделать следующее:

  1. Улучшить алгоритм стилизации мелодической кривой настолько, чтобы сгенерированная кривая всегда точно описывала движение ОТ минимальным количеством значений.

  2. Разработать символьную систему описания движения мелодической кривой.

Литература

  1. Сегаль Н.А., Автоматическая стилизация мелодических контуров / СПБГУ, 2003;

  2. Славутский Л.А., Основы регистрации данных и планирование эксперимента, гл.3.3, Сглаживание экспериментальных временных рядов / http://www.chuvsu.ru/~rte/uits/liter_uits/plan_exp/glav3_3.htm, Изд-во ЧГУ, Чебоксары, 2006;

  3. Рэндал Л. Шварц, Том Феникс, 2002, Изучаем Perl / BHV - Санкт - Петербург, 2002;

  4. C. Odé, Russian Intonation: A Perceptual Description / Amsterdam-Atlanta, 1989.




1 Так как программа анализирует только сег-файл G1 (файл с информацией о границах периодов ОТ), то она неспособна исправить некоторые типы ошибок, которые будут рассмотрены в главе, описывающий алгоритм программы.

2 В случае, если сег-файлы созданы в текстовом виде.

3 Когда программа исправляла неправильные значения меток ЧОТ, то старые значения герц удалялись, а новые не добавлялись.

4 PitchTrack – файл с информацией о стилизованной кривой, читаемый программой WaveAssistant. Программа PRAAT не требует, чтобы у файла, хранящего сглаженный мелодический контур, было какое-нибудь особенное расширение, было решено для различения файлов от других, добавлять к каждому расширение stylized.

5 Если тип ошибки будет распознан неверно, то сглаживание графика мелодической кривой произойдет, но ошибка не будет исправлена полностью, так как в этом случае вероятнее всего сгладится только начало и конец ошибки, но провал в графике мелодической кривой останется (см. алогритм).