Дипломная работа на тему "Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов"

ГлавнаяКоммуникации и связь → Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов




Не нашли то, что вам нужно?
Посмотрите вашу тему в базе готовых дипломных и курсовых работ:

(Результаты откроются в новом окне)

Текст дипломной работы "Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов":


РЕФЕРАТ

Метою дослідження є розробка програмного забезпечення для голосового керування тривимірними моделями функціонування промислових роботів.

Основними задачами є аналіз методів цифрової обробки звукових сигналів, аналіз систем розпізнання мовлення, розробка програмного забезпечення для розпізнання команд керування промисловим роботом.

Розглядаються питання обробки звукової інформації, її аналізу та фільтрації. Проаналізовані методи реалізації систем розпізнання мовлення.

Реалізовано програмне забезпечення для запису, відтворення й аналізу звукової інформації. Програмне забезпечення розроблене в середовищі розробки програмного забезпече ння Visual C++ 6.0 з використанням мультимедійної бібліотеки mmsystem, а також графічної бібліотеки OpenGL.

СПЕКТРАЛЬНИЙ АНАЛІЗ, ДИСКРЕТНЕ ПЕРЕТВОРЕННЯ ФУР'Є, MMSYSTEM, ГРАФІЧНА БІБЛІОТЕКА, OPENGL, СЕРЕДОВИЩЕ ПРОГРАМУВАННЯ, VISUAL C++.


РЕФЕРАТ

Целью исследования является разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов.

Основными задачами является анализ методов цифровой обработки звуковых сигналов, анализ систем распознавания речи, разработка программного обеспечения для распознавания команд управления промышленным роботом.

Рассматриваются вопросы обработки звуковой информации, её анализа и фильтрации. Проанализированы методы реализации систем распознавания речи.

Реализовано программное обеспечение для записи, воспроизведения и анализа звуковой информации. Программное обеспечение разработано в среде разработки программного обеспечения Visual С++ 6.0 с использованием мультимедийной библиотеки mmsystem, а также графической библиотеки OpenGL.

СПЕКТРАЛЬНЫЙ АНАЛИЗ, ДИСКРЕТНОЕ ПРЕОБРАЗОВАНИЕ ФУРЬЕ, MMSYSTEM, ГРАФИЧЕСКАЯ БИБЛИОТЕКА, OPENGL, СРЕДА ПРОГРАММИРОВАНИЯ, VISUAL С++.


THE ABSTRACT

Software development for the voice control by the three-dimensional models of industrial robots functioning is a purpose of research.

Basic tasks are the analysis of the digital sounds signal processing methods, analysis of the speech recognition systems, software development for recognition of control commands by an industrial robot.

The questions of sound information processing, of its analysis and filtration are examined. The methods of implementation of the speech recognition systems are analyzed.

Software for a record, reproducing and analysis of sound information is implemented. Software is developed in the environment of Visual C++ 6.0 with the using of mmsystem multimedia library, and also OPENGL graphic library.

SPECTRAL ANALYSIS, DISCRETE TRANSFORMATION OF FURJE, MMSYSTEM, GRAPHIC LIBRARY, OPENGL, PROGRAMMING ENVIRONMENT, VISUAL C++.


Перечень условных сокращений, обозначений, терминов

ПР - промышленный робот

ЭВМ - электронно вычислительная машина

ДПФ - дискретное преобразование Фурье

БПФ - быстрое преобразование Фур'е

ЛП - линейное предсказание

PCM - Pulse-Code Modulation


Содержание

Введение

1. Цифровая обработка сигналов и её использование в системах распознавания речи

1.1 Дискретные сигналы и методы их преобразования

1.2 Основы цифровой фильтрации

1.3 Особенности акустической фонетики и её* учёт при обработке речевых сигналов

1.4 Обработка речевого сигнала во временной области

2. Реализация систем распознавания речи

2.1 Гомоморфная обработка речи

2.2 Кодирование речи на основе линейного предсказания

2.3 Цифровая обработка речи в системах речевого общения человека с машиной

3. Разработка программного обеспечения для распознавания команд управления промышленным роботом

3.1  Реализация интерфейса записи и воспроизведения звукового сигнала в операционной системе Microsoft Windows

3.2  Реализация программного обеспечения для записи, воспроизведения и анализа звукового сигнала

3.3  Реализация функции распознавания голосовых команд голосового управления промышленным роботом

3.4 Реализация голосового управления трёхмерными моделями промышленного робота

Выводы

Перечень ссылок

Приложение А. Элементы текстов программы


Введение

Распознавание человеческой речи является одной из сложных научно-технических задач. В настоящее время пользователями вычислительных машин и средств, оснащенных вычислительными машинами, становятся люди, не являющиеся специалистами в области программирования. Проблема речевого управления возникла, кроме того, в связи с тем, что в некоторых областях применения речь стала единственно возможным средством общения с техникой (в условиях перегрузок, темноты или резкого изменения освещенности, при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и т.д.). Хотя в этой области и достигнуты существенные успехи, тем не менее, системы распознавания еще весьма далеки по своим возможностям от человеческих.

Проблема реализации речевого диалога человека и технических средств - актуальная задача современной кибернетики.

Задача машинного распознавания речи привлекает внимание специалистов уже очень давно. Тем не менее, продвинуться далеко в этом направлении пока не удалось. Чисто формально процесс распознавания речи можно описать буквально в нескольких фразах. Аналоговый сигнал, генерируемый микрофоном, оцифровывается, и далее в речи выделяются так называемые фонемы, то есть элементарные фрагменты, из которых состоят все произносимые слова. Затем определяется, какое слово, какому сочетанию фонем соответствует, и строится соответствующий словарь. Распознать слово - значит найти его в этом словаре по произнесенному сочетанию фонем. По мере развития компьютерных систем становится все более очевидным, что использование этих систем намного расширится, если станет возможным использование человеческой речи при работе непосредственно с компьютером, и в частности станет возможным управление машиной обычным голосом в реальном времени, а также ввод и вывод информации в виде обычной человеческой речи.

В настоящее время всё более актуальным становится управление роботом при помощи голосовых команд. Однако создание программного обеспечения для голосового управления промышленным роботом предусматривает проведение экспериментов во время разработки программы на всех этапах разработки. Проведение таких экспериментов, обеспечивающих устранение недостатков, ошибок программы, является экономически невыгодным в условиях промышленного производства и приводит к повышению стоимости разработки и отладки программного обеспечения. Для уменьшения затрат на создание программного обеспечения целесообразно разработать программу, которая обеспечит трёхмерное моделирование голосового управления промышленным роботом, что приводит к необходимости проведения экспериментов в условиях производства лишь на последнем этапе разработки программного обеспечения.

Темой данного исследования является голосовое управление трёхмерными моделями функционирования промышленных роботов. Его задачами является анализ методов цифровой обработки звуковых сигналов, анализ систем распознавания речи, разработка программного обеспечения для распознавания команд управления промышленным роботом.


1. Цифровая обработка сигналов и её использование в системах распознавания речи

1.1 Дискретные сигналы и методы их преобразования

Акустическое колебание, формируемое в речевом тракте человека, является непрерывно изменяющимся процессом. С математической точки зрения его можно описать функцией непрерывного времени 1. Аналоговые (непрерывные во времени) сигналы будут обозначаться через ха(1). Речевой сигнал можно представить и последовательностью чисел. Последовательности обозначаются через х(п). Если последовательность чисел представляет собой последовательность мгновенных значений, аналогового сигнала, взятых периодически с интервалом Т, то эта операция дискретизации обозначается через ха(пТ). На рис. 1.1 показан пример речевого сигнала в аналоговой форме и в виде последовательности отсчетов, взятых с частотой дискретизации 8 кГц.

32 мс | | |

Г

____ ^

|
---------------------------------------------------------

.„...„.„ ... .!-«•-■- .............. и-1"............... ".|||||11||||И..|||

|
| |
---------------------------------------------------------
...., 256 отсчё! |

|||| ■

гов

|
\ | ||| г | 1 | ----- ► |
---------------------------------------------------------
| | | | | |
--------------------------------------------------------- --------------------------------------------------

Рис. 1.1 – Представление речевого сигнала

Для удобства даже при рассмотрении дискретных сигналов иногда на графике будет изображается непрерывная функция, которая может рассматриваться как огибающая последовательности отсчетов. При изучении систем цифровой обработки речи требуется несколько специальных последовательностей. Единичный отсчет или последовательность, состоящая из одного единичного импульса, определяется как

Рисунок убран из работы и доступен только в оригинальном файле. (1.1)

Последовательность единичного скачка имеет вид

Рисунок убран из работы и доступен только в оригинальном файле. (1.2)

Экспоненциальная последовательность

Рисунок убран из работы и доступен только в оригинальном файле. (1.3)

Если а - комплексное число, т. е. Рисунок убран из работы и доступен только в оригинальном файле., то

Рисунок убран из работы и доступен только в оригинальном файле. (1.4)

Если z=1 и Рисунок убран из работы и доступен только в оригинальном файле., х(n) - комплексная синусоида; если Рисунок убран из работы и доступен только в оригинальном файле.. х(n) -действительное; если z<1 и Рисунок убран из работы и доступен только в оригинальном файле., то х(n) - экспоненциально-затухающая осциллирующая последовательность. Последовательности этого типа часто используются при представлении линейных систем и моделировании речевых сигналов.

Обработка сигналов включает преобразование их в форму, удобную для дальнейшего использования. Таким образом, предметом интерес представляют дискретные системы или, что то же самое, преобразования входной последовательности в выходную. Подобные преобразования далее изображаются на структурных схемах. Многие системы анализа речевых сигналов разработаны для оценивания переменных во времени параметров по последовательности мгновенных значений речевого колебания. Подобные системы имеют многомерный выход, т. е. одномерная последовательность на входе, представляющая собой речевой сигнал, преобразуется в векторную последовательность на выходе.

При обработке речевых сигналов особенно широкое применение находят системы, инвариантные к временному сдвигу. Такие системы полностью описываются откликом на единичный импульс, Сигнал на выходе системы может быть рассчитан по сигналу на входе и отклику на единичный импульс h(n) с помощью дискретной свертки

Рисунок убран из работы и доступен только в оригинальном файле. (1.5a)

где символ * обозначает свертку. Эквивалентное выражение имеет вид

Рисунок убран из работы и доступен только в оригинальном файле. (1.5б)

Линейные системы, инвариантные к временному сдвигу, применяются при фильтрации сигнала и, что более важно, они полезны как модели речеобразования.

Анализ сигналов и расчет систем значительно облегчаются при их описании в частотной области. В этой связи полезно кратко остановиться на представлении сигналов и систем в дискретном времени с использованием преобразования Фурье и z-преобразования [1].

1.1.1 Прямое и обратное г-преобразование

Прямое и обратное г-преобразование последовательности определяется двумя уравнениями:


Рисунок убран из работы и доступен только в оригинальном файле. (1.6a)

Рисунок убран из работы и доступен только в оригинальном файле.  (1.6б)

Прямое z-преобразование х(n) определяется уравнением (1.6а). В общем случае Х(z) - бесконечный ряд по степеням z-1; последовательность х(n) играет роль коэффициентов ряда. В общем случае подобные степенные ряды сходятся к конечному пределу только для некоторых значений z. Достаточное условие сходимости имеет вид

Рисунок убран из работы и доступен только в оригинальном файле.  (1.7)

Множество значений, для которых ряды сходятся, образует область на комплексной плоскости, известную как область сходимости. В общем случае эта область имеет вид [2]

Рисунок убран из работы и доступен только в оригинальном файле.  (1.8)

1.1.2 Преобразование Фурье

Описание сигнала в дискретном времени с помощью преобразование Фурье задаётся в виде

Рисунок убран из работы и доступен только в оригинальном файле. (1.9a)

Рисунок убран из работы и доступен только в оригинальном файле. (1.9б)

Эти уравнения представляют собой частный случай уравнений (1.6а,б).

Преобразование Фурье получается путём вычисления z -преобразования на единичной окружности, т. е. подстановкой Рисунок убран из работы и доступен только в оригинальном файле. может быть интерпретирована как угол на z - плоскости. Достаточное условие существования преобразования Фурье можно получить, подставляя в (1.7)

Рисунок убран из работы и доступен только в оригинальном файле. (1.10)

Важная особенность преобразования Фурье последовательности состоит в том, что оно является периодической функцией со с периодом 2к. С другой стороны, поскольку Рисунок убран из работы и доступен только в оригинальном файле. представляет собой значение Х(z) на единичной окружности, оно должно повторяться после каждого полного обхода этой окружности, т. е. когда со изменится на Рисунок убран из работы и доступен только в оригинальном файле. рад [1].

1.1.3 Дискретное преобразование Фурье

Как и в случае аналоговых сигналов, если последовательность периодическая с периодом N, т. е.

Рисунок убран из работы и доступен только в оригинальном файле. (1.11)

то х(n) можно представить в виде суммы синусоид, а не в виде интеграла. Преобразование Фурье для периодической последовательности имеет вид

Рисунок убран из работы и доступен только в оригинальном файле. (1.12а)

Рисунок убран из работы и доступен только в оригинальном файле. (1.12б)


Это точное представление периодической последовательности. Однако, основное преимущество данного описания заключается в возможности несколько иной интерпретации уравнений (1.12). Рассмотрим последовательность конечной длины х(n), равную нулю вне интервала Рисунок убран из работы и доступен только в оригинальном файле.B этом случае z-преобразование имеет вид

Рисунок убран из работы и доступен только в оригинальном файле. (1.13)

Если записать X(z) в N равноотстоящих точках единичной окружности, т. е. Рисунок убран из работы и доступен только в оригинальном файле., k= 0, 1,…,N-1, то получим

Рисунок убран из работы и доступен только в оригинальном файле. (1.14)

Если при этом построить периодическую последовательность в виде бесконечного числа повторений сегмента х(n),

Рисунок убран из работы и доступен только в оригинальном файле. (1.15)

то отсчеты (Рисунок убран из работы и доступен только в оригинальном файле.), как это видно из (1.12а) и (1.14), будут представлять собой коэффициенты Фурье периодической последовательности х(n) в (1.15). Таким образом, последовательность длиной N можно точно описать с помощью дискретного преобразования Фурье (ДПФ) в виде

Рисунок убран из работы и доступен только в оригинальном файле. (1.16)


Рисунок убран из работы и доступен только в оригинальном файле. (1.17)

Следует иметь в виду, что все последовательности при использовании ДПФ ведут себя так, как если бы они были периодическими функциями, т. е. ДПФ является на самом деле представлением периодической функции времени, заданной (1.15). Несколько иной подход при использовании ДПФ заключается в том, что индексы последовательности интерпретируются по модулю N. Это следует из того факта, что если х(n) имеет длину N, то

Рисунок убран из работы и доступен только в оригинальном файле.

Введение двойных обозначений позволяет отразить периодичность, присущую представлению с помощью ДПФ. Эта периодичность существенно отражается на свойствах ДПФ. Очевидно, что задержка последовательности должна рассматриваться по модулю N. Это приводит, например, к некоторым особенностям выполнения дискретной свертки.

Дискретное преобразование Фурье со всеми его особенностями является важным способом описания сигналов по следующим причинам: 1) ДПФ можно рассматривать как дискретизированный вариант z -преобразования (или преобразования Фурье) последовательности конечной длительности; 2) ДПФ очень сходно по своим свойствам (с учетом периодичности) с преобразованием Фурье и z-преобразованием; 3) N значений Х(k) можно вычислить с использованием эффективного (время вычисления пропорционально NlogN) семейства алгоритмов, известных под названием быстрых преобразований Фурье (БПФ).

Дискретное преобразование Фурье широко используется при вычислении корреляционных функций, спектров и при реализации цифровых фильтров, а также часто используется и при обработке речевых сигналов [1-5].

1.1.4 Спектральный анализ

Спектральный анализ – это метод обработки сигналов, который позволяет выявить частотный состав сигнала. Поскольку анализируемые сигналы во многих случаях имеют случайный характер, то важную роль в спектральном анализе играют методы математической статистики. Частотный состав сигналов определяют путем вычисления оценок спектральной плотности мощности (СПМ). Задачами вычисления СПМ являются обнаружение гармонических составляющих в анализируемом сигнале и оценивание их параметров. Для решения указанных задач требуется соответственно высокая разрешающая способность по частоте и высокая статистическая точность оценивания параметров. Эти два требования противоречивы. Аргументы в пользу выбора высокого разрешения или высокой точности оценки СПМ зависят от того, что интересует исследователя: устойчивые оценки в пределах всего диапазона частот или высокая степень обнаруживаемости периодических составляющих.

Все методы цифрового спектрального анализа можно разделить, на две группы [6-7]: классические методы, базирующиеся на использовании преобразований Фурье, и методы параметрического моделирования, в которых выбирается некоторая линейная модель формирующего фильтра и оцениваются его параметры. К первой группе относят корреляционный и периодограммные методы. Ко второй группе относят методы оценивания СПМ на основе авторегрессии скользящего среднего и др.

Периодограммный метод обеспечивает вычисление оценки СПМ непосредственно по числовой последовательности х[0], формируемой путем дискретизации стационарного эргодического случайного процесса x(t). Периодограммная оценка СПМ равна [6-7]


Рисунок убран из работы и доступен только в оригинальном файле. (1.18)

Выражение (1.18) соответствует возможности вычисления СПМ с помощью преобразования Фурье непосредственно по реализации исходного сигнала.

Вычисленная с помощью (1.18) оценка СПМ является несостоятельной, т.е. с увеличением N она не улучшается. Для получения состоятельной оценки ее необходимо сглаживать. Кроме этого, при выполнении преобразования Фурье последовательности х[0] конечной длины /V происходит «размывание» спектра, которое также оказывает влияние на состоятельность оценки СПМ.

Ограничение последовательности х[0] конечным числом значений равносильно умножению исходной бесконечной последовательности х0 [0] на другую последовательность

Рисунок убран из работы и доступен только в оригинальном файле. (1.19)

которую называют прямоугольным окном. Тогда можно записать

Рисунок убран из работы и доступен только в оригинальном файле. (1.20)

Преобразование Фурье последовательности х[0] равно свертке преобразований Фурье последовательности х0 [0] и прямоугольного окна w[0]

Рисунок убран из работы и доступен только в оригинальном файле. (1.21)


Рисунок убран из работы и доступен только в оригинальном файле.

Рисунок 1.2 – Размывание спектра: (а – исходная бесконечная последовательность; б – модуль преобразования Фурье от х0 [0]; в - последовательность х0 [0], умноженная на прямоугольное окно; г - модуль преобразования Фурье последовательности х[0])

При выборе оконных функций используются следующие параметры: ширина основного лепестка, максимальный уровень боковых лепестков, скорость спадания уровня боковых лепестков [6,7,10].

Здесь ширина основного лепестка определена на уровне 3 дБ ниже его максимума и измерена в единицах разрешения преобразования Фурье, т.е. 2π/N, где N - длина окна.

Для повышения состоятельности оценки (1.18) выполняют её сглаживание. Имеется несколько методов сглаживания: Даньелла, Бартлетта, Уэлча [6,7].

Метод Даньелла основан на осреднении значений СПМ в пределах смежных спектральных частот.

В соответствии с методом Бартлетта состоятельность оценки СПМ повышают усреднением оценок СПМ коротких реализаций, полученных из

одной реализации длиной N отсчетов. Пусть дана реализация длиной N отсчетов. Она разбивается на ns неперекрывающихся сегментов, длиной Ns=N/s отсчетов. Для каждого сегмента по формуле (1.18) вычисляется выборочная оценка СПМ. Сглаженная оценка СПМ получается путем усреднения по всем n, сегментам

Рисунок убран из работы и доступен только в оригинальном файле. (1.30)

Если последовательность х[n] представляет нормальный стационарный эргодический процесс, то сглаженная оценка имеет дисперсию обратно пропорциональную числу сегментов n.

Спектральное разрешение оценки задается приближенным равенством

Рисунок убран из работы и доступен только в оригинальном файле. (1.31)

В методе Уэлча подход Бартлетта применяется к перекрывающимся сигментам исходной последовательности х[n], и каждый сегмент взвешивается с помощью оконной функции для уменьшения смещения оценок из-за эффекта «просачивания» энергии в боковые лепестки. Цель перекрытия сегментов - увеличить число усредняемых участков при фиксированной длине последовательности и тем самым повысить точность оценок СПМ. Метод Уэлча - один из самых распространенных периодограммных методов [6,7].

Обозначим через Рисунок убран из работы и доступен только в оригинальном файле. величину сдвига между сегментами, которая должна удовлетворять условию Рисунок убран из работы и доступен только в оригинальном файле.- максимальное имя корреляции анализируемого процесса. При выполнении этого условия получим p=int[(N-Ns)/Рисунок убран из работы и доступен только в оригинальном файле.+l]слабо коррелированных сегментов. Отсчеты каждого сегмента взвешиваются окном w[n]

Рисунок убран из работы и доступен только в оригинальном файле. (1.32)

Выборочное значение СПМ сегмента р оценивается по формуле


Рисунок убран из работы и доступен только в оригинальном файле. (1.33)

где

Рисунок убран из работы и доступен только в оригинальном файле. (1.34)

Рисунок убран из работы и доступен только в оригинальном файле. (1.35)

Сглаженная оценка периодограммы Уэлча вычисляется по формуле

Рисунок убран из работы и доступен только в оригинальном файле. (1.36)

Введение перекрытия сегментов в методе Уэлча позволяет уменьшить изменчивость оценки СПМ, Так же как и в методе Бартлетта, дисперсия оценки СПМ по методу Уэлча обратно пропорциональна числу сегментов, но благодаря большему числу сегментов, значение дисперсии будет меньше.

1.2  Основы цифровой фильтрации

Цифровой фильтр представляет собой систему с постоянными параметрами (инвариантную к сдвигу), работающую в дискретном времени. Напомним, что для таких систем сигнал на входе и выходе связан дискретной сверткой (1.5). Соответствующее соотношение между z-преобразованиями имеет вид

Рисунок убран из работы и доступен только в оригинальном файле.  (1.37)


Прямое z-преобразование отклика на единичный импульс H(z) называется передаточной функцией системы. Преобразование Фурье отклика на единичный импульс Рисунок убран из работы и доступен только в оригинальном файле.называется частотной характеристикой. Обычно Рисунок убран из работы и доступен только в оригинальном файле. представляет собой комплексную функцию со, которую можно записать в виде

Рисунок убран из работы и доступен только в оригинальном файле.  (1.38)

или через модуль и фазу

Рисунок убран из работы и доступен только в оригинальном файле.  (1.39)

Инвариантная к сдвигу линейная система называется физически реализуемой, если h(n)=0 при n<0. Линейная система устойчива, если для любой ограниченной по уровню входной последовательности выходная последовательность также ограничена. Необходимым и достаточным условием устойчивости линейной системы с постоянными параметрами является

Рисунок убран из работы и доступен только в оригинальном файле.  (1.40)

Это условие аналогично (1.10) и оказывается достаточным для существования Рисунок убран из работы и доступен только в оригинальном файле..

Сигналы на входе и выходе линейных инвариантных к сдвигу систем, таких, например, как фильтры, связаны дискретной сверткой (1.5) и кроме того, разностным уравнением


Рисунок убран из работы и доступен только в оригинальном файле. (1.41)

Вычисляя z-преобразование от обеих частей, можно получить

Рисунок убран из работы и доступен только в оригинальном файле. (1.42)

Сравнивая (1.41) и (1.42), полезно отметить следующее. Если задано разностное уравнение вида (1.41), то H(z) можно получить непосредственной подстановкой коэффициентов при входном сигнале в числитель передаточной функции к соответствующим степеням z-1, а коэффициенты при выходном сигнале - в знаменатель к соответствующим степеням z-1.

Передаточная функция в общем случае является дробно рациональной. Таким образом, она определяется положением нулей и полюсов на z-плоскости. Это означает, что H(z) можно представить в виде

Рисунок убран из работы и доступен только в оригинальном файле. (1.43)

При рассмотрении z-преобразования отмечалось, что физически реализуемые системы имеют область сходимости вида |z|>R1. Если система, кроме того, еще и устойчива, то R1 должно быть меньше единицы, таким образом единичная окружность входит в область сходимости. Иначе говоря, для устойчивой системы все полюсы H(z) должны лежать внутри единичной окружности.

Достаточно определить два типа линейных систем с постоянными параметрами. Это системы с конечной импульсной характеристикой (КИХ) и системы с бесконечной импульсной характеристикой (БИХ). Эти два класса обладают отличными друг от друга свойствами, которые будут рассмотрены ниже.

Если все коэффициенты аk. в уравнении (1.22) равны нулю, то разностное уравнение принимает вид

Рисунок убран из работы и доступен только в оригинальном файле. (1.44)

Сравнивая (1.44) с (1.56), можно отметить, что

Рисунок убран из работы и доступен только в оригинальном файле. (1.45)

Системы с КИХ обладают рядом важных свойств. Передаточная функция H(z) таких систем представляет собой полином по степеням z-1 и, таким образом, не имеет ненулевых полюсов, а содержит только нули. Системы с КИХ могут обладать строго линейной фазо-частотной характеристикой (ФЧХ). Если h(n) удовлетворяет условию

Рисунок убран из работы и доступен только в оригинальном файле. (1.46)

то

Рисунок убран из работы и доступен только в оригинальном файле. (1.47)

где Рисунок убран из работы и доступен только в оригинальном файле. - действительная или чисто мнимая величина в зависимости от знака в (1.48).

Возможность получения строго линейной ФЧХ является очень важным обстоятельством применительно к речевым сигналам в тех случаях, когда требуется сохранить взаимное расположение элементов сигнала. Это свойство систем с КИХ существенно облегчает решение задачи их проектирования, поскольку все внимание можно уделять лишь аппроксимации амплитудно-частотной характеристики (АЧХ). За это достоинство фильтра с линейной ФЧХ, приходится расплачиваться необходимостью аппроксимации протяженной импульсной реакции в случае фильтров с крутыми АЧХ. Хорошо разработаны три метода проектирования КИХ-фильтров с линейными ФЧХ: взвешивания, частотной выборки и проектирования оптимальных фильтров с минимаксной ошибкой [1-3]. Второй и третий методы являются оптимизационными и используют итеративный (в отличие от замкнутой формы) подход для определения коэффициентов фильтра. Несмотря на простоту метода взвешивания, широкое применение нашли все три метода. Это обусловлено завершенностью глубоких исследований оптимальных КИХ-фильтров а, кроме того, наличием подробно описанных программ, позволяющих пользователю легко рассчитать любой фильтр [1,2,11].

При рассмотрении вопросов реализации цифровых фильтров полезно изображать их в виде схем. Разностное уравнение (1.25) изображено на рис. 1.4. Подобные схемы, называемые структурными, описывают в графической форме те операции, которые необходимо проделать над входной последовательностью для получения сигнала на выходе.

Для фильтра после подстановки (1.49) в(1.51) и выполнения интегрирования получается

Рисунок убран из работы и доступен только в оригинальном файле. (1.52)

Импульсная характеристика (1.32) определена при любых целых значениях к и является бесконечной, поэтому ограничивают значения k. Пусть |k|≤К, где К=(N-1)/2 для фильтров с нечётными значениями N и К=N/2 для фильтров с чётными значениями N. Тогда конечная импульсная характеристика, соответствующая (1.52), записывается в виде

Рисунок убран из работы и доступен только в оригинальном файле. (1.53)

Импульсная характеристика (1.53) является некаузальной, так как имеет ненулевые значения при k<0. Чтоб получить каузальную характеристику, необходимо задержать Рисунок убран из работы и доступен только в оригинальном файле. на К тактов, т.е.

Рисунок убран из работы и доступен только в оригинальном файле. (1.54)

Синтезированный таким образом фильтр будет иметь значительные пульсации вблизи частоты среза. Указанные пульсации представляют эффект Гиббса, проявляющийся вблизи точек разрыва заданной частотной характеристики. Эффект Гиббса обусловлен ограничением длительности бесконечной импульсной характеристики Рисунок убран из работы и доступен только в оригинальном файле..

Конечная импульсная характеристика Рисунок убран из работы и доступен только в оригинальном файле., может быть также представлена в виде

Рисунок убран из работы и доступен только в оригинальном файле. (1.55)

где w[k] - прямоугольное весовое окно длиной N отсчётов. Умножение заданной импульсной характеристики на прямоугольное окно приводит к искажению частотной характеристики синтезируемого фильтра. Частотная характеристика, соответствующая (1.55), будет равна свёртке заданной частотной характеристики прямоугольного окна. Таким образом, эффект Гиббса связан с пульсирующим поведением частотной характеристики прямоугольного весового окна.

Для уменьшения отрицательного влияния эффекта Гиббса применяют весовые окна, отличные от прямоугольного. Здесь имеет место аналогия со спектральным анализом, когда для уменьшения утечки энергии в боковые лепестки применяют оконные функции. С целью обеспечения линейности фильтра низких частот указанные оконные функции должны быть симметричными w[k]=w[N-k-1] и определены для значений k, лежащих диапазоне 0≤kN-1 [6].

1.3 Особенности акустической фонетики и её учёт при обработке речевых сигналов

1.3.1 Механизм речеобразования

Речь состоит из последовательности звуков. Звуки и переходы между ними служат символическим представлением информации. Порядок следования звуков (символов) определяется правилами языка. Изучение этих правил и их роли в общении между людьми составляет предмет лингвистики, анализ и классификация самих звуков речи — предмет фонетики. При обработке речевых сигналов с целью повышения их информативного содержания либо для выделения содержащейся в сигнале информации полезно располагать как можно большим количеством сведений о структуре сигнала, например, о способе кодирования информации в сигнале [1].

Голосовой тракт начинается с прохода между голосовыми связками,называемого голосовой щелью, и заканчивается у губ. Голосовой тракт, таким образом, состоит из гортани (от пищевода до рта) и рта, или ротовой полости. У взрослого мужчины общая длина голосового тракта составляет примерно 17 см. Площадь поперечного сечения голосового тракта, которая определяется положением языка, губ, челюстей и небной занавески, может изменяться от нуля (тракт полностью перекрыт) до примерно 29 см2. Носовая полость начинается у нёбной занавески и заканчивается ноздрями. При опущенной небной занавеске носовая полость акустически соединена с голосовым трактом и участвует в образовании носовых звуков речи. На рис. 1.4 показано подробное схематическое изображение речеобразующей системы. Для полноты в диаграмму включены и такие органы, как легкие, бронхи и трахея, расположенные ниже гортани. Совокупность этих органов и служит источником энергии для образования речи. Речь представляет собой акустическую волну, которая вначале излучается этой системой при выталкивании воздуха из легких и затем преобразуется в голосовом тракте. Основные особенности колебания легко объяснить на основе подробного анализа механизма образования речи. Звуки речи могут быть разделены на три четко выраженные группы по типу возбуждения. Вокализованные звуки образуются проталкиванием воздуха через голосовую щель, при котором периодически напрягаются и расслабляются голосовые связки и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой, тракт.

Рисунок убран из работы и доступен только в оригинальном файле.

Рисунок 1.4 – Схема речеобразующих органов человека [1,13]

Фрикативные или невокализованные звуки генерируются при сужении голосового тракта в каком-либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточно высокой для образования турбулентного воздушного потока. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт.

При произнесении взрывных звуков голосовой тракт полностью закрывается (обычно в начале голосового тракта). За этой смычкой возникает повышенное сжатие воздуха. Затем воздух внезапно высвобождается. Область малого уровня соответствует периоду полного закрытия голосового тракта. Голосовой тракт и носовая полость показаны на рис. 1.4 в виде труб с переменной по продольной оси площадью поперечного сечения. При прохождении звуковых волн через эти трубы их частотный спектр изменяется в соответствии с частотной избирательностью трубы. Этот эффект похож на резонансные явления, происходящие в трубах органов и духовых музыкальных инструментов. При описании речеобразования резонансные частоты трубы голосового тракта называют формантными частотами или просто формантами. Формантные частоты зависят от конфигурации и размеров голосового тракта: произвольная форма тракта может быть описана набором формантных частот. Различные звуки образуются путем изменения формы голосового тракта. Таким образом, спектральные свойства речевого сигнала изменяются во времени в соответствии с изменением формы голосового тракта.

Переменные во времени спектральные характеристики речевого сигнала с помощью звукового спектрографа могут быть высвечены в виде графика. Этот прибор позволяет получить двумерный график, называемый спектрограммой, на которой по вертикальной оси отложена частота, а по горизонтальной – время. Плотность зачернения графика пропорциональна энергии сигнала. Таким образом, резонансные частоты голосового тракта имеют вид затемненных областей на спектрограмме. Вокализованным областям сигнала соответствует появление четко выраженной периодичности временной зависимости, в то время как невокализованные интервалы выглядят почти сплошными [1].

1.3.2 Акустическая фонетика

Многие языки, в том числе и английский, можно описать набором отдельных звуков или фонем. Изучать фонему можно по-разному. Лингвисты, например, изучают отличительные характеристики фонем [1,2]. Четыре широких класса звуков образуют гласные, дифтонги, полугласные и согласные. Каждый из классов разбит на подклассы по способу и месту образования звука в голосовом тракте. Каждая фонема может быть отнесена к классу протяжных или кратковременных звуков. Протяжные звуки образуются при фиксированной (инвариантной ко времени) форме голосового тракта, который возбуждается соответствующим источником. К этому классу относятся гласные, фрикативные (вокализованные и невокализованные) носовые согласные. Остальные звуки (дифтонги, полугласные, аффрикаты и взрывные согласные) произносятся при изменяющейся форме голосового тракта. Они образуют класс кратковременных звуков.

Гласные. Гласные образуются при квазипериодическом возбуждении голосового тракта неизменной формы импульсами воздуха, возникающими вследствие колебания голосовых связок. Как будет показано ниже, зависимость площади поперечного сечения голосового тракта от координаты (расстояния) вдоль его продольной оси определяет резонансные частоты тракта (форманты) и характер произносимого звука. Эта зависимость называется функцией площади поперечного сечения. Функция площади поперечного сечения для каждой гласной зависит в первую очередь от положения языка; вместе с тем на характер звука оказывают влияние положения челюстей, губ и, в меньшей степени, небной занавески. Например, при произнесении звука |а|, голосовой тракт открыт в начале, а в его конце тело языка образует сужение. Наоборот, при произнесении звука |и|, язык образует сужение в начале голосового тракта и оставляет его открытым в конце. Таким образом, каждому гласному звуку может быть поставлена в соответствие форма голосового тракта (функция площади поперечного сечения), характерная для его произношения. Очевидно, что это соответствие неоднозначное, так как у разных дикторов голосовые тракты различны; Другим представлением гласного звука является его описание с помощью набора резонансных частот голосового тракта. Это описание также зависит от диктора. Петерсон и Барней [1] провели измерения формантных (резонансных) частот с помощью звукового спектрографа для гласных, произнесенных различными дикторами.

На спектрограммах четко выделяются различные резонансные области, характерные для каждой гласной. Акустические колебания, иллюстрируя периодичность вокализованных звуков, позволяют также путем анализа одного периода выявить грубые спектральные характеристики. Например, акустическое колебание звука |и| состоит из низкочастотного затухающего колебания, на которое накладывается относительно высокочастотная составляющая. Это соответствует низкой частоте первой форманты и высоким частотам второй и третьей формант. Два резонанса, расположенных на близких частотах, расширяют спектр колебания. Наоборот, в акустическом колебании гласной |у| энергия высокочастотных составляющих относительно мала, что соответствует низким частотам первой и второй формант. Подобный анализ может быть проведен для всех гласных.

Дифтонги. Дифтонгом называется участок речи, соответствующий одному слогу, который начинается с одной гласной и затем постепенно переходит в другую. На основе этого определения можно выделить следующие дифтонги: |эй|, |оу|, |ау|, |ой|, |ай|.

Дифтонги образуются путём плавного изменения формы голосового тракта.

Полугласные. Группу звуков, содержащих |в|, |й| описать довольно трудно. Эти звуки называются полугласными, гак как по своим свойствам они напоминают гласные звуки. Обычно их характеризуют плавным изменением функции площади поперечного сечения голосового тракта между смежными фонемами. Таким образом, акустические характеристики этих звуков существенно зависят от произносимого текста. Удобно рассматривать эти звуки как переходные, сходные с гласными. Их структура близка к структуре гласных и дифтонгов.

Носовые звуки (сонорные). Носовые согласные |м|, |н| и |л| образуются при голосовом возбуждении. В полости рта при этом возникает полная смычка. Небная занавеска опущена, поэтому поток воздуха проходит через носовую полость и излучается через ноздри. Полость рта, которая вначале закрыта, акустически соединена с гортанью. Таким образом, рот служит резонансной полостью, в которой задерживается часть энергии при определенных частотах воздушного потока. Эти резонансные частоты соответствуют антирезонансам или нулям передаточной функции тракта речеобразования [2]. Более того, для носовых согласных и гласных (т. е. гласных, расположенных перед носовыми согласными) характерны менее выраженные резонансы, чем для гласных. Расширение резонансных областей происходит из-за того, что внутренняя поверхность носового тракта напрягается и при этом носовая полость имеет большое отношение площади поверхности к площади поперечного сечения. Вследствие этого потери за счёт, теплопроводности и вязкости оказываются большими, чем обычно.

Три носовых согласных различаются местом расположения полной смычки. При произнесении звука |м| смычка образуется между губами, |н| - у внутренней стороны зубов.

Глухие фрикативные звуки (шипящие, свистящие). Глухие фрикативные звуки |ф|, |с|, |ш|, образуются путем возбуждения голосового тракта турбулентным воздушным потоком, возникающим в области смычки голосового тракта. Расположение смычки характеризует тип фрикативного звука. При произнесении звука |ф| смычка возникает около губ, |с| - в середине полости рта и |ш| - в конце полости рта. Таким образом, система образования глухих фрикативных звуков содержит источник шума, расположенный в области смычки, которая разделяет голосовой тракт на две полости. Звуковая волна излучается через губы т. е. через переднюю полость. Другая полость служит, как и в случае произнесения носовых звуков, для задерживания акустического потока, и таким образом в речеобразующем тракте возникают антирезонансы [1].

Звонкие фрикативные звуки. Звонкие фрикативные звуки |в|, |з| и |ж| являются прототипами глухих звуков |ф|, |с|, |п| и |ш| соответственно. Место расположения смычки для этих пар звуков совпадает. Однако звонкие фрикативные звуки отличаются от своих аналогов тем, что при их образовании участвуют два источника возбуждения. При образовании звонких звуков голосовые связки колеблются и, таким образом, один источник возбуждения находится в гортани. Однако, так как в голосовом тракте образуется смычка, поток воздуха в этой области становится турбулентным. Можно ожидать, что в спектре звонких фрикативных звуков будут две различные составляющие. Сходство структуры звонкого |в| и глухого |ф| также легко установить путем сравнения соответствующих спектрограмм. Аналогично можно сравнить и спектрограммы звуков |ш| и |ж|.

Звонкие взрывные согласные. Звонкие взрывные согласные |б|, |д| и |г| являются переходными непротяжными звуками. При их образовании голосовой тракт смыкается в какой-нибудь области полости рта. За смычкой воздух сжимается и затем внезапно высвобождается. При произнесении звука |б| смычка образуется между губами, |д| - с внутренней стороны зубов, |г| -вблизи небной занавески. В течение периода, когда голосовой тракт полностью закрыт, звуковые волны практически не излучаются через губы. Однако слабые низкочастотные колебания излучаются стенками горла (эту область иногда называют голосовымг затвором — «voice bar»). Колебания возникают из-за того, что голосовые связки могут вибрировать даже тогда, когда голосовой тракт перекрыт.

Так как структура взрывных звуков изменчива, их свойства существенно зависят от последующего гласного [1]. В этой связи характер временных колебаний несёт мало сведений о свойствах этих согласных.

Глухие взрывные согласные. Глухие взрывные согласные |п|, |т| и |к| подобны своим звонким прототипам |б|, |д| и |г|, но имеют одно важное отличие. В течение периода полного смыкания голосового тракта голосовые связки не колеблются. После этого периода, когда воздух за смычкой высвобождается, в течение короткого промежутка времени потери на трение возрастают из-за внезапной турбулентности потока воздуха. Далее следует период придыхания (шумовой воздушный поток из голосовой щели возбуждает голосовой тракт). После этого возникает голосовое возбуждение.

Аффрикаты и звук |х|. Остальными согласными произношения являются аффрикаты |ч| и |дж| и фонема |х|. Глухая аффриката |ч| является динамичным звуком, который можно представить как сочетание взрывного |т| и фрикативного согласного |щ|. Звонкий звук |дж| можно представить как сочетание взрывного |д| и фрикативного звука |ж|. Наконец, фонема |х| образуется путем возбуждения голосового тракта турбулентным воздушным потоком, т. е. без участия голосовых связок, но при возникновении шумового потока в голосовой щели. Структура звука |х| не зависит от следующей за ним гласной. Поэтому голосовой тракт может перестраиваться для произнесения следующей гласной в процессе произнесения звука |х| [1].

1.3.3 Распространение звуков

Понятие звука почти совпадает с понятием колебаний. Звуковые волны возникают за счет колебаний. Они распространяются в воздухе или другой среде с помощью колебаний частиц этой среды. Следовательно, образование и распространение звуков в голосовом тракте подчиняется законам физики. В частности, основные законы сохранения массы, сохранения энергии, сохранения количества движения вместе с законами термодинамики и механики жидкостей применимы к сжимаемому воздушному потоку с низкой вязкостью, который является средой распространения звуков речи. Используя эти основные физические законы, можно составить систему дифференциальных уравнений в частных производных, описывающую движение воздуха в речеобразующей системе [1,2]. Составление и решение этих уравнений весьма затруднительны даже для простых предположений относительно формы голосового тракта и потерь энергии в речеобразующей системе. Полная акустическая теория должна учитывать следующие факторы:

-  изменение во времени формы голосового тракта;

-  потеря энергии на стенках голосового тракта за счет вязкого трения и теплопроводности;

-  мягкость стенок голосового тракта;

-  излучение звуковых волн через губы;

-  влияние носовой полости;

-  возбуждение голосового тракта.

Голосовой тракт можно представить в виде неоднородной трубы с переменной во времени площадью поперечного сечения. Для колебаний, длина волны которых превышает размеры голосового тракта (это обычно имеет место на частотах ниже 4000 Гц), можно допустить, что вдоль продольной оси трубы распространяется плоская волна. Дальнейшее упрощение состоит в предположении отсутствия потерь на вязкость и теплопроводность как внутри воздушного потока, так и на стенках трубы. На основе законов сохранения массы, количества движения и энергии с учетом перечисленных допущений Портнов показал, что звуковые волны, в трубе удовлетворяют следующим уравнениям

Рисунок убран из работы и доступен только в оригинальном файле. (1.56а)

Рисунок убран из работы и доступен только в оригинальном файле. (1.56б)

где р=р(х,t) – звуковое давление как функция х и t; u=u(х,t) – скорость воздушного потока (volume velocity) как функция х и t, ρ - плотность воздуха в трубе; с - скорость распространения звука; A=A(x,t) - «функция площади», т. е. площадь поперечного сечения в направлении, перпендикулярном продольной оси трубы, как функция расстояния вдоль этой оси и времени. Сходная система уравнений была получена Сондхи,

Замкнутое решение уравнений (1.36) получить невозможно даже для простых форм трубы. Однако могут быть получены численные решения. Полное решение дифференциальных уравнений предполагает заданными давление и скорость потока для значений х и t в области голосовой щели и около губ, т. е. для получения решения должны быть заданы граничные условия у обоих концов трубы. Со стороны губ граничные условия должны отображать эффект излучения, а со стороны голосовой щели – характер возбуждения.

Кроме граничных условий необходимо задать функцию площади A(x,t). Для протяжных звуков можно предположить, что A(x,t) не изменяется во времени. Однако это предположение неверно для непротяжных звуков. Подробные измерения A(x,t) весьма затруднительны и могут быть выполнены только для протяжных звуков. Одним из методов проведения таких измерений является рентгеновская киносъемка. Фант и Перкелл провели несколько таких экспериментов. Однако подобные измерения могут быть выполнены лишь в ограниченном объеме. Другим методом является вычисление формы голосового тракта по акустическим измерениям. Описав подобный метод, предполагающий возбуждение голосового тракта внешним источником. Оба метода являются полезными для получения сведений о динамике речеобразования. Тем не менее, они не могут быть применены для получения описания речевых сигналов, например, в задачах связи. В работе Атала описаны результаты прямого измерения A(x,t) по сигналу речи, произнесенной в нормальных условиях.

Точное решение уравнений (1.36) является весьма сложным, даже если значение A(x,t) точно известно. Вместе с тем для решения поставленной задачи нет необходимости в точном и общем решениях этих уравнении [1,2].

1.4 Обработка речевого сигнала во временной области

В основе большинства методов обработки речи лежит предположение о том, что свойства речевого сигнала с течением времени медленно изменяются; Это предположение приводит к методам кратковременного анализа, в которых сегменты речевого сигнала выделяются и обрабатываются так, как если бы они были короткими участками отдельных звуков с отличающимися свойствами. Процедура повторяется так часто, как это требуется. Сегменты, которые иногда называют интервалами, (кадрами) анализа обычно пересекаются. Результатом обработки на каждом интервале является число или совокупность чисел. Следовательно, подобная обработка приводит к новой, зависящей от времени последовательности, которая.может служить характеристикой речевого сигнала.

Большинство методов кратковременного анализа, в том числе и кратковременный Фурье-анализ, могут быть описаны выражением

Рисунок убран из работы и доступен только в оригинальном файле. (1.57)

Речевой сигнал (возможно, после ограничения частотного диапазона в линейном фильтре) подвергается преобразованию Т[·], линейному или нелинейному, которое может зависеть от некоторого управляющего параметра или их совокупности. Результирующая последовательность умножается затем на последовательность значений временного окна (весовой функции), расположенную во времени в соответствии с индексом п. Результаты затем суммируются по всем ненулевым значениям. Обычно, хотя и не всегда, последовательность значений временного окна имеет конечную протяженность. Значение Qn представляет собой, таким образом, «взвешенное» среднее значение последовательности Т [х (m)].

Простым примером, иллюстрирующим изложенное, может служить измерение кратковременной энергии сигнала. Полная энергия сигнала в дискретном времени определяется как

Рисунок убран из работы и доступен только в оригинальном файле. (1.58)

Вычисление этой величины не имеет особого смысла при обработке речевых сигналов, поскольку она не содержит информации о свойствах сигнала, изменяющихся во времени. Кратковременная энергия определяется выражением

Рисунок убран из работы и доступен только в оригинальном файле. (1.59)

Таким образом, кратковременная энергия в момент n есть просто сумма квадратов N отсчетов от n-N-1 до n. Из (1.37) видно, что в (1.39) Т [•] есть просто операция возведения в квадрат, а

Рисунок убран из работы и доступен только в оригинальном файле. (1.60)

Вычисление кратковременной энергии, иллюстрирует ри

Здесь опубликована для ознакомления часть дипломной работы "Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов". Эта работа найдена в открытых источниках Интернет. А это значит, что если попытаться её защитить, то она 100% не пройдёт проверку российских ВУЗов на плагиат и её не примет ваш руководитель дипломной работы!
Если у вас нет возможности самостоятельно написать дипломную - закажите её написание опытному автору»


Просмотров: 471

Другие дипломные работы по специальности "Коммуникации и связь":

«Реклама и связи с общественностью», «Маркетинг»

Смотреть работу >>

Ремонт системы управления видеокамер аналогового формата

Смотреть работу >>

Теория электрических цепей

Смотреть работу >>

Роботизированные комплексы (РТК) предназначенные для технологического процесса сборки

Смотреть работу >>

Моделирование и методы измерения параметров радиокомпонентов электронных схем

Смотреть работу >>