Синтез русской речи. Как это работает: синтез речи

На сегодняшний день называется технология, способная преобразовывать текстовую информацию в обычную речь. С развитием "умных машин" эта технология становится всё более актуальной, и с каждым днём требует всё большего совершенства. Собственно, на данный момент разработан целый ряд методов синтеза речи, о которых мы и будем говорить.

Синтезаторы речи могут применяться в абсолютно различных сферах, и используются для решения множества задач, начиная от "начитывания" книг, производства "говорящих" детских игрушек, объявления остановок в общественном транспорте или в системах сервисных служб, и заканчивая медициной (тут стоит вспомнить о Стивене Хокинге , пользующемся синтезатором речи для связи с миром).

Итак, рассмотрим подробнее технологию и методы синтеза речи. Как уже упоминалось, существует несколько методов синтеза речи. Таким образом, можно выделить несколько основных подходов:

  • параметрический синтез;
  • конкатенативный (компиляционный) синтез;
  • синтез по правилам (по печатному тексту);

Параметрический синтез позволяет записывать речь для любого языка, однако его нельзя применять для не заданных заранее текстов. Параметрический синтез речи применяют тогда, когда набор сообщений ограничен. Качество же такого метода синтеза может быть очень высоким.

По сути дела, параметрический синтез речи - это реализация принципа работы вокодера . В случае параметрического синтеза звуковой сигнал представлен определённым числом непрерывно изменяющихся параметров. Для формирования гласных звуков используется генератор тонального сигнала, для согласных - генератор шума. Но такой метод обычно применяют для записи голоса в музыкальных композициях, и чаще речь идет даже не о чистом синтезе голоса, а, скорее, о модуляции.

Метод компиляционного синтеза основывается на составлении текстов из заранее записанного "словаря" элементов. Размер элемента системы должен быть не менее слова. Обычно запас элементов ограничивается несколькими сотнями слов, а содержание синтезируемых текстов - объёмом словаря. Этот метод синтеза речи широко используется в повседневной жизни - как правило, в различных справочных службах и технике, требующей оснащения системами речевого ответа.

Полный синтез речи по правилам может воспроизводить речь по заранее неизвестному тексту. Этот метод не использует элементов человеческой речи, а базируется на запрограммированных лингвистических и акустических алгоритмах .

Тут также существует своё разделение - можно выделить два подхода к этому методу синтеза. Первый - это формантный синтез речи по правилам, а второй - артикуляторный синтез. Формантный синтез базируется на формантах - частотных резонансах речевой акустической системы. Алгоритм формантного синтеза моделирует работу речевого тракта человека, работающего как набор резонаторов. Сегодня, к сожалению, большинство синтезаторов , работающих исключительно на формантном синтезе, понять без подготовки сложно, но, несомненно, это универсальная и перспективная технология. Артикуляторный метод пытается доработать недостатки формантного путем добавления в модель фонетических особенностей произнесения отдельных звуков.

Также существует технология синтеза речи по правилам, которая использует записанные отрезки естественной речи. Поскольку всё-таки чаще всего применяются компиляционные методы, скажем о них пару слов подробнее.

В зависимости от того, насколько велики "отрывки" речи, используемые для синтеза, выделяют такие типы синтеза:

  • микросегментный (микроволновый);
  • аллофонический;
  • дифонный;
  • полуслоговой;
  • слоговой;
  • синтез из единиц произвольного размера.

Чаще всего используются аллофонический и дифонный методы. Для дифонного метода синтеза речи базовыми элементами являются всевозможные двучленные комбинации фонем, а для аллофонного - сочетания левого и правого контекста (аллофон - вариант фонемы, который обусловлен её конкретным фонетическим окружением). При этом различные типы контекстов объединяются в классы по степени акустической близости.

Преимущество таких систем состоит в том, что они дают возможность синтезировать текст по не заданному заранее тексту, а недостаток - в том, что качество синтезированной речи несопоставимо с качеством речи естественной (на границах сшивки элементов могут возникать искажения). Также весьма трудно управлять интонационными характеристиками речи, так как характеристики отдельных слов могут изменяться в зависимости от контекста или типа фразы.

Впрочем, это всё в теории. На практике, на современном этапе развития, несмотря на активное продвижение в этой области, разработчики технологии синтеза речи всё-таки испытывают некоторые трудности, в основном связанные с искусственностью синтезируемой речи, отсутствием в ней эмоциональной окраски и с низкой помехоустойчивостью.

Дело в том, что любая синтезированная речь, как правило, воспринимается человеком с трудом. Это связано с тем, что пробелы в синтезированном тексте заполняет человеческий мозг , который задействует для этого дополнительные ресурсы, и человек может нормально воспринимать синтезированную речь только около 20 минут.

На восприятие речи также влияет её эмоциональная окраска. В случае с синтезированной речью она отсутствует. Хотя стоит отметить, что некоторые алгоритмы всё же позволяют в некоторой степени имитировать эмоциональную окраску речи путём изменения длительности фонем, пауз и модуляции тембра, но пока их работа далека от идеала.

Что касается третьей названной проблемы - низкой помехоустойчивости, то эксперименты показывают, что восприятию синтезированного текста мешают любые, даже самые небольшие посторонние шумы. Это опять-таки связано с тем, что для обработки синтезированной речи человеческий мозг задействует дополнительные центры, которые не используются при восприятии речи естественной.

В конце этой статьи мне хотелось бы привести некоторые примеры существующих синтезаторов речи.

Всем известны так называемые "читалки " - программы для более удобного чтения текста с монитора. Многие из нах используют программы речевого синтеза для озвучивания текста, например, Balabolka и Govorilka .

Для того чтобы подобные программы озвучивали тексты, необходимо также установить библиотеку SAPI (Speech API) и голосовые движки. Наиболее распространение две версии Speech API: SAPI4 и SAPI5.Обе библиотеки могут работать на одном компьютере. В операционных системах Windows XP, Windows Vista и Windows 7 уже установлены библиотеки SAPI5.

Помимо читалок, распространены программы экранного доступа. Примерами таких программ являются:

VIRGO 4 . Программа была создана для комфортной работы слепых и слабовидящих пользователей с Windows. Она позволяет выбрать ту информацию, которая будет произноситься голосом и ту, которая будет показываться на брайлевском дисплее. Для слабовидящих пользователей предусмотрена системой увеличения экрана "Галилео".

Программа Кобра 9.1 также упрощает работу с Windows для слепых и слабовидящих пользователей. Эта программа может выводить выводит информацию с компьютерного монитора с помощью речи, брайлевского дисплея и имеет функцию увеличения экрана.

Absinthium

Рубрики:

Теги:

Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Комментарии

С технической точки зрения статья правильная. Но там где автор добавляет от себя начинаются проблемы. Понятно, что человеку, который об этом только слышал, и не пользуется постоянно сложно судить. Поэтому не сочтите за претензии, просто хочу кое-что прояснить.

На самом деле уровень синтезаторов речи достаточно приемлемый. Хотя конечно еще продолжают существовать и те, которые были разработаны 10 - 15 лет назад и, именно они попадаются в сети при поверхностном знакомстве с темой. Но есть и другие, более вменяемые. За 20 минут человек не устает от синтезатора - работаю с синтезаторами 15 часов в сутки. И таких как я много. но даже те люди, которые не такие, как я и мои коллеги, а такие как большинство, с удовольствием слушают например аудиокниги записанные из текстовый файлов с помощью синтезаторов речи. Зачастую актеры, начитывающие аудиокнигу, утомляют человека даже быстрее чем за 20 минут, поэтому синтезаторы с их машинной прямотой и бескомпромиссностью, скорее выигрывают, особенно если вы не эстет, а просто получаете информацию. И программы перечисленные в конце, особенно virgo и cobra, в наших широтах все-таки не так известны, даже в кругах тех, для кого они разработаны. Самой известной из программ экранного доступа является jaws for windows. Эта программа лидер среди других решений. Так же у нас пользуется популярностью и несомненно заслуживает внимания программа экранного доступа nvda. Она позволяет незрячим решать большинство повседневных задач и при этом является свободно распространяемой.

Недавно передо мной встала проблема выбора голосового синтезатора речи. Основные требования — это поддержка русского языка и более-менее нормальное произношение.
Для тех, кто не в курсе того, что такое синтезатор речи, расскажу — это специальная программа, смысл работы которой заключается в преобразовании письменного текста в устную речь. Это и есть так называемый синтез.
Зачем это надо? Ну, например, когда надо записать голосовое сообщение чужим голосом. Иностранцам оно может быть полезно для того, чтобы услышать произношение того или иного слова. Синтезатор речи удобен для чтения, когда надо включить ребенку сказку, которой нет в аудиокнигах. Да и вообще, ситуации всякие бывают.
Так вот, в процессе выбора я нашел несколько очень полезных инструментов, среди которых работающих в режиме онлайн с поддержкой русского языка и сейчас я Вам о них и расскажу.

Переводчик Google

Вот поистине многоцелевой продукт, которых можно использовать совершенно по-разному. Главные преимущества:
— это совершенно бесплатный сервис;
— работа в режиме Онлайн без установки. Нужен только доступ в Интернет;
— на мой взгляд этот синтезатор речи имеет лучший голосовой модуль, самое близкое к натуральному;
— наверное самая лучшая команда разработчиков и техподдержка в мире;
— самое большое количество поддерживаемых языков.
К сожалению, вариант голоса только один — женский. Выбора я не нашел.

RHVoice

Отличный многоязычный синтезатор речи от российского разработчика — Ольги Яковлевой. Есть версии, как для операционных систем семейства Windows, так и для Linux. Разработчик синтезатора - Ольга Яковлева. Программа распространяется совершенно бесплатно и доступна на официальном сайте в двух вариантах: как SAPI5-совместимая самостоятельная версия и как модуль для бесплатной программы экранного доступа NVDA. Этот синтезатор голосовой речи умеет озвучивать русские тексты тремя голосами — Елена, Ирина и Александр.

Acapela

Acapela - это, пожалуй, один из самых популярных и распространенных голосовых синтезаторов в мире. Главная особенность — это озвучка текстов более чем на тридцати языках мира. Если рассматривать русский язык, то тут доступны два голоса - Николай и Алена. Причем последний более совершенен и естественен в плане произношения. В демонстрационном режиме на сайте доступен только голос Алена.
Программа доступна для скачивания на официальном сайте и поддерживает все популярные современные операционные системы — Windows, Linux, Mac. Есть даже версии для Android u iOS.

Vokalizer

Женских голос Milena — это ещё один очень популярный движок голосового синтезатора речи от компании Nuance — он очень высококачественный и естественно звучащий. Его Вы можете услышать в call-центрах и в различных сетевых речевых системах, а также в различных приложениях приложениях — таких как Moon+ Reader Pro, Full Screen Caller ID , Cool Reader, в навигационной программах TomTom, iGo Primo.
Среди плюсов можно отметить возможность установки различных словарей, регулировки громкости, ударения и скорости чтения.
Код программы открытый, скачать его бесплатно можно на официальном сайте, собственно как и инсталлятор самой программы.

Festival

Festival - это не просто очередной голосовой речевой синтезатор, а уже целая система распознавания и синтеза речи с различными API. Разработчик — Исследовательский Центр Речевых Технологий университета Эдинбурга.
Festival предназначен для поддержки нескольких языков. По умолчанию поддерживает английский, валлийский и испанский языки. Но есть возможность подключить голосовые пакеты других языков: чешский, финский, хинди, итальянский, маратхи, польский, русский и телугу.
Код программы открытый, сам голосовой синтезатор распространяется по лицензии open source и доступна только для операционных систем Linux. Правда есть портированная версия по Макинтош.

ESpeak

Последняя в моём обзоре система синтеза речи — программа ESpeak — разрабатывается уже около 8 лет. Последняя версия — 1.48.04 от 6 апреля 2014. Данный голосовой синтезатор речи кроссплатформенный — есть версии под Windows, Linux, Mac OS X, и даже под RISC OS, хотя последние две уже давно не поддерживаются.
Отдельно отмечу, что eSpeak используется в мобильных операционных системах Android, правда имеет при этом ряд существенных ошибок.
Программа поддерживает пятидесяти различных языков, поддержка которых указывается при установке программы.
Один из главных минусов это голосового синтезатора — генерирование голоса только в файл формата WAV. Скачать программу бесплатно можно на официальном сайте.

От себя добавлю лишь, что мне понравились RHVoice и Vokalizer, хотя тут во много дело индивидуальное и во многом зависит от того, что Вы хотите получить. Так что пробуйте, ставьте и смотрите. Я думаю, что один из представленных вариантов Вам обязательно должен подойти.

Современные приложения для синтеза речи значительно отличаются по качеству работы от своих первых аналогов десятилетней давности. Яркий пример тому - программа Балаболка. Данное приложение бесплатное, без каких-либо условий и ограничений. Обладает настолько большими возможностями, что создатели предпочли интегрировать в программу полноценный файл помощи, с подробным описанием всех функций.

Инсталляция и настройка программы балаболка.

Программу проще всего получить непосредственно с сайта разработчика. Там же можно скачать и дополнительное необходимое ПО. Процесс инсталляции незамысловат - приложение копируется в выбранный директорий, системные папки при этом не используются. Интерфейс поддерживает множество языков, в том числе и русский. А вот произношение текста пока будет только на английском. Для использования русского (или любого другого, даже украинского) языка необходимо дополнительно установить компьютерный голос. В сети доступно множество как бесплатных, так и коммерческих голосов. Устанавливаются они довольно просто и быстро.

Вполне может быть, что вам потребуется так же инсталлировать пакет Microsoft Speech Api 4.0

Приложение готово к работе сразу же после запуска. Если установлены бесплатные русские голоса, необходимо выбрать один из них на вкладке SAPI4. Теперь достаточно в окне набрать или вставить текст, и нажать клавишу F5 – начнется чтение вслух текстового фрагмента. Курсор при этом должен находиться в начале текста.

Возможности программы балаболка

Но озвучивание текста - не единственное предназначение программы. Например, с ее помощью можно создавать аудио книги. Произношение любого текста в программе Балаболка можно записать в звуковой файл. Приложение поддерживает следующие форматы: .wav, .mp3, .ogg, .wma, .mp4, .m4a, .m4b, .awb.

Таким образом, нужный вам текст легко преобразовывается в аудиокнигу.

Кстати, программа позволяет автоматически разбивать один большой файл аудиокниги на несколько небольших, в соответствии с выбранными настройками

Настройки сохранения файлов аудиокниг - далеко не единичная опция, доступная пользователю. Кроме этого, можно установить громкость, тембр голоса, скорость произношения. После установки дополнительных (бесплатных) модулей, возможна проверка орфографии; так же пользователь сам может корректировать произношение путем создания собственных «словарей».

Приложения-синтезаторы речи – удобные и надежные помощники для Андроид пользователей. С их помощью можно «озвучить» приложения на самые популярные языки мира, настроить тембр голоса и другие важные параметры, а также , прослушивать звучание разных слов. Большинство TTS приложений для Android доступны бесплатно, однако за установку отдельных голосов и функций нужно доплатить. Мы подобрали для вас наиболее удобные синтезаторы речи, скачать которые можно на нашем сайте.

Синтез речи от Google


Жанр Инструменты
Рейтинг 4,1
Установки 1 000 000 000–5 000 000 000
Разработчик Google LLC
Русский язык есть
Оценок 1 107 289
Версия 3.14.9
Размер apk 14.7 MB


Наиболее популярная и доступная TTS-утилита, совместимая со многими Андроид-девайсами. С помощью программы вы можете озвучивать текст на экране, а также выполнять ряд важных функций:

  • Озвучивать книги приложения Google Play Книги.
  • Переводить и озвучивать слова из .
  • Включать голосовые подсказки при помощи сервиса TalkBack.

Активировать приложение Синтез речи от Google можно прямо на своем девайсе. Для этого откройте пункт меню «Настройки», где зайдите в подраздел «Язык и методы ввода», а там – «Синтез речи». Выберите систему синтеза речи от Google, после чего приложение активируется автоматически.

Программа поддерживает более 40 языков, среди которых английский, русский, французский, немецкий, японский, испанский, датский, хинди и много других. В последней версии утилиты добавлено 3 новые языка – румынский, эстонский и словацкий, а также улучшено качество голоса в целом.

Acapela TTS Voices


Жанр Связь
Рейтинг 3,5
Установки 100 000–500 000
Разработчик Acapela Group S.A.
Русский язык нет
Оценок 3 883
Версия 6.0.0.2
Размер apk 9.3 MB


Еще один качественный синтезатор речи на Андроид, который доступен на нашем портале. Программа является условно бесплатной, при этом перед тем, как купить приложение, вы можете прослушать демо-версии мужских и женских голосов в режиме онлайн. Утилита позволяет покупать и устанавливать программы с голосом высокого качества, такие как Google TalkBack, переводчики и озвучивания новостей.

Для выбора и установки голоса в приложении войдите в меню, после чего нажмите на голос и удерживайте несколько секунд. Возле выбранного голоса появится значок желтой звезды, и он будет установлен по умолчанию. Теперь вы можете использовать эту программу с вашей любимой читалкой книг.

Приложение Acapela TTS Voices можно активировать следующими действиями.

  • Загрузите сервис на нашем сайте или портале Google Play.
  • После установки приложения кликните на иконку программы. Убедитесь в наличии Интернет-соединения.
  • Ознакомьтесь со списком голосов, которые загружены с сервера.
  • Нажмите на меню напротив каждого голоса, где можно прослушать собственный текст или сразу перейти к покупке.
  • После покупки и оплаты голос будет загружен, и вы сможете пользоваться им в любое время.

Приложение Acapela TTS Voices совместимо с ОС Android 2.2 и более поздними версиями.

Vocalizer TTS Voice


Жанр Работа
Рейтинг 3,3
Установки 500 000–1 000 000
Разработчик Code Factory
Русский язык есть
Оценок 3 405
Версия 2.0.8
Размер apk 5.4 MB


Синтезатор речи с меню на английском языке. Программа обладает интегрированным TTS-движком, поддерживающим более 50 языков. Сервис выгодно выделяется приятным и чистым звуком, тембр которого можно настраивать на свое усмотрение.

Vocalizer позволяет озвучить популярные Андроид-приложения, такие как книги, и реабилитационное программное обеспечение.

Среди других важных функций Vocalizer TTS Voice стоит отметить:

  • Поддержка 50 языков и 100 видов голоса.
  • Поддержка эмоцзи (а вы знали, что есть ?).
  • Озвучивание слов в словарях.
  • Настройки скорости чтения.
  • Настройки озвучивания пунктуации.

После того, как программа будет установлена на вашем устройстве, вы можете активировать ее через меню настроек в разделе «Язык и методы ввода» – Text-To-Speech и установить Vocalizer TTS как систему по умолчанию.

Приложение совместимо с системой Android версии 4.0 и далее.

Если вам понравилось это приложение, и вы ищете похожие приложения – посмотрите обзор . А если вы в незнакомой стране, и вам не до озвучки текста, вам нужно перевести этот текст – вы можете сфотографировать его и перевести .

На сегодняшний день синтезаторы речи, которые используются в стационарных компьютерных системах или мобильных устройствах, уже не кажутся чем-то необычным. Технологии уже шагнули далеко вперед и дали возможность воспроизводить человеческий голос. Ниже мы рассмотрим, как это все работает, где используется речевой синтезатор, как выбирать подобное устройство, а также с какими потенциальными проблемами может столкнуться пользователь при приобретении такого устройства. Что же собой представляют речевые синтезаторы? Где они могут быть использованы? Синтезаторы речи представляют собой специальные программы, которые состоят из нескольких модулей. Данные программы позволяют переводить набранный на клавиатуре текст в обычную человеческую речь в виде звукового сопровождения. Наивно было бы полагать, что сопутствующие библиотеки содержат совершенно все слова или возможные фразы, которые записаны в студиях реальными людьми. Это невозможно просто на физическом уровне. Библиотеки фраз к тому же имели бы такой размер, что их просто нельзя было бы установить даже на современные жесткие диски большого объема, не говоря уже о мобильных устройствах. Кроме того была разработана технология, которая получила название Text-to-Speech,что в переводе означает «текст в речь». Синтезаторы речи получили наибольшее распространение в нескольких областях. К одной из таких областей можно отнести самостоятельное изучение иностранных языков, когда пользователю необходимо слышать правильное произношение слова. Также синтезаторы речи используются для прослушивания книг вместо чтения, создания локальных и речевых партий при записи музыки, для выдачи поисковых запросов в виде озвученных фраз или слов. Подобные устройства также могут использоваться людьми с ограниченными возможностями.

Синтезаторы речи: типы программ

Все синтезаторы речи в зависимости от области использования можно условно разделить на два основных типа: стандартные программы, которые используются для непосредственного преобразования речи в текст, и речевые или вокальные модули, которые применяются в музыкальных приложениях. Чтобы более подробно рассмотреть данный вопрос, мы рассмотрим оба класса программ, однако упор в большей степени все-таки будет сделан на синтезаторы речи в их непосредственном назначении.

Преимущества и недостатки простейших речевых приложений. Что касается преимуществ и недостатков программ данного типа, то для начала давайте рассмотрим недостатки. Прежде всего, стоит сказать, что компьютер это все-таки техническое устройство. На данном этапе развития он может весьма приблизительно синтезировать человеческую речь. Зачастую в простейших программах наблюдаются проблемы с постановкой ударений в словах, низкое качество звука. На мобильных устройствах обычно наблюдается повышенное энергопотребление. В некоторых случаях наблюдается также несанкционированная загрузка речевых модулей. Однако и преимуществ здесь также хватает. Многие лучше воспринимают звуковую информацию, а не визуальную. Так что, явным преимуществом является удобство восприятия. Как же правильно использовать синтезатор речи? Скажем еще немного об основных принципах использования такого типа программ. Во-первых, устанавливается синтезатор речи любого типа безо всяких проблем. В стационарных системах применяется стандартный инсталлятор, основной задачей которого будет выбор поддерживаемых языковых модулей. Для мобильных устройств можно скачать установочный файл из официального магазина или хранилища типа AppStore или Google Play.

После этого приложение будет установлено в автоматическом режиме. При первом запуске, как правило, никаких настроек, кроме выбора языка, используемого по умолчанию, выполнять не нужно. Однако в некоторых случаях программа может предложить выбрать качество звучания. Повсеместно применяется стандартный вариант с частотой дискретизации 4410 Гц, глубиной 16 бит и битрейтом 128 кбит/с. В мобильных устройствах аналогичные показатели немного ниже. За основу берется определенный голос. При использовании стандартного шаблона произношения путем использования эквалайзеров и фильтров можно достичь звучания именно такого тембра. При использовании можно выбрать несколько вариантов перевода текста: перевод текста в ручном режиме, озвучивание из файла уже имеющегося текста, интеграция в другие приложения с возможностью активации выдачи поисковых результатов или прочтения на страницах онлайн текстового содержимого. Здесь достаточно будет выбрать нужный вариант действий, голос и язык, на котором будет произноситься текст. У многих программ есть сразу несколько разновидностей голосов, как женских, так и мужских. Чтобы активировать процесс воспроизведения, можно использовать кнопку старта.

Если говорить о том, как отключить синтезатор речи, то здесь может быть несколько вариантов. В простейшем случае можно использовать в самой программе кнопку остановки воспроизведения. В том случае, если синтезатор интегрирован в браузер, деактивация осуществляется в настройках расширений путем полного удаления плагина. С мобильными устройствами, несмотря на непосредственное отключение, могут возникнуть некоторые проблемы, о которых речь пойдет далее. Так, например, ввод текста и настройки осуществляются более сложным путем. Рассмотрим приложение FLStudio. Тут имеется собственный речевой модуль, в котором можно выбрать несколько типов голосов, изменить скорость воспроизведения или настройки тональности. Чтобы поставить ударение, перед слогом необходимо использовать символ «_». Однако такой синтезатор подойдет только для создания роботизированных голосов. Пакет Vocaloid от компании Yamaha уже можно отнести к программам профессионального уровня. Здесь в наиболее полном объеме реализована технология Text-to-Speech.

Помимо стандартных параметров в настройках можно выставить глиссандо и артикуляцию. Также можно использовать библиотеки с вокалом профессиональных исполнителей, составлять отдельные слова и целые фразы, подгонять их под различные ноты, и еще много всего другого. Вовсе не удивительно, что с одним только вокалом данный программный пакет занимает более 4 Гб в установочном дистрибутиве. После его распаковки объем увеличивается еще в два-три раза.

В данном обзоре мы уделим внимание только простым приложениям. Рассмотрим самые популярные из них. По мнению большинства пользователей RH Voice является лучшим синтезатором речи. Эта российская разработка была создана Ольгой Яковлевой. В стандартном варианте программы доступно всего три голоса – Елена, Александр, Ирина. Настройка программы выполняется достаточно просто. Само по себе приложение может использоваться и как самостоятельная программа, совместимая с SAPi5,икак экранный модуль.

Еще одним интересным приложением является Acapеla. Его основной особенностью является практически идеальная озвучка текста более чем на 30 языках мира. В простой версии приложения доступен только один вариант голоса – Алена. Еще одно мощное приложение с женским голосом – Milena. Эта программа очень часто используется в call-центрах. Существует множество настроек постановки ударения, настройки громкости, скорости чтения, а также установки дополнительных словарей. Основное отличие данной программы состоит в том, что речевой движок должен встраиваться в программе наподобие Cool Reader, Full Screen Caller ID, Moon+ Reader Pro. Мощнейшей утилитой для синтеза и распознавания речи является программа Festival. Она предназначена для систем Mac OSX и Linux. Поставляется это приложение с открытым исходным кодом. Помимо стандартных языковых пакетов он обладает поддержкой финского языка и хинди. Еще одно речевое приложение – eSpeak. Оно поддерживает более 50 языков. Главный недостаток данной программы состоит в том, что файлы с синтезированной речью оно сохраняет исключительно в формате WAV. Данный формат, как известно, занимает очень много места. Данная программа является кроссплатформенной и может применяться даже в мобильных системах.

Google Android: проблемы с синтезатором речи

Пользователи при установке «родного» синтезатора речи от компании Google очень часто жалуются на то, что он самопроизвольно включает загрузку дополнительных языковых модулей. Это не только занимает длительный промежуток времени, но и серьезно расходует трафик. Избавиться от этой проблемы в системах Android очень просто. Для этого необходимо использовать меню настроек. Здесь переходим в раздел языка и голосового ввода. Тут нужно выбрать голосовой поиск на параметре распознавания речи в режиме оффлайн и нажать на крестик (отключение). Также рекомендуется дополнительно почистить кэш приложений и выполнить перезагрузку устройства. В некоторых случаях в самом приложении может потребоваться отключить показ уведомлений.

Что же получается в конечном итоге? Если подводить некий итог, то можно сказать, что рядовым пользователям подойдут самые простые программы. Лидером во многих рейтингах оказывается программа RHVoice.Однако для музыкантов, которым необходимо добиться естественного звучания голоса, чтобы не ощущалась разница между живым и компьютерным синтезом, лучше отдавать предпочтение программам типа Vocaloid.Для подобных программ сегодня выпускается множество дополнительных голосовых библиотек. Настройки данных приложений имеют столько возможностей, то примитивные приложения и рядом не стоят.