Форум программистов «Весельчак У»
  *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

  • Рекомендуем проверить настройки временной зоны в вашем профиле (страница "Внешний вид форума", пункт "Часовой пояс:").
  • У нас больше нет рассылок. Если вам приходят письма от наших бывших рассылок mail.ru и subscribe.ru, то знайте, что это не мы рассылаем.
   Начало  
Наши сайты
Помощь Поиск Календарь Почта Войти Регистрация  
 
Страниц: [1]   Вниз
  Печать  
Автор Тема: На сайте синтезатора речи эхо нет, а как использую программу эхо появляется  (Прочитано 30153 раз)
0 Пользователей и 1 Гость смотрят эту тему.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« : 21-04-2010 14:57 » 

Мои действия:
1. Допустим захожу на сайт:
http://www2.research.att.com/~ttsweb/tts/demo.php

2. Выбираю: Mike . . . . . . . US English

3. Ввожу текст
Look at this picture, picture number one.
This is a classroom.

4. Нажимаю на кнопку "SPEAK"

Всё прекрасно звучит.

Но когда я тоже самое делаю через программы: A1 SpeechTRON, ReadPlease PLUS, FlameReader, Говорилка

Появляется эхо.

Мои действия чтобы убрать эхо:
1. Пробовал отключать микрофон не помогло.
2. Искал в программах эффекты которые включены, их или не было или были отключены, то есть то же не в этом дело.

В чём же дело и как это поправить?

К сожалению я не могу использовать сайт, так как там только demo-режим, то есть определённое количество букв и их не так много, а потребности мои возросли.
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #1 : 21-04-2010 19:21 » 

С воспроизведением музыки/фильмов у тебя на этом компе таких проблем не наблюдается?
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #2 : 21-04-2010 19:41 » 

RXL, музыка и фильмы без проблем. Если качество HD, то звук бежит быстрее чем видео, но это из-за слабой видеокарты.
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #3 : 21-04-2010 19:45 » 

Посмотри в Панели управления Звуковые устройства и Речь - может там чего есть странное.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #4 : 21-04-2010 19:58 » 

RXL, посмотрел, ни чего странного вроде нет, аппаратное ускорение и частота дискретизации стоит на максимуме, и указано что это настольные стереодинамики, вроде всё как надо.
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #5 : 21-04-2010 20:02 » 

Остаются сами программы. Что-то не так они настраивают.
На всякий случай проверь микшер во время работы этих программ - не меняется ли чего, не включаются ли какие эффекты.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #6 : 21-04-2010 21:56 » 

RXL, Что я сделал:
1. Так как у меня стояли четыре разных программы синтезатора речи, то я оставил только одну программу, а именно "Говорилка 2.2 + голосовой движок для русского языка".
2. Я думал что Вы говорите о вкладке "Речь" которая находится в "Панель Управления->Звуки и аудиоустройства", а Вы говорили о "Панель Управления->Речь".
3. Проверил и оказалось много чего интересного, прикрепляю к посту файл со скриншотом.
3.1 При нажатии на кнопку "Проба голоса", голос читается с эхом.
3.2 В пункте "Выбор голоса" голос нельзя поменять и не меняется автоматически при работе программы синтезатора звука.

Мне кажется, что системные настройки "Речи" конфликтуют с настройками программы синтезатора речи, но как это поправить?

* Voice.JPG (33.82 Кб - загружено 1019 раз.)
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #7 : 22-04-2010 03:38 » 

2. И о том, и о другом.

3. Это MS Text to speech. Не знаю, используется ли его функционал в других синтезаторах речи. Но если и он с эхом, то думаю, что ты на верном пути.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #8 : 23-04-2010 13:24 » 

RXL, что ещё попытался сделать:
1. Установил Microsoft Speech SDK 5.1 для английского языка
2. Установил Speech control panel - специальная сервисная программа для управления установленными в системе движками синтеза речи

Что получилось, теперь я могу выбирать голоса такие:
1. Microsoft Mary
2. Microsoft Mike
3. Microsoft Sam
4. Sample TTS Voice

Но они тоже все с эхом, Выбор голоса можно увидеть на скриншоте 1.jpg
Также появилась возможность просматривать установленные голосовые движки их можно увидеть на скриншоте 2.jpg и 3.jpg

Хочу немного уточнить звук скорее похож не на эхо, а какой то вибрирующий звук.

* 1.JPG (38.43 Кб - загружено 1099 раз.)
* 2.JPG (24.55 Кб - загружено 1009 раз.)
* 3.JPG (26.68 Кб - загружено 1006 раз.)
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #9 : 23-04-2010 20:04 » 

zuze, можешь приложить семпл? Лучше в сжатом формате.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #10 : 23-04-2010 20:25 » 

RXL, я не совсем понял что значит в жатом формате, но прилагаю семпл размером 16,9 КБ в формате mp3.

* voice_test.mp3 (16.94 Кб - загружено 1399 раз.)
Записан
Sla
Команда клуба

ua
Offline Offline
Пол: Мужской

WWW
« Ответ #11 : 23-04-2010 20:28 » 

zuze, это что-то у тебя с кодеками
при сжатии появляется эхо, при проигрывании wav эха нет.
Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #12 : 23-04-2010 20:32 » 

Sla, не понял Вас? Вы имеете ввиду, то что если мой mp3 конвертировать в wav и прослушать то эхо пропадает?
Записан
Sla
Команда клуба

ua
Offline Offline
Пол: Мужской

WWW
« Ответ #13 : 23-04-2010 20:45 » 

Тебе звук генерируют твои программы?

Как себя ведет встроенная в винду говорилка?
Записан

Мы все учились понемногу... Чему-нибудь и как-нибудь.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #14 : 23-04-2010 20:51 » 

Sla
1. Запись которая я записал была сделана возможностями самой программы Говорилка 2.2, как звучит так и записалась, то есть эхо везде.
2. Если выбрать "Панель управления->Речь->Преобразования текста в речь" и если нажать на кнопку "проба голоса", то стандартная фраза которая там введена будет звучать с эхом и если её заменить на мой текст он тоже будет звучать с эхом.
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #15 : 24-04-2010 08:57 » 

IMHO, дело в самом синтезаторе речи. Я загрузил семпл в SoundForge и понаблюдал за ним с разными скоростями и под увеличением: начало каждой фразы более-менее чистое (особенно чисто вышло "picture" в первой фразе), а потом картина портится. В испорченных согласных слишком мало шумовой составляющей. Похожая картина возникает после обработки звука спектральным шумодавом, который сильно снижает естественные шумы речи и делает ее булькающей.

Синтезатор - Г.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #16 : 24-04-2010 09:05 » 

RXL, и откуда этот спектральный шумодав взялся я его не устонавливал и как от него избавится?
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #17 : 24-04-2010 09:26 » 

zuze, думаю, что это недостатки самого синтезатора речи. Попробуй три фразы, приведенные в семпле, проиграть по отдельности - думаю, что они будут звучать нормально.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #18 : 24-04-2010 09:52 » 

RXL, не помогло, прикладываю семплы этих фраз.


* 1.mp3 (33.1 Кб - загружено 1734 раз.)
* 2.mp3 (31.88 Кб - загружено 1751 раз.)
* 3.mp3 (33.1 Кб - загружено 1677 раз.)
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #19 : 24-04-2010 11:20 » 

Да, картина совершенно не меняется: звучит один в один с семплом в посте 10.

Насколько помню старые эксперименты друга с MS speech to text, звучание тоже было хреновое. Т.ч. склоняюсь к утверждению, что этот движок хреновый.

Для очистки совести могу предложить попробовать тот же софт на другой машине.

Пока знаю только один алгоритм, рассчитанный на речь и показывающий на практике хороший результат - кодек GSM. Но он не использует разбиение на звуки, а лишь на произвольные, выбранные кодеком фрагменты в сигнале. Кодек разделяет сигнал на тон и шум, определяет его спектральные и амплитудные характеристики и записывает все в виде коэффициентов для синтеза звука декодером. Вполне возможно, что синтезаторы речи используют аналогичный принцип сжатия, но вот обратное составление слов из звуков у них получается плохо.
« Последнее редактирование: 24-04-2010 11:27 от RXL » Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #20 : 24-04-2010 11:26 » 

RXL, а может Вы сможете тогда предложить свой вариант движка и программы, что бы работала также хорошо как и на сайте
http://www2.research.att.com/~ttsweb/tts/demo.php
Ведь я пробовал не только эту программу, но и ряд других коммерческих программ в которых тоже уже были встроены движки и везде такой ужас.
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #21 : 24-04-2010 11:32 » 

Конечно не могу - я не эксперт в данной области. Улыбаюсь
Задача весьма сложна - иначе бы качественные синтезаторы речи давно уже были встроены в ту же винду.

На сайте AT&T, как я понимаю, лишь демка коммерческого движка. Логично: если задача настолько сложна, то бесплатно это не отдадут.
Кстати, кроме Crystal остальные варианты булькают и звучат не намного лучше движка MS.

За неимением подтвержденных качественных примеров, считаю, что практически все случаи использования в программах более-менее качественной машинной речи сводятся к склеиванию готовых семплированных слов и фраз.
« Последнее редактирование: 24-04-2010 11:36 от RXL » Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #22 : 24-04-2010 11:37 » 

RXL, понятно. Большое спасибо за помощь. Я проверю на другом компьютере, как проверю так отпишусь здесь.
Записан
zuze
Опытный

ru
Offline Offline
Пол: Мужской
Россия, Москва


« Ответ #23 : 24-04-2010 13:54 » 

RXL, от эхо избавился. Установил дополнительный голосовой движок Nuance RealSpeak Daniel British English Male 22khz.
Прилагаю семпл как теперь звучит.

Что касается движка AT&T Natural Voices Engine к сожалению он поддерживает только американский английский язык.

* voice.mp3 (76.37 Кб - загружено 1916 раз.)
Записан
RXL
Технический
Администратор

ru
Offline Offline
Пол: Мужской

WWW
« Ответ #24 : 24-04-2010 19:21 » new

Получше.
Записан

... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
Страниц: [1]   Вверх
  Печать  
 

Powered by SMF 1.1.21 | SMF © 2015, Simple Machines