zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« : 21-04-2010 14:57 » |
|
Мои действия:1. Допустим захожу на сайт: http://www2.research.att.com/~ttsweb/tts/demo.php 2. Выбираю: Mike . . . . . . . US English 3. Ввожу текст Look at this picture, picture number one. This is a classroom. 4. Нажимаю на кнопку "SPEAK" Всё прекрасно звучит. Но когда я тоже самое делаю через программы: A1 SpeechTRON, ReadPlease PLUS, FlameReader, Говорилка Появляется эхо. Мои действия чтобы убрать эхо:1. Пробовал отключать микрофон не помогло. 2. Искал в программах эффекты которые включены, их или не было или были отключены, то есть то же не в этом дело. В чём же дело и как это поправить?К сожалению я не могу использовать сайт, так как там только demo-режим, то есть определённое количество букв и их не так много, а потребности мои возросли.
|
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #1 : 21-04-2010 19:21 » |
|
С воспроизведением музыки/фильмов у тебя на этом компе таких проблем не наблюдается?
|
|
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #2 : 21-04-2010 19:41 » |
|
RXL, музыка и фильмы без проблем. Если качество HD, то звук бежит быстрее чем видео, но это из-за слабой видеокарты.
|
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #3 : 21-04-2010 19:45 » |
|
Посмотри в Панели управления Звуковые устройства и Речь - может там чего есть странное.
|
|
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #4 : 21-04-2010 19:58 » |
|
RXL, посмотрел, ни чего странного вроде нет, аппаратное ускорение и частота дискретизации стоит на максимуме, и указано что это настольные стереодинамики, вроде всё как надо.
|
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #5 : 21-04-2010 20:02 » |
|
Остаются сами программы. Что-то не так они настраивают. На всякий случай проверь микшер во время работы этих программ - не меняется ли чего, не включаются ли какие эффекты.
|
|
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #6 : 21-04-2010 21:56 » |
|
RXL, Что я сделал: 1. Так как у меня стояли четыре разных программы синтезатора речи, то я оставил только одну программу, а именно "Говорилка 2.2 + голосовой движок для русского языка". 2. Я думал что Вы говорите о вкладке "Речь" которая находится в "Панель Управления->Звуки и аудиоустройства", а Вы говорили о "Панель Управления->Речь". 3. Проверил и оказалось много чего интересного, прикрепляю к посту файл со скриншотом. 3.1 При нажатии на кнопку "Проба голоса", голос читается с эхом. 3.2 В пункте "Выбор голоса" голос нельзя поменять и не меняется автоматически при работе программы синтезатора звука.
Мне кажется, что системные настройки "Речи" конфликтуют с настройками программы синтезатора речи, но как это поправить?
|
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #7 : 22-04-2010 03:38 » |
|
2. И о том, и о другом.
3. Это MS Text to speech. Не знаю, используется ли его функционал в других синтезаторах речи. Но если и он с эхом, то думаю, что ты на верном пути.
|
|
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #8 : 23-04-2010 13:24 » |
|
RXL, что ещё попытался сделать: 1. Установил Microsoft Speech SDK 5.1 для английского языка 2. Установил Speech control panel - специальная сервисная программа для управления установленными в системе движками синтеза речи
Что получилось, теперь я могу выбирать голоса такие: 1. Microsoft Mary 2. Microsoft Mike 3. Microsoft Sam 4. Sample TTS Voice
Но они тоже все с эхом, Выбор голоса можно увидеть на скриншоте 1.jpg Также появилась возможность просматривать установленные голосовые движки их можно увидеть на скриншоте 2.jpg и 3.jpg
Хочу немного уточнить звук скорее похож не на эхо, а какой то вибрирующий звук.
|
1.JPG (38.43 Кб - загружено 1178 раз.)
2.JPG (24.55 Кб - загружено 1093 раз.)
3.JPG (26.68 Кб - загружено 1070 раз.)
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #9 : 23-04-2010 20:04 » |
|
zuze, можешь приложить семпл? Лучше в сжатом формате.
|
|
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #10 : 23-04-2010 20:25 » |
|
RXL, я не совсем понял что значит в жатом формате, но прилагаю семпл размером 16,9 КБ в формате mp3.
|
|
|
Записан
|
|
|
|
Sla
|
|
« Ответ #11 : 23-04-2010 20:28 » |
|
zuze, это что-то у тебя с кодеками при сжатии появляется эхо, при проигрывании wav эха нет.
|
|
|
Записан
|
Мы все учились понемногу... Чему-нибудь и как-нибудь.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #12 : 23-04-2010 20:32 » |
|
Sla, не понял Вас? Вы имеете ввиду, то что если мой mp3 конвертировать в wav и прослушать то эхо пропадает?
|
|
|
Записан
|
|
|
|
Sla
|
|
« Ответ #13 : 23-04-2010 20:45 » |
|
Тебе звук генерируют твои программы?
Как себя ведет встроенная в винду говорилка?
|
|
|
Записан
|
Мы все учились понемногу... Чему-нибудь и как-нибудь.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #14 : 23-04-2010 20:51 » |
|
Sla 1. Запись которая я записал была сделана возможностями самой программы Говорилка 2.2, как звучит так и записалась, то есть эхо везде. 2. Если выбрать "Панель управления->Речь->Преобразования текста в речь" и если нажать на кнопку "проба голоса", то стандартная фраза которая там введена будет звучать с эхом и если её заменить на мой текст он тоже будет звучать с эхом.
|
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #15 : 24-04-2010 08:57 » |
|
IMHO, дело в самом синтезаторе речи. Я загрузил семпл в SoundForge и понаблюдал за ним с разными скоростями и под увеличением: начало каждой фразы более-менее чистое (особенно чисто вышло "picture" в первой фразе), а потом картина портится. В испорченных согласных слишком мало шумовой составляющей. Похожая картина возникает после обработки звука спектральным шумодавом, который сильно снижает естественные шумы речи и делает ее булькающей.
Синтезатор - Г.
|
|
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #16 : 24-04-2010 09:05 » |
|
RXL, и откуда этот спектральный шумодав взялся я его не устонавливал и как от него избавится?
|
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #17 : 24-04-2010 09:26 » |
|
zuze, думаю, что это недостатки самого синтезатора речи. Попробуй три фразы, приведенные в семпле, проиграть по отдельности - думаю, что они будут звучать нормально.
|
|
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #18 : 24-04-2010 09:52 » |
|
RXL, не помогло, прикладываю семплы этих фраз.
|
1.mp3 (33.1 Кб - загружено 1812 раз.)
2.mp3 (31.88 Кб - загружено 1818 раз.)
3.mp3 (33.1 Кб - загружено 1751 раз.)
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #19 : 24-04-2010 11:20 » |
|
Да, картина совершенно не меняется: звучит один в один с семплом в посте 10.
Насколько помню старые эксперименты друга с MS speech to text, звучание тоже было хреновое. Т.ч. склоняюсь к утверждению, что этот движок хреновый.
Для очистки совести могу предложить попробовать тот же софт на другой машине.
Пока знаю только один алгоритм, рассчитанный на речь и показывающий на практике хороший результат - кодек GSM. Но он не использует разбиение на звуки, а лишь на произвольные, выбранные кодеком фрагменты в сигнале. Кодек разделяет сигнал на тон и шум, определяет его спектральные и амплитудные характеристики и записывает все в виде коэффициентов для синтеза звука декодером. Вполне возможно, что синтезаторы речи используют аналогичный принцип сжатия, но вот обратное составление слов из звуков у них получается плохо.
|
|
« Последнее редактирование: 24-04-2010 11:27 от RXL »
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #20 : 24-04-2010 11:26 » |
|
RXL, а может Вы сможете тогда предложить свой вариант движка и программы, что бы работала также хорошо как и на сайте http://www2.research.att.com/~ttsweb/tts/demo.phpВедь я пробовал не только эту программу, но и ряд других коммерческих программ в которых тоже уже были встроены движки и везде такой ужас.
|
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #21 : 24-04-2010 11:32 » |
|
Конечно не могу - я не эксперт в данной области. Задача весьма сложна - иначе бы качественные синтезаторы речи давно уже были встроены в ту же винду. На сайте AT&T, как я понимаю, лишь демка коммерческого движка. Логично: если задача настолько сложна, то бесплатно это не отдадут. Кстати, кроме Crystal остальные варианты булькают и звучат не намного лучше движка MS. За неимением подтвержденных качественных примеров, считаю, что практически все случаи использования в программах более-менее качественной машинной речи сводятся к склеиванию готовых семплированных слов и фраз.
|
|
« Последнее редактирование: 24-04-2010 11:36 от RXL »
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #22 : 24-04-2010 11:37 » |
|
RXL, понятно. Большое спасибо за помощь. Я проверю на другом компьютере, как проверю так отпишусь здесь.
|
|
|
Записан
|
|
|
|
zuze
Опытный
Offline
Пол:
Россия, Москва
|
|
« Ответ #23 : 24-04-2010 13:54 » |
|
RXL, от эхо избавился. Установил дополнительный голосовой движок Nuance RealSpeak Daniel British English Male 22khz. Прилагаю семпл как теперь звучит.
Что касается движка AT&T Natural Voices Engine к сожалению он поддерживает только американский английский язык.
|
|
|
Записан
|
|
|
|
RXL
Технический
Администратор
Offline
Пол:
|
|
« Ответ #24 : 24-04-2010 19:21 » |
|
Получше.
|
|
|
Записан
|
... мы преодолеваем эту трудность без синтеза распределенных прототипов. (с) Жуков М.С.
|
|
|
|