Просмотр полной версии : Создание своего голосового сопровожнения
Создание своего голосового сопровожнения т.е. другую тётю Машу записать иль прикольные фразы вместо существующих.
И в чем вопрос? Можно ли это сделать? Блок нави какой?
если это вопрос - то можно
если это вопрос - то можноно ведь не во всех блоках... :shock:
Да это вопрос.
Блок: NAVI03 E65 05.2006г.
Чем каптурить и редактировать нет вопросов.
Чем компресовать?
Где взять кодек?. Знаю что енто Philips MPEG-4 CELP Wideband Speech - применяется в телефонии для компресии голоса и при распозновании речи.
Пока не нашел.
Вот немного теории:
MPEG-4 аудио предлагает широкий перечень приложений, которые покрывают область от понятной речи до высококачественного многоканального аудио, и от естественных до синтетических звуков. В частности, он поддерживает высокоэффективную презентацию аудио объектов, состоящих из:
* Речь: Кодирование речи может производиться при скоростях обмена от 2 кбит/с до 24 кбит/с. Низкие скорости передачи, такие как 1.2 кбит/с, также возможны, когда разрешена переменная скорость кодирования. Для коммуникационных приложений возможны малые задержки. Когда используются средства HVXC, скорость и высота тона могут модифицироваться пользователем при воспроизведении. Если используются средства CELP, изменение скорости воспроизведения может быть реализовано с помощью дополнительного средства.
* Синтезированная речь: TTS-кодировщики с масштабируемой скоростью в диапазоне от 200 бит/с до 1.2 кбит/с которые позволяют использовать текст или текст с интонационными параметрами (вариация тона, длительность фонемы, и т.д.), в качестве входных данных для генерации синтетической речи. Это включает следующие функции.
* Синтез речи с использованием интонации оригинальной речи
* Управление синхронизацией губ и фонемной информации.
* Трюковые возможности: пауза, возобновление, переход вперед/назад.
* Международный язык и поддержка диалектов для текста (т.е. можно сигнализировать в двоичном потоке, какой язык и диалект следует использовать)
* Поддержка интернациональных символов для фонем.
* Поддержка спецификации возраста, пола, темпа речи говорящего.
* Поддержка передачи меток анимационных параметров лица FAP (facial animation parameter).
* Общие аудио сигналы. Поддержка общей кодировки аудио потоков от низких скоростей до высококачественных. Рабочий диапазон начинается от 6 кбит/с при полосе ниже 4 кГц и распространяется до широковещательного качества передачи звукового сигнала для моно и многоканальных приложений.
* Синтезированный звук: Поддержка синтезированного звука осуществляется декодером структурированного звука (Structured Audio Decoder), который позволяет использовать управление музыкальными инструментами с привлечением специального языка описания.
* Синтетический звук с ограниченной сложностью: Реализуется структурируемым аудио декодером, который позволяет работать со стандартными волновыми форматами.
Примерами дополнительной функциональности является возможность управления скоростью обмена и масштабируемость в отношении потоков данных, полосы пропускания, вероятности ошибок, сложности, и т.д. как это определено ниже.
* Возможность работы при изменении скорости передачи допускает изменение временного масштаба без изменения шага при выполнении процесса декодирования. Это может быть, например, использовано для реализации функции "быстро вперед" (поиск в базе данных) или для адаптации длины аудио-последовательности до заданного значения, и т.д.
* Функция изменения шага позволяет варьировать шаг без изменения временного масштаба в процессе кодирования или декодирования. Это может быть использовано, например, для изменения голоса или для приложений типа караоке. Эта техника используется в методиках параметрического и структурированного кодирования звука.
* Изменение скорости передачи допускает анализ потока данных с разбивкой на субпотоки меньшей скорости, которые могут быть декодированы в осмысленный сигнал. Анализ потока данных может осуществляться при передаче или в декодере.
* Масштабируемость полосы пропускания является частным случаем масштабируемости скорости передачи данных, когда часть потока данных, представляющая часть частотного спектра может быть отброшена при передаче или декодировании.
* Масштабируемость сложности кодировщика позволяет кодировщикам различной сложности генерировать корректные и осмысленные потоки данных.
* Масштабируемость сложности декодера позволяет заданную скорость потока данных дешифровать посредством декодеров с различным уровнем сложности. Качество звука, вообще говоря, связано со сложностью используемого кодировщика и декодера.
* Аудио эффекты предоставляют возможность обрабатывать декодированные аудио сигналы с полной точностью таймирования с целью достижения эффектов смешения, реверберации, создания объемного звучания, и т.д.
Тетя Таня иль как ее еще да и дяди в файлах _m.csf явно синтезированы.
В папках \V_2\language\0101 и \v_2\language\0105 хранятся файлы *.tsf как я понимаю отвечающие за распознование речи для системы голосового управления радио, нави и телефона и кажется TV/CD/DVD.
Так вот енти файлы хранят треки созданные впаре CoolEdit96 и кодека Philips MPEG-4 CELP Wideband Speech:
>> Philips MPEG-4 CELP Wideband Speech << Input file : CoolEdit96 Output file : .\temp\al10.mp4
Сам файл *.tsf чем скомпанован (какой прогой)? Знаю, что енти файлы как база данных для синтеза сравнения голосовой команды.
В самом начале файла *.tsf есть строка: CSF OKI MSM6585.
Вот ссылка где описывается спецификация синтезатора http://www.datasheet4u.com/html/M/S/M/MSM6585_OKIelectroniccomponets.pdf.html
Короче по далее по теме вопроса:
1.Чем компресовать
2.Чем создать базу трэков(если можно так назвать) файла *.csf. Какая прога?
Хочется слышать живой голос ("Родной тещи")
Я пока в поисках
файлы *.csf можно посмотреть и отредактировать заменой другими wav-файлами прогой Navspeak, ей же и сохранить можно - записываешь "тещу" в wav-формате, меняешь звуковые "блоки" (если их можно так назвать - там фразы "собираются" из нескольких фраз, которые можно менять), сохраняешь и.... "родная теща" сопровождает прямо до блинов
Справедливости ради замечу, что уверенности, что это сработает на NAVI03 нет (у меня ибо нет опыта общения с этими блоками)
У меня Navspeak V1.1 он умеет только открыть файл, панипулировать трэками(блоками)
проиграть фразы(предложения), сохранить проект и сохранить файл. И всё!
Ни какого намека на вставку(импорта) *.wav файла нет.
Должно быть есть Navspeak выше версии, я пока не надыбал.
Если есть ссылка плиз!!! И тогда вопрос изчерпан.
Я так думаю и кодер в вышей версии зашит раз пихать можно *.wav - это ж формат без компресии!
точно не помню, по-моему нужно нажать правую кнопку на фразе и там должен быть Импорт
Еще два вопроса
1. Количество фраз(предложений) в фале *.csf должно быть фиксированым числом?
все файлы содержат 1029 фраз(предложений) в то время как файл с руским языком
содержит 1223 фразы.
2. Что значат енти значения:
Постоянная: "Database Format: (MK3,MK4 systems)" - а че ничего про NAVI01-03?
Переменная: Language Code: - для чего она нах. нужна если мы все равно делаем манипуляции с переименовкой файлов. Для синтеза я думаю енто повиг.
Переменная: "Flags" какие значения для каких языков?
Кликал и так ентак - закликался не хочет
А зачем нужен "USE ALIASE" в нижнем левом углу.
А че кроме ентой проги не че в мире не существует?
Ковырял инет пока что не подалось может кто че подскажет(укажет)?
Спасибо,Scuba! Нашел где вставку *.wav производить надо.
Кроме этой проги я больше ничего не видел для работы с этими файлами
vBulletin® v3.8.6, Copyright ©2000-2012, Jelsoft Enterprises Ltd. Перевод: zCarot