Технологія MPEG-4

Завдяки інтерфейсу MPEG-4 для мовного відтворення тексту стало можливим використання анімованих зображень обличчя для дублювання або синтезу людського голосу в реальному часі.Генерація образу обличчя може робитися як на етапі декодування так і з використанням заздалегідь заготовлених шаблонів. У якості каркаса такої моделі може використовуватися довільна тривимірна поверхня або навіть фотознімок людини.

За допомогою спеціальних команд можна управляти окремими фрагментами зображення (губами, очима і т.п.), примушуючи їх рухатися синхронізовано з розмовою. Засоби для моделювання всього людського тіла будуть розроблені в другій версії MPEG-4.

Живий або електронний?

Біля десяти років тому, коли Moving Picture Expert Group тільки починала свої дослідження, аудіоінформація вважалася другорядною і нерозривно зв'язаною з відео. Сьогодні значення і якість відтворення аудіо нітрохи не поступаються відео.

Інструментарій MPEG-4 містить засоби для ефективної архівації звукової інформації різної якості: від 6 kb/s до 128 kb/s. Цей діапазон охоплює усі види сигналів, починаючи від моно і закінчуючи високоякісним стереозвучанням без яких-небудь чутних дефектів. Безсумнівно, якість CD-звучання продовжує залишатися еталоном, однак його вимоги перевищують описані вище в десятки разів - 1411 kb/s.

Для запису високоякісної звукової інформації використовується спеціальний алгоритм кодування (advanced audio coding - AAC), розроблений ще в часи MPEG-2. Ефективність кодування таким алгоритмом значно перевершує навіть формат mp3 - дуже популярний останнім часом звуковий формат.

Кодування мовлення здійснюється двома спеціально розробленими для цього алгоритмами. Перший параметричний кодувач оброблює дані в режимі 2-4 kb/s або навіть меншому. Другий, заснований на технології CELP (code exciter linear prediction), призначений для роботи в режимі 4-24 kb/s. Останній здатний кодувати діапазон частот від 8 до 16 kHz (діапазон, що покриває діапазон людського голосу).

Комбіноване використання різних прийомів MPEG-4 дозволяє навіть на основі записаного тексту генерувати відповідні рухи моделі людського обличчя, про яке ми говорили раніше. Більш того, при відтворенні мовлення за допомогою спеціальних параметрів можна додавати їй певний емоційний відтінок, регулювати швидкість відтворення. Максимально реальної вимови можна домогтися шляхом зміни вікових параметрів, завдання статі і навіть акценту.

Свій власний інструмент!

MPEG-4 належить багато відкриттів в області "структурованого" аудіо. До їхнього числа можна віднести метод кодування звукової інформації при найнижчих швидкостях передачі. Ідея була запозичена в Медіа Лабораторії Массачусетського Технологічного Інституту, що займалася розробкою популярної мови звукового синтезу Csound. На відміну від інших подібних засобів звукового синтезу, "структуроване" аудіо є форматом для опису методики синтезу.

Принцип синтезу звука в "структурованому" аудіо у використанні великої кількість так званих "елементів обробки сигналів": осциляторів, цифрових фільтрів і ін., набори яких використовуються для генерації певних звуків. Кожний такий набір, що задає певний звук (будь то ревіння слона або сигнал тривоги), називається інструментом.

Описана методика лежить в основі синтезу електронної музики. Для обробки і керування електронними інструментами, як правило, використовується одна з мов: мова генерації структурованого оркестрового аудіо (SAOL) або мова партитури структурованого аудіо (SASL). За допомогою такої мови досвідчений програміст-композитор може генерувати практично будь-які звуки від звучання музичних інструментів до шуму водоспаду.

Істотною перевагою такого підходу є гарантована ідентичність результату при відтворенні навіть на терміналах із різними фізичними параметрами устаткування.

На сьогоднішній день ситезатори звучання вже досить популярні. Особливо широко використовується так званий інтерфейс синтезу музичних інструментів (musical instrument digital interface - MIDI) незважаючи на досить обмежені його можливості. З його допомогою також можна управляти відтворенням аудіо в MPEG-4. У багатьох звукових адаптерах для персональних комп'ютерів для синтезу використовується технологія Wavetable.

1 2 3 4 5

Реферати!

У нас ви зможете знайти і ознайомитися з рефератами на будь-яку тему.

Не знайшли потрібний реферат ?

Замовте написання реферату на потрібну Вам тему

Замовити реферат