Surround — объемный звук. Что такое объёмный звук (surround sound)

06.07.2019

Surround - объемный звук

С тех пор, как существует звукозапись, и слушатели, и конструкторы аппаратуры испытывают неистребимое желание сделать звук, записанный и затем воспроизведенный, в максимальной степени похожим на оригинал. Чего только не делают разработчики аудиотехники для того, чтобы приблизиться к идеалу: сражаются с шумом, минимизируют искажения, расширяют частотный и динамический диапазоны элементов тракта записи-передачи-воспроизведения звукового сигнала. А кроме всего прочего они стремятся заставить звуковое поле, создаваемое акустическими системами, передавать слушателю информацию о направлении на источники звуков и об акустических свойствах того помещения, в котором производилась запись.

На первом этапе своего развития звукозапись и радиовещание были монофоническими. Звук, раздающийся из динамика, до неузнаваемости отличался от живого звука концертного зала: искаженный баланс между различными музыкальными инструментами, искаженный тембр и, главное, полностью утраченная пространственность. Это очень серьезный недостаток. Ведь слуховой анализатор человека обладает способностью к пеленгации источников звука, что помогает нам ориентироваться в пространстве. Если же все звуки исходят из одной точки - это кажется противоестественным.

Немного истории

Первые эксперименты по получению объемного звучания (с помощью трех - семи каналов) проводились еще в 30-е годы прошлого века. Сравнительные испытания многоканальных и монофонических систем дали удивительные результаты. Было установлено, что при воспроизведении даже 2-х раздельных каналов субъективное качество звука резко улучшается. А самое поразительное заключается в том, что эксперты предпочитали стереозвук даже в тех случаях, когда им предъявляли объективно более качественные, но монофонические фонограммы. Решающим преимуществом стала возможность пространственной локализации кажущихся источников звука (рис. 1.33).

Рис. 1.33. Распределение кажущихся источников звука на стереопанораме:

На начальном этапе разработчики решили ограничиться двумя каналами. Это, конечно, в первую очередь было обусловлено небогатыми возможностями аппаратуры тех времен: грампластинки реально позволяли разместить только два полноценных канала.

Стереозвук дает некоторую прозрачность звучания: партии отдельных инструментов становятся более различимыми на фоне оркестра. Кроме того, стереосистема способна воспроизвести подобие звуковой атмосферы помещения, в котором выполнялась запись. Началась эра 2-канальных стереофонических систем. Постепенно появились стереофонические грампластинки и стереопроигрыватели, стереомагнитофоны, стереофоническое радиовещание.

В свою очередь стереозвучание имеет существенный недостаток. Стереопанорама ограничена углом между направлениями на громкоговорители и получается плоской. Такое звучание лишено естественности реального звукового поля, когда человек способен воспринимать реальные источники практически со всех направлений и оценивать расстояние до источников звука. Создающееся у слушателя ощущение объемного звучания могло бы существенно обогатить тембры музыкальных инструментов и голосов певцов. При этом можно было бы имитировать реверберационный процесс, свойственный помещению, в котором произведена запись.

Одной из первых попыток преодоления недостатков, присущих стереофоническим системам, стала квадрофония. Для воспроизведения квадрофонических фонограмм используются 4 акустические системы (рис. 1.34).

Первые бытовые квадросистемы появились в начале 70-годов прошлого века. Казалось, что их ждет славное будущее. Однако этого не произошло. Причин тому есть несколько. Одна из них традиционна для многих новинок техники и заключается в том, что производители квадрофонической аппаратуры так и не смогли прийти к единому стандарту записи и воспроизведения 4-канального звука. Свою роль сыграли несовершенство и большая стоимость приборов четырехканальной записи-воспроизведения. Но главное заключается в другом: с переходом от "стерео" к "квадро" в те времена новое качество звука не возникло. Квадрофонические системы, так же как и стереофонические, не обеспечивали полной передачи свойств реального звукового поля. Недостатков было только два, но они существенны:

при квадрофонии 70-годов прошлого века не получалась круговая стереопанорама - слушатель ощущал обычную стереопанораму перед собой и еще одну стереопанораму сзади себя;
все мнимые источники звука располагались в одной плоскости на линиях между динамиками, поэтому объемного трехмерного звучания по-прежнему не было.

Следует заметить, что эти недостатки обусловлены не столько ограниченными возможностями четырехканального воспроизведения звука, сколько трудностями реализации панорамирования кажущихся источников звука при записи. При подготовке фонограмм для современных многоканальных систем этот фактор учитывается. Важную роль при этом играет именно компьютер, способный справиться с моделированием объемных реверберационных процессов и предоставляющий звукорежиссеру удобные регуляторы для перемещения источников звука по круговой панораме.

Рис. 1.34. Распределение кажущихся источников звука на квадропанораме:

Но в те далекие времена квадрофония отступила, а стереофония победила и стала развиваться по линии миниатюризации аппаратуры, улучшения ее технических и потребительских качеств, перехода к новым носителям - компакт-кассетам и компакт-дискам. Перед звукозаписывающими компаниями и производителями аудиоаппаратуры все еще существовал широчайший фронт работ и емкий рынок сбыта. В который раз они предлагали слушателям смену фонотек. Накопленный на грампластинках за предшествующие десятилетия музыкальный материал, обновленный и адаптированный сначала под монофонические катушечные магнитофоны, затем реализованный на компакт-кассетах в стереоформате, в очередной раз предлагался меломанам, но теперь уже на лазерных дисках.

Однако в самом конце XX века стереофония, кажется, все-таки начала сдавать свои позиции. Цифровые технологии записи звука, а также емкие, удобные и дешевые носители сняли ранее существовавшую проблему хранения многоканальных фонограмм большой длительности. Кроме того, в звуке, передающем акустические свойства окружающего пространства, появилась острая потребность. Виртуальные графические миры компьютерных игр становятся все более сложными и похожими на реальность, а значит, требуют и адекватного звукового оформления. Кинематограф, переживший кризис в состязании с телевидением, возродился в виде домашних кинотеатров и кинозалов нового формата, основное отличие которых от предшественников кроется не в изображении, а в принципиально новом звуке (хотя и качество изображения тоже улучшилось, благодаря DVD и современным проекционным средствам).

Новая эра в звукозаписи началась в результате исследований, выполненных инженерами Dolby Laboratories (http://dolby.com). Это был принципиально новый подход к передаче многоканального звука. Отличие от традиционного способа заключалось, прежде всего, в том, что для хранения аудиосигналов двух дополнительных каналов использовалось матричное кодирование, т. е. их подмешивание к основным двум каналам. Изменился и способ размещения акустических систем - дополнительно к традиционному для квадрофонии расположению акустических систем по углам помещения добавлен центральный канал, размещенный между правым и левым фронтальными каналами, чтобы сохранить широкую стереобазу для зрителей, сидящих на боковых местах, а за спинами размещен канал эффектов (Surround). Так появилась система нового кинотеатрального звучания Dolby ® Stereo.

Как вы уже знаете, этот четырехканальный формат является матричным форматом, при котором звук, предназначенный для каждого из четырех каналов, кодируется и записывается на два канала, а при воспроизведении декодируется вновь в четыре канала: левый, центральный, правый и задний. Сигнал заднего канала, как правило, направляется на две тыловые акустические системы одновременно. Впервые формат Dolby ® Stereo был применен в фильме "Star Wars" в 1975 году.

Используемая технология кодирования не позволяла обеспечить разделение между каналами более 8 дБ. Позже она была изменена, и разделение между каналами достигло 15 дБ, но частотный диапазон заднего канала остался ограниченным в диапазоне 100 Гц - 7 кГц.

Рис. 1.35. Размещение излучателей звука в системе Dolby ® Stereo:

Системой воспроизведения совершенно нового качества, совместимой со старым стандартом звукозаписи, стала система Dolby ® Pro Logic ®. В ней был применен декодер, реализующий пространственную фокусировку звуковых образов - технологию, используемую для снижения взаимного проникновения сигналов одного канала в другой. В Dolby ® Pro Logic ® также появилась возможность создавать задержку звукового сигнала в тыловом канале. Тем самым было обеспечено согласование геометрических и акустических характеристик конкретного помещения с характеристиками "эталонного кинозала", под который при производстве сводился мультитрековый звук. Очень важно, что к настоящему времени накоплено огромное количество музыки, фильмов, телепрограмм, записанных на различных современных носителях со звуком в формате Dolby ® Pro Logic ®. А потом наступила эпоха цифрового кодирования и цифровой записи многоканального объемного звука, и появилась система Dolby ® Digital. Для кодирования цифрового звука в ней используется алгоритм, называемый АС-3 (Dolby"s third generation audio coding algorithm - алгоритм кодирования звука Dolby третьего поколения). АС-3 представляет собой алгоритм компрессии многоканального звука (количество независимых каналов от 1 до 6) с потерями. Достижения в области психоакустики, учитывающие особенности человеческого слухового аппарата, используются в нем для принятия решения о том, какую часть информации в аудиосигнале можно отбросить, чтобы это было не очень заметно для человеческого уха. При кодировании алгоритмом АС-3 могут использоваться битрейты от 32 Кбит/с (для одного монофонического канала с минимальным качеством) до 640 Кбит/с (для каналов 5.1 с минимальными потерями качества). Типичный битрейт для 5.1 записей составляет 385 Кбит/с.

Кодер Dolby® Digital поддерживает частоты дискретизации цифровых данных 32 кГц, 44,1 кГц и 48 кГц при разрядности 16, 18 или 20 бит. Предусмотрена возможность увеличения разрядности до 24 бит. Используется сжатие данных с потерями, однако качество звука все равно получается выше, чем у предшествующих аналоговых систем. Dolby® Digital может обеспечить кодирование до 6 каналов в формате 5.1, где 5 - это каналы с полным частотным диапазоном (2020 000 Гц) и.1 - канал низкочастотных (менее 120 Гц) эффектов (LFE).

Объемность акустических сцен, более четкая детализация, естественность перемещений источников звука из фронтальной области в тыловую, стереофоническое звучание в тыловой области - все это обеспечило успех системы.

Следующий шаг эволюции систем объемного звучания - система Dolby ® Digital EX, которую можно считать надстройкой над Dolby ® Digital. В Dolby ® Digital EX, как и в Dolby ® Digital физически может кодироваться до 6 независимых каналов (5.1), однако, за счет использования матричного кодирования, в левый и в правый тыловые каналы подмешивается информация еще одного или двух surround-каналов. Благодаря такому решению сохранена совместимость с оборудованием Dolby ® Digital, и в то же время, за счет введения дополнительных surround-каналов (6.1, 7.1) на оборудовании Dolby ® Digital EX достигается еще более высокая точность локализации звуковых источников в пространстве.

Конечно, многоканальным звуком занимается не только Dolby Lab. Например, фирма RSP Technologies создала матричную систему Circle Surround, которая имеет тыловой канал с полным диапазоном частот и тем самым оказывается наилучшим образом приспособленной для воспроизведения музыки. Новая версия Circle Surround может также работать в шести -канальном режиме с раздельными тыловыми каналами и каналом сабвуфера (сверхнизкочастотной акустической системы).

В настоящее время можно говорить о распространении нового потребительского формата: DVD-audio. Звуковые данные на этом носителе могут храниться с использованием различных алгоритмов кодирования, включая Dolby ® Digital. Однако в связи с большой емкостью носителя DVD (4,7 Гб на однослойном диске) необходимость сжатия звуковой информации с потерями отпадает. На DVD-audio можно хранить многоканальные записи в формате вплоть до 24 бит/96 кГц без какого либо сжатия и, соответственно, без каких-либо потерь.

Формат 5.1

Обозначение "5.1" указывает на количество каналов, но не несет в себе информации о каком-либо определенном способе кодирования многоканального звука. Используется пять каналов с полным частотным диапазоном (левый передний, центральный, правый передний, левый задний и правый задний), а также один низкочастотный канал (с диапазоном от 3 до 120 Гц), подключаемый к сабвуферу (рис. 1.36).

В этой системе 5.1 формируется круговая стереопанорама. Поскольку на сверхнизких частотах наш слух практически лишен способности определять направление на источник звука, место расположения сабвуфера не имеет существенного значения.

Сабвуфер применяется и в обычных стереосистемах. В его канал подается низкочастотная часть спектра суммарного сигнала стереоканалов, в результате чего обеспечивается гарантированное воспроизведение басовых звуков. Однако в системе 5.1 канал низкочастотных эффектов играет особую роль. Его стоит рассматривать не как низкочастотную компоненту многополосной акустической системы, а именно как независимый канал низкочастотных эффектов.

При записи на магнитофон для большинства систем 5.1 принят следующий порядок каналов (начиная с первой дорожки): левый передний, центральный, правый передний, левый задний, правый задний и низкочастотный каналы. В ряде случаев (например, в многоканальных звуковых картах) предусмотрен и другой порядок: левый передний, правый передний, левый задний, правый задний, центральный, низкочастотный.

По мнению специалистов, формат 5.1 является наиболее перспективным, поскольку поддерживается основными разработчиками. Важно, что имеются подходящие носители (DVD).

Рис. 1.36. Размещение излучателей звука в системе 5.1:

И хотя пока не принят единый стандарт и одновременно существует несколько систем кодирования для 5.1, однако фиаско "первобытной" квадрофонии вряд ли повторится, даже если "выживет" не одна, а несколько различных систем кодирования. Принципиальное отличие формата 5.1 от квадрофонии тридцатилетней давности заключается в том, что в данном случае аудиосигнал имеет цифровую форму, поэтому создание универсального декодера, способного работать со звуком, закодированным различными системами, не вызовет особых трудностей и не приведет к заметному удорожанию аппаратуры.

В успехе формата 5.1 заинтересованы производители аудио-, видеоаппаратуры, компьютеров, компьютерных комплектующих и программ. К нему с интересом относятся потребители: зрители, слушатели, геймеры. Звукорежиссеры и музыканты находят в этом формате новые выразительные средства для реализации творческих замыслов и усиления влияния на наши эмоции. Формат действительно придает воспроизводимому звуку новое качество: слушатель окружен им. Правда, виртуальный звуковой мир и в этом случае не дотягивает до реального. В синтезированном звуковом пространстве источник звука может находиться справа, слева, спереди, сзади, перемещаясь в этих "координатах". А у настоящего звукового пространства, кроме того, есть еще "верх" и "низ".

Особенности оборудования студии формата 5.1

Сейчас мы поговорим только об основных элементах звуковой студии, к которым в первую очередь следует отнести:

микшер;
устройство многоканальной записи;
приборы обработки и эффектов;
мониторы для прослушивания фонограмм.

Основным инструментом сведения многоканального звука является микшер, снабженный средствами панорамирования.

В стереоформате для размещения кажущегося источника звука в определенном месте предназначен регулятор панорамы. Им вы устанавливаете относительные уровни звуковых сигналов, которые подаются в каждый из двух каналов, и тем самым определяете положение источника звука между двумя акустическими системами. При работе с многоканальным звуком вам надо управлять аналогичным процессом в 5 каналах, кроме того, конечно, требуется также регулировать и канал сабвуфера. Поэтому при использовании традиционного микшера для позиционирования одного источника звука необходимо манипулировать несколькими регуляторами. Заметим, что состояние фейдеров, управляющих уровнем сигнала, и регуляторов панорамы в каждом канале трудно сопоставить с положением кажущегося источника звука на круговой панораме. Еще сложнее заставить звук перемещаться по заданной траектории. Это возможно только в микшерах с автоматизацией. В качестве регулятора круговой панорамы в микшере, предназначенном для работы с многоканальным звуком, очень подошел бы джойстик.

Ко всему прочему, микшер, способный работать с объемным звуком, должен иметь не один, а несколько выходов (по числу каналов). Например, в системе 5.1 у микшера должно быть не менее 6 выходов. Оборудование стереофонической студии звукозаписи стоит недешево, а уж о цене студии формата 5.1 и подумать страшно!

Дороговаты также и устройства записи многоканального звука. Они должны иметь 6 и более каналов. Причем крайне желательно, чтобы звук в них представлялся не менее чем 24 разрядами.

Микшеры и цифровые магнитофоны - устройства, многоканальные по своей сути. Поэтому некоторые из моделей, предназначенных для работы со стереозвуком, можно с большим или меньшим удобством применять и в студии формата 5.1. А вот с эквалайзерами, приборами динамической обработки и особенно эффектами дело обстоит сложнее. Конечно, можно обеспечить 6 каналов, собрав "батарею" из 3-х двухканальных приборов. Однако об осмысленной регулировке параметров в этом случае говорить не приходится. Вообразите себе, например, трудности создания в многоканальной системе реалистичной реверберации.

Достойной заменой цифровым магнитофонам и аппаратным микшерам могут служить программные мультитрековые студии и имеющиеся в составе некоторых из них виртуальные микшеры, позволяющие управлять панорамированием с помощью обычной мыши. Удобный в работе и наглядно отображающий положение источника звука на круговой панораме surround-микшер имеется в программе Cubase SX (см. главу 5).

Не всякий владелец домашней студии стереофонического формата может позволить себе иметь мониторную акустическую стереосистему. Однако в случае сведения в стерео приемлемым выходом из положения являются относительно дешевые мониторные наушники. А в формате 5.1 стереонаушники вас не спасут. Без пяти широкополосных акустических систем (а также сабвуфера) не обойтись.

При работе со стереозвуком основными требованиями к мониторам являются: равномерность их частотной характеристики, низкий уровень искажений и полная идентичность двух акустических систем.

Аналогичные требования можно было бы предъявить и к пяти широкополосным мониторам формата 5.1. Они вроде бы тоже должны быть абсолютно одинаковыми. Но в таком случае сведение в круговую панораму вы будете осуществлять в условиях, отличающихся от тех, в которых будут находиться многие слушатели вашей композиции. Дело в том, что у большинства владельцев домашних театров тыловые акустические системы не только по мощности слабее фронтальных, но, кроме того, они могут иметь конструктивное исполнение другого типа. В свою очередь, центральная акустическая система зачастую отличается от крайних передних. Получается, что впечатление слушателя может не совпадать с тем, которое замышляли вы.

Заметим, что подобная проблема существует и при работе со стереозвуком: сведение осуществляется на студийных мониторах, а воспроизведение - на самой различной акустике, начиная от высококачественных колонок и кончая динамиками переносного кассетного магнитофона. Правда, в процессе мастеринга фонограммы должны проходить тест на совместимость с оборудованием низкого качества, да и одной из основных задач этого этапа является адаптация записи к конкретному типу носителя.

Что касается канала низкочастотных эффектов системы 5.1, то при сведении музыкальной композиции сабвуфер вообще не должен использоваться, если по художественному замыслу в музыкальной композиции не присутствует эффект типа взрыва, выстрела из пушки и т. п.

Но опыт прошлых лет, когда царствовал формат CD-audio, показывает, что всякие официальные рекомендации по использованию формата выполняются только на первых порах. Постепенно звукорежиссеры и продюсеры в своих творческих замыслах становятся смелее и пересекают ту черту, которая называется "официальными рекомендациями". Как нам подсказывает интуиция, в конечном итоге низкочастотный канал системы 5.1 будет использоваться "на полную катушку": там, где это нужно и где не нужно. Например, сама собою напрашивается идея задействовать низкочастотный канал для усиления ударов басового барабана в танцевальной музыке.

Как организовать мониторинг при сведении многоканального звука? Об этом идут споры. Однако большинство специалистов рекомендует использовать одинаковую акустику, не внося поправку на несовершенство домашних систем. Мониторы следует располагать на равном расстоянии от слушателя, в частности, три фронтальных монитора должны образовать дугу, а не прямую линию. Если это невозможно, то следует соответственно снизить громкость центрального монитора.

А как в идеале должны располагаться мониторы системы 5.1? Представьте себе, что вы находитесь в центре системы 5.1. Центральный монитор должен располагаться перед вами. Воображаемая линия между вами и центральным монитором является осью, относительно которой будет определяться расположение остальных мониторов. Левый и правый фронтальные каналы располагаются под углами -30° и 30° относительно этой оси. Таким образом, угол "левый монитор-вы-правый монитор" составляет 60°. В случае необходимости этот угол может быть уменьшен до 50° - 45°. Сабвуфер тоже должен располагаться где-нибудь перед вами. Тыловые мониторы должны располагаться под углами -110° (левый тыловой) и 110° (правый тыловой). В идеале все мониторы должны быть равноудалены от вас и откалиброваны таким образом, чтобы при подаче сигналов одинакового уровня на разные мониторы вы слышали их с одинаковой громкостью. Высота размещения мониторов - на уровне вашей головы или немного выше.

Особенности сведения в круговую панораму

Серьезно занимаясь проблемой обработки звука, мы на протяжении многих лет внимательно следим за публикациями, имеющими отношение к этой теме. Поэтому можем уверенно констатировать, что работ, посвященных вопросам технологии сведения в стерео, не так уж и много. А вот статей, содержащих конкретные рекомендации по созданию многоканальных записей, практически нет совсем. Видимо, это можно объяснить тем, что проблема нова, отсутствует необходимый опыт, нет сложившихся традиций. Во всяком случае, самостоятельные музыкальные произведения, сведенные в круговую панораму, еще не стали массовым явлением. Многоканальный звук, в основном, существует как дополнение к видеоизображению. Ясно, что подходы к панорамированию звука для саундтрека кинофильма и звука музыкальной композиции должны отличаться. При сопровождении видео требуется размещать основной звук спереди, так как именно на экране перед зрителем происходит действие. Задние каналы используются для придания звуку объема и реализации специальных эффектов. Конечно, при работе с surround-музыкой можно ориентироваться на наработки, имеющиеся в области создания звука для современной кинопродукции. То есть можно поместить основной звук спереди, слегка окружая слушателя, а тыловые каналы использовать для воссоздания акустики окружающей среды и перемещения второстепенных источников звука. И все же, если речь идет о музыкальном произведении, которое создается без расчета на увязку с видеосюжетом, то автор может пользоваться полной свободой в применении новых выразительных средств, заложенных в собственно круговой панораме. Например, вы можете "посадить" слушателя среди исполнителей, передвигать вокруг него все звуковое поле или отдельные источники звука, перемещать их в "глубину" панорамы.

Правда, спецэффекты панорамирования лучше использовать в меру. Например, вряд ли есть смысл конструировать виртуальный рояль, клавиатура которого, судя по звучанию, выглядит окружностью, охватывающей слушателя. Звуки ударных, помещенных в тыловые каналы, и особенно внезапные громкие звуки, раздающиеся сзади, вполне1 могут стать причиной, по которой ваше песня не станет хитом. Мало кому может понравиться, если придется то и дело рефлекторно оборачиваться или подскакивать от испуга.

При подготовке стереофонических записей мы вынуждены сознательно ограничивать себя в использовании возможностей стереопанорамы применительно к некоторым музыкальным инструментам. Причем ограничения продиктованы не только художественными, но и техническими соображениями. Например, совершенно нет смысла смещать бас с центра стереопанорамы. Во-первых, потому, что все равно в области низких частот стереоэффект проявляется очень слабо. Во-вторых, если бас панорамировать влево или вправо, то мощность одной из акустических систем не будет использоваться в полной мере. А это уже серьезный недостаток, так как на низкочастотную область спектра всегда приходится заметная доля общей мощности звукового сигнала.

Аналогичные проблемы имеются и в системах 5.1, хотя задачу формирования низкочастотных звуков здесь решает сабвуфер. Одна из таких проблем - использование центрального канала. В кино он предназначен для привязки доминирующих звуков к изображению, чтобы зрители, сидящие не по центру, воспринимали эти звуки, исходящими с экрана. В музыке те звуки, которые в стерео обычно направляются в левый и правый каналы равномерно (основной вокал, бас, часть барабанов), лучше распределять между центральным и фронтальными каналами. Это позволит избежать перегрузки центрального канала. Кроме того, различимость звуков увеличивается, если одни из них больше направлять в центральный канал, а другие - одновременно в левый и правый передние каналы.

Формат 5.1 предоставляет массу новых возможностей в применении эффектов, подобных дилэю и реверберации. Реверберационный сигнал может располагаться в том же направлении, что и прямой сигнал. Вместе с тем, подобно тому, как в стереозаписях перекрестное направление реверберации приводит к кажущемуся расширению стереобазы, впечатление увеличения объема виртуального помещения можно получить, если реверберацию фронтальных звуков сделать чуть сзади, а тыловых - чуть спереди. Не только сами кажущиеся источники звука, но и эхо-сигналы, порожденные ими, можно динамически перемещать в пределах круговой панорамы.

При сведении в круговую панораму появляются дополнительные признаки, по которым слух может выделять отдельные партии: направление на источник звука в пределах 360° и, в какой-то мере, расстояние до него (глубина панорамы). Поэтому нет особой необходимости производить частотную фильтрацию с целью выделения одних звуков на фоне других, а также изменять громкость инструментов по ходу песни или компрессировать отдельные аудиосигналы.

Что касается дополнительной обработки компрессором уже сведенной композиции, то такая операция представляется недопустимой. Она может привести к возникновению смещения положений кажущихся источников звука, предварительно позиционированных в определенных точках. А те из источников, текущие значения уровня сигналов которых в какой-то момент превысят порог срабатывания компрессора, будут к тому же и хаотично "перемещаться" по случайным траекториям. Думается, что ситуация изменится лишь с появлением широкодоступных многоканальных виртуальных эффектов и обработок, реализующих алгоритмы обработки, в которых учитывается специфика панорамирования объемного звука и психоакустический фактор. В настоящее время зачатки подобных алгоритмов можно найти в программных кодеках, преобразующих, например, WAV-файлы, располагающиеся на 6 отдельных треках в единый цифровой поток АС-3. К сожалению, суть таких алгоритмов скрыта от пользователя, а число параметров, доступных для регулировки, чрезвычайно мало.

Представляется, что обеспечение моносовместимости записей, сведенных в формате 5.1, нереально. Обеспечение стереосовместимости готовой фонограммы тоже проблематично. Видимо, единственно правильным решением будет целенаправленное и раздельное сведение композиции в моно, стерео и в формат 5.1.

Сущность, задачи и этапы мастеринга применительно к стереофоническим фонограммам - прямо скажем, проблема эта весьма непроста. А с мастерингом в многоканальных форматах дело обстоит еще сложнее. Многое еще не ясно. Не фильтровать, не компрессировать, не контролировать моносовместимость, не осуществлять подготовку к выводу альбома на различные носители. А что же тогда следует делать с записями 5.1 на этапе мастеринга?

И еще об одной вещи хочется сказать. Вы можете слушать FM-радио или CD и заниматься при этом своими делами, например, читать эту книгу. При этом важно, чтобы звук был комфортным: не должно быть перепадов громкости и тембра, отвлекающих от основного занятия. А вот слушать композицию в формате 5.1 "краем уха" практически невозможно. Сам по себе формат 5.1 подразумевает погружение слушателя в музыку. Поэтому еще один подход может заключаться в том, чтобы на этапе мастеринга в формате 5.1 не делать ничего, кроме, возможно, нормализации. То есть вся ответственность за субъективное качество конечной фонограммы переносится на этап сведения, а мастеринг осуществляется по принципу "что есть, то есть". А если же все-таки слушателю потребуется более комфортное звучание без перепадов громкости, то он может включить на своей системе соответствующую опцию (типа Enable Dynamic Range Compression - компрессия динамического диапазона).

Термин «3D-звук» использовался настолько часто в разной технике, что сейчас уже сложно понять, что же именно он означает. Это может быть и простой алгоритм расширения стереобазы, и, например, бинауральная запись для наушников. Поэтому компания Auro особо подчеркивает, что в ее понимании 3D-звук - это звук в трех измерениях, когда схема расстановки колонок ведется по трем перпендикулярным осям (x, y, z), а запись и сведение делаются исходя из такой расстановки системы. О том, что творится внутри Auro-дорожек и почему бельгийская компания решила отвоевать себе рынок у Dolby Atmos и DTS:X, и пойдет речь.

История

Все началось с телефонного звонка в марте 2005 года. Немецкий продюсер Том Хапке загорелся идеей сделать микс в аудиоформате 2+2+2 и предложил заняться этим Вильфриду ван Балену (Wilfried Van Baelen), главе бельгийской студии Galaxy. Вильфрид поначалу отнесся к идее скептически: эта конфигурация предполагала квадрофоническую схему с двумя дополнительными каналами, установленными повыше фронтальных, и казалась оправданной в озвучке фильмов, но в чем же выиграет музыка от двух дополнительных фронтальных каналов, он не понимал. Пока не послушал классику в таком формате.

Звук оказался глубже, прозрачнее, объемнее, чем в «плоскостной» конфигурации 5.1, и побудил Вильфрида на эксперименты. Так как альбом необходимо было записать в форматах 2+2+2, 5.1 и 2.0, он взял за отправную точку схему 5.1 и добавил к ней пару фронтальных каналов, однако после ощутил дисбаланс: за фронтальную полусферу отвечали 6 каналов, в то время как за тыловую - всего 2. Его решение было простым - добавить еще больше каналов, и так тылы тоже обзавелись дополнительной парой спикеров, расположенных чуть выше. Конфигурация доросла до формата 9.1, но при этом не утратила обратной совместимости с форматом 5.1.

По словам Вильфрида, то, что он испытал, было сравнимо с его первым знакомством с квадрофоническим звуком. Колонки действительно исчезли, появилось ощущение присутствия на месте, где производилась запись.

Этот эксперимент и положил начало пятилетней истории разработки формата Auro 3D.

От уха до мозга

Вильфрид стал изучать принципы работы слухового аппарата, чтобы понять, почему же от добавления дополнительного звукового измерения у него настолько сильно изменилось восприятие звука и откуда возникло это ощущение погружения. В итоге он узнал, что такое всеобъемлющее впечатление создает диффузное поле за спиной.

Как известно, при сведении в стерео очень часто используется прием перехода звука из одного канала в другой, создающий иллюзию перемещения источника в горизонтальной плоскости. Вильфрид, продолжая эксперименты, захотел добиться похожего эффекта в вертикальной плоскости, но не преуспел. Сначала он считал, что проблема в оборудовании, но все оказалось интереснее: он услышал желаемый эффект, склонив голову набок и подойдя поближе к колонкам.

Суть в том, что диаграмма направленности человеческого слуха больше тяготеет к горизонтальной плоскости, и поскольку у людей нет уха на затылке, вертикальную составляющую мы соответствующим образом обработать не можем. В локализации звука человеку помогает разница в уровне сигналов, разница во времени восприятия сигнала левым и правым ухом и отраженные сигналы. На самом деле 90% звуков, которые воспринимает человеческое ухо - трехмерные отражения исходного сигнала. И находящиеся на уровне головы колонки воспроизводят именно те сигналы, которые впоследствии отражаются от пола.

По каналам, по объектам

Формат Auro-3D, в отличие от конкурирующих Dolby Atmos и DTS:X, не объектно-ориентированный, а поканальный. Для достижения «обволакивающего звука» к двум слоям колонок - классическому и второму, расположенному под углом 30 градусов к горизонту - Вильфрид добавил третий, установленный прямо над слушателем. Этот третий слой акустики получил название «глас Бога» и добавил третье измерение в звук - высоту. Если в стандартных кинотеатральных конфигурациях, даже в Dolby Atmos и DTS:X, слушатель окружен сферическим слоем звука, то в Auro-3D его как бы обволакивает полноценная полусфера.

В объектной технологии звукозаписи каждый источник звука прописывается отдельно, а в поканальной звук распределяется между разными каналами, а потом уже суммируется вместе в колонках. Например, при записи звука оживленной проезжей части в объектно-ориентированном формате не удастся выделить сами движущиеся объекты - машины, велосипеды, людей - для дальнейшего использования, нельзя будет получить отраженный от этих объектов трехмерный звук, равно как и прямой. В поканальной системе эта проблема решена путем упрощения, и именно здесь на сцену выходит вертикальная составляющая.

Третий слой колонок в Auro 3D создает вокруг слушателя «вертикальное стереополе», причем при любой схеме расположения акустики в Auro 3D. Сам по себе третий слой не помогает в локализации - он помогает в воспроизведении пролетающих над головой вертолетов, звездолетов и погодных эффектов, но человеческий слух мало восприимчив к поступающим непосредственно сверху звукам, да и в целом оттуда, с потолка, приходит мало звуковой информации. В этом виновата эволюция: так сложилось, что чаще всего на заре человечества опасность исходила примерно с того же уровня, на котором находился человек, а не сверху, и именно поэтому мозг усиленно обрабатывал отраженные от земли звуки.

Формат Auro 3D даже в сокращенной конфигурации, с меньшим количеством аудиослоев, способен воспроизвести вертикальное позиционирование источников звука, и поэтому прекрасно адаптируется к самым разным помещениям и системам. Кроме того, Auro 3D является единственным форматом 3D-звука на рынке, поддерживающим процесс мастеринга, основанный на смешивании всех каналов, чего не умеют форматы объектной записи. Фактически Auro 3D - единственный формат на рынке для музыки в 3D. При этом в век сжатых фоматов - MP3, AAC и других - Auro 3D имеет качество 24 бит/96 кГц.

На каждом устройстве

Технология Auro-3D Engine включает в себя декодер Auro-Codec и апмиксер Auro-Matic. С помощью этих двух алгоритмов и достигается универсальность системы. Декодер распознает и декодирует нативный звук в формате Auro-3D, в то время как апмиксер использует алгоритм повышающего распределения звука из моно, стерео, 5.1 и 7.1 в Auro-3D, при наличии, конечно, необходимого количества каналов. То есть фильмы, уже записанные на Blu-ray или даже DVD, и музыку, смонтированную в стерео, можно будет оценить в новом, максимально трехмерном формате.

Традиционно технология апмикса использует изменения в эквализации спектра и добавляет алгоритмы отражений. При разработке Auro-Matic инженеры не хотели слышать лишних ревербераций или фазовых неточностей, но хотели передать звук максимально близко к тому, как его слышал и задумывал автор. И разработали алгоритмы, связанные с HRTF (Head Related Transfer Function) - технологией, которая учитывает, как человеческое ухо воспринимает звуки в естественных условиях. Обладатели iPhone и iPad могут оценить работу алгоритма, ознакомившись с приложением Beautifyer (увы, не доступен в России).

В свое время Auro-Technologies столкнулась с интересной проблемой: разработчики оборудования не стремились внедрять технологию Auro-3D из-за того, что не было соответствующего контента, а создатели контента не использовали Auro-3D формат из-за того, что его не на чем было воспроизводить. Поэтому компания решила самостоятельно выпустить ресивер, поддерживающий Auro-3D, и со временем за ней подтянулись и остальные. Сейчас помимо линейки продуктов от компании StormAudio все больше и больше производителей внедрили Auro-3D в свое AV оборудование: среди них Denon, Marantz, Steinway Lyngdorf, Macintosh, Trinnov, Theta Digital, StormAudio, ATI и Datasat.

Интерфейс настроек инсталляции Auro-3D в процессоре Trinnov Altitude 32

Помимо домашних и недомашних кинотеатров и аудиосистем Auro-3D занял место и в автомобильной промышленности. Совместно с компанией Continental разработчики создали в автомобиле уникальную встроенную систему трехмерного звука, и первые автомобили, оборудованные системой Auro-3D, увидят свет в 2017 году. Звуковое поле такого плана меняет атмосферу для водителя, позволяет ему расслабиться и почувствовать себя комфортнее, и даже, по мнению некоторых, будто бы расширяют пространство салона. Как считает Вильфрид, при прослушивании музыки в 3D наш мозг меньше напрягается, чем при обработке стереофонограммы - отсюда и дополнительный комфорт.

Автомобиль Porsche Panamera с установленной системой от Burmester, которая умеет работать с Auro-3D-звуком

Сейчас уже есть порядка 200 альбомов, записанных в формате Auro 9.1, а совсем немного - в формате 10.1, с использованием наивысшего канала. Область использования этого канала достаточно специфична - он нужен для воспроизведения именно тех звуков, которые доносятся непосредственно сверху, а в музыке расположенных над слушателем объектов обычно не бывает. Даже записи живых концертов не нуждаются в «гласе Бога», потому как в концертных залах, как правило, меньше отражений. Среди двух сотен альбомов в формате 9.1 встречаются не только классические композиции, но также и джаз, и рок, и популярные исполнители, и даже танцевальная музыка.

Также формат захватит и мобильные устройства. В сочетании с бинауральной технологией Auro-3D для мобильных устройств сможет создавать трехмерный иммерсивный звук сразу в смартфоне и передавать его в наушники: система способна как декодировать оригинальный Auro-3D контент, так и воспроизвести всю стереофонтеку, фильмы и прочие медиафайлы в звуковом формате Auro-3D при помощи апмикса.

Интерфейс программы Wwise с опциями для работы с Auro-3D-звуком

Особняком стоят видеоигры. Технология Auro-3D позволит создавать звуковые ландшафты, которые подарят игрокам совершенно иные ощущения. Компания заключила партнерство с Audio-Kinetics и внедрила формат в программу Wwise для создания звука для компьютерных игр. Версия AuroWwise поддерживает 3D-звук для интерактивных средств массовой информации и игр, сохраняя при этом все функциональные возможности. Первой игрой в формате Auro-3D станет Get Even, которая выйдет весной 2017 года. С колонками, правда, по мнению Вильфрида, такое звучание все равно не сравнится.

Сколько нужно колонок?

Для домашних кинотеатров минимальная рекомендованная конфигурация - 9.1, оптимальное решение - 11.1, а в особо крупных залах следует воспользоваться Auro 13.1. Места необходимо столько же, сколько и для оптимального размещения систем 5.1 и 7.1. Разработчики протестировали работу Auro-3D в самых разных помещениях - с высоким потолком, низким потолком, в сухой и влажной среде, и поняли, что система оказалась действительно гибкой.

Сейчас уже появился новый формат AuroMax - это гибридный, канальный и объектно-ориентированный формат, который использует конфигурацию от 20.1 до 26.1. Формат AuroMax - совместная разработка компаний Auro-Technologies, Barco и Iosono, и используется в полноценных кинотеатрах. В домашних кинотеатрах, по мнению разработчиков, необходимости в такой максимальной конфигурации нет, но слово заказчика - закон. Правда, места потребуется еще больше, чем на 13.1-канальную версию.

По мнению Вильфрида, даже миллион колонок не сможет воспроизвести окружающий нас мир натурально - наши уши слишком умны для того, чтобы их можно было так обмануть. Поэтому цель Auro-3D - не задействовать как можно больше каналов, а наоборот, добиться максимально обволакивающего звучания с наименьшим числом динамиков. Потому и не стоит пытаться уместить в небольшом кинотеатре 26.1-канальную конфигурацию - в ней просто не будет смысла, эффект от дополнительных каналов не перекроет потраченных на установку сил, нервов и денег. Лучше обойтись 11.1-канальной версией.

Для широкоформатных кинотеатров и киностудий

В 2011 году Вильфрид начал партнерство с бельгийским производителем видеооборудования Barco. Эта фирма стала использовать системы Auro-3D в своем оборудовании для кинотеатров, и в том же году впервые установила систему Auro 11.1. Первым фильмом в таком формате стала лента «Red Tails», снятая Джорджем Лукасом. Сейчас по всему миру системами Auro 11.1 by Barco и AuroMax оборудовано более 550 кинотеатров.

В России на сегодняшний день таким звуком оснащены главный премьерный кинозал «Октябрь» и 27 кинотеатров в Москве и других городах. Оборудование Auro-3D уже установлено в двух студиях - «Пифагор» и «Нева-Фильм». Всего более 100 студий по всему миру создают и дублируют фильмы в формате Auro-11.1 by Barco.

Прежде всего, формат хорош тем, что для студий и кинотеатров обходится дешевле. Официальный сайт Auro-3D указывает такие плюсы:

Отсутствие платы за лицензию

Минимальный объем усилий по распространению

Возможность использовать созданный контент в этом формате на системах Auro- 11.1 by Barco

Удобный переход от DCP к эквивалентному качеству на Blu-ray

Простота последующего преобразования

Возможность записи в формате Auro-11.1 by Barco непосредственно на съемочной площадке

Отсутствие необходимости в дополнительном мастеринге DCP и ключах

Дополнительные каналы кодируются непосредственно в мастер 5.1 (7.1)

Полная совместимость с миксом в 5.1 (7.1)

Не нужно тратить время на дополнительную перезапись в другом формате

Возможность использовать функцию «up mix» для готовых фильмов в формате стерео, 5.1, 7.1 для воспроизведения в Auro-11.1 by Barco

Где контент?

Поначалу, когда формат только зарождался, контента было мало. Но сейчас ситуация изменилась: в формате Auro-3D есть и музыка, и фильмы. Списки фильмов и музыки, а также будущих кинотеатральных релизов, опубликованы на сайте Auro-3D.

Развитие систем объемного звучания - от монофонии к 3D

В настоящее время двухканальная стереофония стала уже классическим способом передачи и воспроизведения звука. Целью стереофонического звуковоспроизведения является максимально точная передача звукового образа. Локализация звука при этом является лишь средством, позволяющим получить более богатое и естественное звучание. Однако передача пространственной информации наиболее распространенными "классическими" двухканальными системами имеет ряд недостатков, что побуждает конструкторов к созданию различных систем объемного звучания.

Слушатель, находящийся в концертном зале слышит не только прямой звук, исходящий от отдельных инструментов оркестра, но и приходящий с различных направлений (в том числе и сзади) отраженный от стен и потолка помещения рассеянный (диффузный) звук, который создает эффект пространства и дорисовывает общее впечатление. Запаздывание, с которым диффузный звук достигает ушей слушателя, и его спектральный состав зависят от размера и акустических свойств помещения. При двухканальной передаче информация, создаваемая диффузным звуком, в значительной степени теряется, а в случае студийной записи может отсутствовать изначально.

Человеческое ухо лучше всего локализует источники звука в горизонтальной плоскости. При этом звуки приходящие сзади, при отсутствии дополнительной информации локализуются хуже. Зрение, в том числе и периферийное, является основным чувством определения местоположения объектов, поэтому без зрительной информации возможность оценки положения звука в вертикальной плоскости и его удаленности от нас слаба и достаточно индивидуальна. Отчасти это можно объяснить индивидуальными анатомическими особенностями ушных раковин. При воспроизведении записей зрительная информация отсутствует, поэтому любая звуковая технология для массового рынка, претендующая на "объемное звучание", вынуждена создавать нечто усредненное и заведомо компромиссное.

Для воспроизведения или синтезирования "эффекта зала" можно использовать множество способов. Еще в середине 50-х годов фирмами Philips, Grundig, Telefunken были опробованы системы трехмерного воспроизведения 3D и Raumton. Передача звука была монофонической, но дополнительные громкоговорители (обычно встроенные, реже - выносные), излучающие звук вбок или вверх, создавали за счет отраженного от стен и потолка звука впечатление большого пространства. Поскольку задержка эхо-сигнала в бытовых помещениях достаточно мала, для ее увеличения позднее использовались пружинные ревербераторы в канале усиления дополнительных сигналов. Эти системы ввиду значительной для того времени технической сложности продержались на рынке недолго и быстро сошли со сцены.

В дальнейшем для передачи диффузного звука были разработаны амбиофонические системы, нашедшие применение, главным образом, в кино. Дополнительный канал (или каналы) для передачи диффузного звука в таких системах имеют меньшую мощность, чем основные, а их частотный диапазон соответствует полосе частот диффузного сигнала (примерно 300...5000 Гц). Излучение дополнительных динамиков должно быть рассеянным, для чего они направлены на стены или потолок помещения прослушивания.

Сложность стандартизации и технические проблемы с записью и передачей сигналов трех, четырех и более каналов привели к тому, что основной системой записи и передачи звука на долгие годы стала двухканальная стереофония. Но попытки создания систем объемного звучания не прекращались. Развитием амбиофонии стала квадрафония (четырехканальное звуковоспроизведение), пик популярности которой пришелся на первую половину 70-х годов. В отличие от амбиофонической системы здесь все каналы воспроизведения звука оборудованы равноценно. Дискретная (полная) квадрафония, обеспечивающая максимальный эффект присутствия, требует четырех каналов передачи звука и в силу этого оказалась несовместимой с существовавшими в тот момент техническими средствами звукозаписи и радиовещания.

Для преодоления этого препятствия было создано несколько систем матричной квадрафонии (по терминологии того времени - квазиквадрафонии), в которых исходные сигналы четырех каналов матрицировались для передачи по двум каналам, а при воспроизведения исходные сигналы восстанавливались путем суммарно-разностных преобразований, причем без декодера можно было воспроизводить обычный стереосигнал. Поскольку ни одна из этих систем не была ни полноценно квадрафонической, ни полностью совместимой с двухканальной стереофонией из-за большого проникновения сигналов из канала в канал, практическое их применение было ограниченным и интерес к ним быстро угас.

В "войне стандартов" квадрафонических систем победителей не было, идея благополучно скончалась, принципы позабылись, а термин остался. Поэтому сейчас мало кого смущает тот факт, что "нечто", имеющее четыре канала усиления и четыре колонки гордо именуется "квадрафонической системой". Однако это в корне неправильно, поскольку источник сигнала остается двухканальным, а сигналы фронтальных и тыловых каналов при таком построении системы отличаются друг от друга только уровнем, то есть используется принцип панорамирования.

Панорамирование при производстве стереозаписей широко применялось уже с середины 50-х годов для расположения монофонических звуковых сигналов "слева/справа/в середине" звукового поля. При панорамировании не оказывается никакого воздействия на частоту и фазу сигнала, изменяется только уровень монофонического сигнала, подводимого к каждому из стереоканалов. Панорамирование на несколько каналов (в случае многоканальных записей) осуществляется аналогично. Однако при определении направления на источник звука наш слуховой аппарат использует не только разность интенсивности звуковых сигналов, но и фазовый сдвиг между ними, причем влияние фазового сдвига на точность локализации источника звука наиболее ярко выражено в области частот приблизительно от 500 до 3000 Гц. (Опять диапазон частот диффузного звука!).

Поэтому простое панорамирование не обеспечивает нужной достоверности звучания. Стереоэффекты ("бегающий звук", привязка звука "слева-справа" и т.д.) первых стереозаписей достаточно быстро приелись. Поэтому лучшие записи электронных инструментов в студии в 60-е годы проводились с использованием микрофонной техники, что объясняет "живой" характер звучания: Внедрение многоканальной полностью электронной (без использования микрофонов) записи инструментов с последующим сведением, облегчив работу звукорежиссера, одновременно уничтожило атмосферу зала. В последующем этот факт стал учитываться при проведении студийных записей, хотя полного возврата к микрофонной технике не произошло.

При использовании двухканальной схемы воспроизведения основная зона эффективного расположения кажущихся источников звука (КИЗ) находится спереди от слушателя и покрывает пространство порядка 180 градусов в горизонтальной плоскости. Два фронтальных канала не в состоянии адекватно воспроизвести звуки, источники которых в реальности расположены сзади и в вертикальной плоскости, если нет поддержки в виде дополнительных сигналов. Применение тыловых акустических систем в сочетании с панорамированием звука хорошо справляется с расположением источников звука спереди и сзади от слушателя и слабее с боковым расположением. Однако само по себе панорамирование звука никогда не сможет обеспечить приемлемое позиционирования источников звука в вертикальной плоскости.

В ходе разработки матричных систем выяснилось, что значительная часть пространственной информации содержится в разностном сигнале (сигнале стереоинформации), который можно подать на громкоговорители тыловых каналов или в чистом виде, или в смеси с некоторой долей фронтальных сигналов. В простейшем случае для этого даже не нужны дополнительные каналы усиления, а матрицирование сигналов можно провести на выходе усилителя:

Так появились на свет несколько псевдоквадрафонических систем, полностью вытеснивших "истинных арийцев" с рынка в середине 70-х. Они отличались друг от друга только способами получения разностного сигнала. Впрочем, их триумф тоже был недолгим, что объяснялось недостатками носителя сигнала - винилового диска и магнитной ленты. Некоррелированные шумы левого и правого каналов не вычитались, что в сочетании с относительно невысоким уровнем разностного сигнала сильно ухудшало отношение сигнал/шум в тыловых каналах.

Другой, не менее существенный недостаток подобных систем - отсутствие зависимости уровня тылового сигнала от характера фонограммы. При малом уровне тылового сигнала пространственный эффект мало заметен, при увеличении уровня появляется разрыв звуковой сцены и перемещение ее фрагментов назад (эффект "окружения оркестром", не соответствующий действительности).

При воспроизведении "живых" записей (имеющих естественное распределение суммарных, разностных и фазовых составляющих) этот недостаток проявлялся незначительно, но на большинстве студийных фонограмм тыловые каналы вносили значительные ошибки в положение КИЗ. Для устранения этого недостатка в ранних системах объемного звучания пытались применить автоматическое панорамирование. Управляющие сигналы получали из уровня пространственной информации - возрастание уровня разностных сигналов приводило к увеличению усиления в тыловых каналах. Однако принятая модель панорамирования была очень грубой, в результате чего ошибки регулирования экспандера приводили к хаотическому изменению уровня тыловых сигналов (эффект "тяжелого дыхания").

Интерес к системам объемного звучания вновь возник с появлением цифровых носителей информации, уровень собственных шумов которых пренебрежимо мал и даже аналоговая обработка сигнала практически не ухудшит динамический диапазон системы. Развитие цифровых методов обработки сигнала привело к созданию цифровых звуковых процессоров (Digital Sound Processor - DSP).

Разработанные первоначально для систем "домашнего театра" процессоры объемного звучания в последнее время начали активно использоваться и в автомобильных аудиосистемах. Их применение позволяет значительно улучшить звучание в салоне автомобиля, поэтому они выпускаются не только в виде отдельных DSP-устройств, но и входят в состав относительно недорогих магнитол. Настройки процессоров позволяют выбрать наиболее оптимальные параметры для выбранного места прослушивания.

Существует ряд методов, позволяющих аппаратуре воспроизводить звук, локализуемый в пространстве, при ограниченном количестве акустических систем. Разные методы реализации имеют сильные и слабые стороны, поэтому важно понимать принципиальные различия между основными методами обработки сигнала. В основе современных систем пространственного звучания (Dolby Surround, Dolby Pro-Logic, Q-Sound, Curcle Surround и других) лежит все та же идея суммарно-разностного преобразования, дополненная "фирменными" методами обработки сигналов (как аналоговыми, так и цифровыми). Часто их объединяют общим названием "3D-системы" ("второе рождение" термина сорокалетней давности!).

Прежде чем рассматривать принципы, используемые при обработке звуковых сигналов в системах объемного звучания, вспомним типичный процесс создания записи. Сначала производится запись, имеющая много индивидуальных каналов -- инструменты, голоса, звуковые эффекты и т.д. Во время микширования для каждой звуковой дорожки контролируется уровень громкости и расположение источника звука для достижения требуемого результата. В случае стереозаписи результатом микширования являются два канала, для surround-систем число каналов больше (например, 6 каналов для формата "5.1" Dolby Digital/AC-3). В любом случае, каждый канал состоит из сигналов, которые предназначены для направления в отдельные колонки при прослушивании пользователем. Каждый из этих сигналов представляет собой результат сложного микширования сигналов исходных источников.

Далее происходит процесс кодирования каналов, полученных после микширования и в результате получается один цифровой поток (bitstream). При проигрывании декодер обрабатывает цифровой поток, разделяя его на индивидуальные каналы и передавая их для воспроизведения на акустические системы. Для многоканальных (дискретных) систем объемного звучания при этом возможен режим имитации реально отсутствующих акустических систем (Phantom mode). Если у вас всего две колонки, тогда канал сабвуфера (низкочастотный) и центральный (диалогов) просто добавляются одновременно к обоим выходным каналам. Задний левый канал добавляется к левому выходному каналу, задний правый к правому выходному каналу.

Вспомним, что панорамирование воздействует только на амплитуду звукового сигнала. Преобразование звука в современных 3D-системах включает в звуковой поток дополнительную информацию о амплитуде и разности фаз/задержке между выходными каналами. Обычно степень обработки зависит от частоты сигнала, хотя некоторые эффекты создаются с использованием простых задержек по времени.

Какие же методы используются для обработки звукового сигнала? В первую очередь это расширение стереобазы (Stereo Expansion), которое производится путем воздействия на разностный стереосигнал фронтальных каналов. Этот метод можно считать классическим и он применяется прежде всего к обычным стереозаписям.

Обработка сигнала может быть как аналоговой, так и цифровой. Во-вторых, Positional 3D Audio (локализуемый 3D звук). Этот метод оперирует с множеством отдельных звуковых каналов и пытается индивидуально определить местоположение каждого сигнала в пространстве. В-третьих, Virtual Surround (виртуальный окружающий звук) - метод воспроизведения многоканальной записи с использованием ограниченного числа источников звука, например воспроизведение пятиканального звука на двух акустических колонках. Очевидно, что два последних метода применимы только к многоканальным звуковым носителям (записи в формате DVD, AC-3), что пока для автомобильных систем не очень актуально.

Замыкают список различные методы искусственной реверберации. Когда звук распространяется в пространстве, он может отражаться или поглощаться различными объектами. Отраженные звуки в большом пространстве могут в реальности создавать ясно различимое эхо, но в ограниченном пространстве происходит совмещение множества отраженных звуков так, что мы слышим их как единую последовательность, которая следует за исходным звуком и затухает, причем степень затухания различна для разных частот и напрямую зависит от свойств окружающего пространства.

В цифровых звуковых процессорах используется обобщенная модель реверберации, что сводит управление процессом реверберации к заданию ключевых параметров (время задержки, количество отражений, скорость затухания, изменение спектрального состава отраженных сигналов). Таким образом реализуются режимы hall, live, stadium, и т.д. Имитация получается достаточно реалистичной. В аналоговых процессорах для этой цели используются линии задержки сигнала. Управление параметрами реверберации в этом случае значительно сложнее, поэтому обычно имеется только один фиксированный режим работы.

Конечно, изложить особенности строения всех существующих систем объемного звучания трудно, но их работа основана на рассмотренных принципах - различие только в деталях алгоритмов и наборе режимов (предустановок). Поэтому лучший советчик при выборе звукового процессора - собственный слух.

Интересная статья на тему "звук вокруг" . История, аппаратура, программное обеспечение, теория, искуственная голова, стерео, квадро, 3D.

Рис. 1. Стереопанорама

Большинство современных дешёвых и не очень звуковоспроизводящих устройств включая звуковые карты для персональных мультимедиа компьютеров позволяют воспроизводить звук в режиме “3D Sound” или “Suround”, что можно перевести как “объёмный звук”.

Что же это такое и для чего это нужно? Системы объёмного воспроизведения звука были разработаны потому, что качество звучания, реализуемое обычной стереофонической системой или головными телефонами, перестало удовлетворять взыскательных слушателей. Хотя стерео системы и создают эффект пространственного звучания за счет синтеза панорамы мнимых источников звука (МИЗ) между двумя громковорителями (рис. 1), все же стереозвучание имеет существенный недостаток. Стереопанорама получается плоской и ограничена углом между направлениями на громкоговорители. Такое звучание в значительной степени лишено естественности, свойственной тому, что достигается в реальном звуковом поле, когда человек способен воспринимать реальные источники практически со всех направлений как в горизонтальной так и в вертикальной плоскостях и оценивать, хотя порой и с ошибками, расстояние до источников звука.

Считается, что восприятие звуков с разных направлений и расстояний имеет важное значение не только как факт их пространственного расположения. Оно создаёт у слушателя ощущение звучащего объёма (трёхмерного звукового поля), существенно обогащает тембры музыкальных инструментов и голосов, восстанавливая реверберационный процесс, свойственный первичному помещению (концерному залу). Обычная стереофония создаёт эффект пространственного звучания в очень ограниченной области перед слушателем, не позволяет в полной мере выявить названные особенности восприятия звуков в реальном звуковом поле и, следовательно, снижает качество звучания.

Квадрофонические системы также не обеспечивают полную имитацию реального звукового поля. Во-первых, при квадрофонии не получается круговая стереопанорама - слушатель ощущает обычную стерео панораму перед собой и заднюю стерео панораму сзади себя. Во-вторых, все мнимые источники звука располагаются в одной плоскости и на линии между динамиками, т.е. нет глубины и нет, собственно, 3-го измерения и трёхмерного объемного звучания (Рис. 2).

Рис. 2. Квадропанорама

Головные стерео телефоны также не позволяют получить естественное звучание воспроизводимой фонограммы. Дело в том, что возникающее при этом впечатление бесконечной ширины стереобазы и четкая локализация звукового изображения внутри головы слушателя не могут удовлетворить требовательных меломанов. Для устранения эффекта локализации звука внутри головы применяются схемы подобные приведенной на Рис. 3.

Рис. 3. Блок схема устройства создания объемного звука для стереотелефонов

Здесь сигналы левого и правого каналов через входные устройства А1 и А2 поступают соответственно на делители напряжения А3 и А6 и на входы перекрестных каналов, состоящих из линий задержки (ЛЗ) А4, А5, согласующих устройств А8, А9 и фильтров нижних частот (ФНЧ) Z1, Z2. С делителей А3, А6 сигналы подаются на корректоры АЧХ А7 и А10 и далее - на один из входов сумматоров, а с них - на входы усилителей мощности для стереотелефонов. Таким образом, на выходе каждого канала формируется сигнал, состоящий из ослабленного и скорректированного сигнала своего канала и задержанного и соответствующим образом скорректированного сигнала другого канала.

Подобными устройствами, выполненными в виде приставок или встроенных устройств в настоящее время оснащены многие музыкальные центры. Интересно, что такие устройства могут быть реализованы и чисто программными методами с использованием цифровой обработки сигналов в реальном времени. Читатели, имеющие персональный компьютер с фулдуплексной звуковой картой (к сожалению программа плохо работает с картами производства сингапурской фирмы Creative Labs.), могут скачать одну из подобных программ из Интернет с сервера www.geocities.com/SunsetStrip/Palladium/2932/v108.zip. Программа с этого сервера кроме того позволяет добавить эффекты реверберации для маленького, среднего и большого помещения, эхо, хорус, флэнжер и имеет довольно неплохой эквалайзер, значительно улучшающий воспроизведение низких (20..60 Гц) частот через стереотелефоны среднего класса качества. Все эффекты работает в реальном времени даже на очень дешевых звуковых картах без DSP процессоров, например на OPTi-931 или Acer S23.

Наиболее совершенный метод имитации реального трёхмерного звукового поля это Бинауральная передача звука. Бинауральный метод состоит в том, что звуковая информация воспринимается микрофонами, размещёнными в ушных раковинах человека или “искусственной головы” - модели, симулирующей слуховое восприятие человека. Сигналы, поступающие с каждого микрофона, усиливаются раздельными усилителями низкой частоты и воспроизводятся стереотелефонами. В идеале такая система позволяет создать полную иллюзию естественного звучания.

Она как бы переносит слушателя из помещения прослушивания в помещение, откуда ведётся передача. Однако полноценно прослушивать её можно только с помощью стереотелефонов и при условии что в качестве образца для создания искусственной головы использовалась именно ваша голова. Читатели могут прослушать бинауральные демонстрационные звуковые WAV файлы, скачав их через Интернет с серверов www.lakedsp.com, www.wа.com.au/lake, www.3daudio.com, www.geocities.com/SiliconValley/Pines/7899, www.geocities.com/SunsetStrip/Palladium/2932/3d_audio.htm

При воспроизведении бинаурального сигнала через звуковые колонки из-за попадания сигнала правого канала в левое ухо слушателя и наоборот возникают перекрёстные искажения, в конечном счёте сводящие на нет все преимущества бинаурального звуковоспроизведения. Указанные недостатки в значительной мере удаётся устранить с помощью специального устройства обработки звуковых сигналов, позволяющего получить бинауральный эффект при прослушивании бинауральной записи через колонки. Такие устройства получили название бифонических процессоров. Запись производится с микрофонов, расположенных в искусственной голове, а воспроизводится после обработки бифоническим процессором, в котором точно рассчитанная величина сфазированного, задержанного и скорректированного по частоте сигнала левого канала вычитается из сигнала правого канала и наоборот. Структурная схема бифонического процессора, впервые разработанного фирмой JVC, показана на рис. 4.

Рис. 4. Блок схема бинаурального процессора

Он состоит из усилителей сигналов левого и правого каналов А1, А2, усиливающих сигналы с микрофонов, установленных в искусственной голове А0, линий задержки D1, D2, фазовращающих устройств U1, U2 и сумматоров Е1, Е2. После обработки бифоническим процессором сигналы, приходящие из колонок в уши слушателя суммируются так, что левое ухо слышит только сигналы левого канала, а правое - правого канала. Таким образом, можно сказать, что бифонический эффект подобен бинауральному и отличается от него только способом воспроизведения бинауральной записи.

И хотя площадь, где он отчётливо проявляется, невелика, зато, находясь в её пределах, слушатель может иметь представление о расстоянии до источников звука и их взаимном расположении в пространстве в момент записи, чего не удаётся достигнуть при стереофоническом звуковоспроизведении, дающем представление только о расположении источников звука на линии между звуковыми колонками. Другое интересное свойство бифонического процессора - это возможность расширения с его помощью стереобазы обычных стереофонических записей.

Именно это обычно и имеется ввиду под “3DSound”. А если сиcтема позволяет увеличить мнимый угол между направлениями на звуковые колонки (Рис.1) до 180 градусов, то такую систему называют “Suround” и создаваемая звуковая панорама для неё будет такой же как при прослушивании на стереотелефоны, но без концентрации мнимых источников звука внутри головы слушателя. Конечно, бифонический процессор может быть реализован чисто программными методами с использованием методов цифровой обработки сигналов в реальном времени.

Читатели, имеющие персональный компьютер с фулдуплексной звуковой картой, могут скачать одну из подобных программ из Интернет.

Все права в отношении данного документа принадлежат автору. Воспроизведение данного текста или его части разрешается только с письменного разрешения автора.

Ч то такое трехмерный звук и почему по этому поводу возникает так много споров? Как соотносится понятие "трехмерное, пространственное звучание" со способностью человека воспринимать звук двумя ушами? Эти вопросы часто задают себе как пользователи так и профессионалы. Дело в том, что повсеместное использование понятий 3D (3D графика, 3D звук) вносят сумятицу и неразбериху в головы простых пользователей. Зачастую эти понятия используются, мягко говоря, не совсем уместно, что вносит дополнительный раздор в их употребление и правильное понимание. 3D графика - тема не этой статьи. Здесь же мы остановимся на трехмерном звуке.

Реализация пространственного звучания (3D звука) в том или ином виде, применительно к компьютерной технике, используется для придания естественности звуку в компьютерных играх или фильмах, для создания полного ощущения погружения в процесс игры или просмотра фильма. Такая постановка задачи делает недостаточным использование обычного стереофонического звучания. Это связано с тем, что стерео сигнал, приходящий к слушателю от двух физических источников звука, не обеспечивает объемного звучания, а определяет расположение мнимых (слышимых) источников лишь в той плоскости, в которой расположены реальные (физические) источники звука. Кстати, как ни парадоксально, "stereophonic" на самом деле обозначает "трехмерный звук" (от греч. "stereos" - пространственный, трехмерный, цельный). Таким образом, обычного стерео сигнала не достаточно для создания полного реализма звучания, когда источники звука могут находиться в трехмерном пространстве. Также заблуждением является мысль, что объемное звучание обеспечивается квадрофонической системой (два источника перед слушателем и два сзади). Дело в том, что также, как и в стереофонической системе, здесь все четыре источника находятся в одной плоскости, что не позволяет создать полное ощущение трехмерного звучания.

В целом можно обозначить три основных способа реализации пространственного звучания:

расширение стерео базы (Stereo Expansion) - специальная обработка уже имеющегося стерео сигнала и, таким образом, расширение кажущегося звукового поля (имитация расширения расстояния между источниками);

позиционирование звучания (Positional 3D Audio) - оперирование с множеством отдельных звуковых потоков и расположение каждого из них в пространстве вокруг слушателя;

виртуальный (мнимый) окружающий звук (Virtual Surround Sound) - использование определенного числа звуковых потоков с целью воспроизведения истинного звучания с помощью ограниченного числа физических источников звука.

Что это все означает на практике? На практике это означает, что метод расширения стерео базы относительно прост в реализации и очень часто находит применение в стерео фонической бытовой технике. Однако, в той же степени, на сколько проста его реализация, сам метод не дает ощущения "трехмерного звучания" в том понимании, в котором мы его себе представляем, по причине обеспечения звучания лишь в одной плоскости. Не достаточно также и применения так называемого панорамирования. Панорамирование (panning) - это управление уровнем сигнала в каналах, в не зависимости от частоты сигнала. Панорамирование позволяет создавать иллюзию перемещения мнимого источника сигнала где-то между физическими источниками (разумеется, в одной с ними плоскости).

Для создания более или менее реалистичного объемного звучания необходимо что-то принципиально другое. Попытаемся в этом разобраться.

Как ни странно, но вся проблема в устройстве слухового аппарата человека. Оказывается, что он на столько не совершенен, что даже в реальной жизни мы можем столкнуться с трудностями, связанными с неточностью восприятия звуковых сигналов и определения их пространственного месторасположения. Все дело в том, что все мы живем на планете Земля и все время существования человека его основная пища и враги находились в плоскости, параллельной земле. Поэтому, два уха, расположенные по обеим сторонам головы, позволяют нам определять расположение источников звука только лишь в горизонтальной плоскости (бинауральный эффект). При этом мы очень плохо различаем звук идущий спереди и сзади. Способность оценки человеческим ухом (слуховым аппаратом) расположения источников звука в вертикальной плоскости также крайне ограничена. Кроме того, тело слушателя, в частности, голова, уши и туловище, является, как известно, препятствием на пути распространения звуковых колебаний. Взаимодействуя с телом звук отражается, затухает и искажается, что приводит к восприятию слушателем не исходного, а измененного звучания. Все это создает трудности имитации пространственного звучания.

Что же происходит внутри нас? Приемником сигнала в человеке является барабанная перепонка, скрытая ушной раковиной. При восприятии звука, мозг как бы декодирует получаемый от барабанной перепонки сигнал, интерпретируя его определенным образом для правильного определения пространственного местоположения источника/ков звука. И именно это рассуждение взято в основу всех существующих на сегодня технологий создания пространственного звучания.

Оказывается, если произвести специальную обработку звукового потока с учетом максимального числа особенностей восприятия звука слуховым аппаратом, то, возможно, удастся имитировать пространственное звучание даже с использованием всего двух источников (колонок или наушников). Необходимо подчеркнуть, что любой алгоритм создания 3D звука реализовывается с помощью алгоритмов фильтрации (оперирующих с амплитудой и частотой звукового сигнала) той или иной сложности, которые определенным образом "обманывают" слуховой аппарат, "заставляя его считать", что то, что он слышит, расположено в трехмерном пространстве вокруг слушателя.

Одним из таких алгоритмов (способов) является HRTF - Head Related Transfer Function. Посредством этого алгоритма звук можно преобразовать специальным образом, что обеспечит прекрасное 3D звучание, рассчитанное на прослушивание в наушниках (пояснение этому можно найти чуть ниже). Следует отметить, что HRTF (в том или ином виде) является основой создания множества существующих на сегодня методов создания объемного звучания. Однако мы не даром заговорили о HRTF как об одном из алгоритмов, так как этот алгоритм в чистом виде (впрочем, как и все остальные) не является единственным и совершенным. Все дело в том, что HRTF неодинаков для различного слушателя и, тем более, для различных положений головы (если речь идет о воспроизведении не через наушники). Безусловно, есть способы найти сбалансированный HRTF для всех слушателей, но такой подход не обеспечивает высокочеткое восприятие звука для каждого, и уж тем более не решает проблему с поворотами головы. Наверное, именно поэтому стандарт на HRTF не существует до сих пор.

Конечно, если в качестве источников звука будут выступать наушники, закрепленные на голове слушателя, то их расположение относительно головы слушателя не будет изменяться, какие бы повороты головы не производились. В этом случае, как мы сказали, с использованием HRTF может быть достигнуто высококачественное пространственное звучание. В случае же, если источниками являются, например, две колонки, то, кроме всего прочего, для создания естественного пространственного звучания необходимо, в частности, точно отслеживать повороты слушателем головы для соответствующей корректировки сигналов от каждого физического источника. Кроме того, при воспроизведении звука через наушники, сигнал от каждого канала попадает только в соответствующее ухо, а при воспроизведении через колонки сигналы могут смешиваться, в результате чего появляются перекрестные искажения. Этот недостаток частично устраняется с помощью специального устройства - бифонического процессора.

Итак, как мы сказали выше, при использовании в качестве источников звука колонок, возникает проблема необходимости расположения слушателя строго в определенной области пространства между источниками звука. Эта область называется Sweet Spot. При отсутствии возможности контролировать положение слушателя в пространстве относительно источников звука при прочих равных условиях, Sweet Spot накладывает строгие ограничения на расположение слушателя. Это значит, что как только слушатель покидает область Sweet Spot, звучание, создаваемое источниками, перестает восприниматься слушателем как пространственное. Поэтому, при создании технологий объемного звучания перед разработчиками возникает проблема расширения области Sweet Spot.

Одним из эффективных методов решения этой проблемы является введение дополнительного третьего источника звука, когда слушатель становится независимым от области Sweet Spot. Трехканальные системы объемного звучания часто используются в бытовой аудио и видео аппаратуре. Существуют также многоканальные (трех-, четырех- и более) расширения этого метода.

Однако наряду с проблемами реализации трехмерного звучания с помощью HRTF, у любой системы звуковоспроизведения есть проблемы другого плана. Так, например, наушники слабо справляются с воспроизведением фронтальных сигналов. При использовании наушников также возникает проблема локализации звукового сигнала внутри головы слушателя, а также эффект бесконечного расширения стерео базы. Конечно, существуют способы борьбы с этими эффектами, однако всех проблем это не решает. Двухканальные системы плохо обеспечивают восприятие слушателем звучания сзади. В реализации многоканальных систем слабым местом является необходимость достаточно точного расположения источников сигнала, потому что как раз это зачастую сделать затруднительно. Кроме того, здесь также существует проблема звучания в одной плоскости.

Таким образом, создание настоящего качественного пространственного звучания затруднено как необходимостью учитывать все особенности слухового аппарата человека, так и необходимостью динамического отслеживания положения слушателя относительно источников звука, а также учета особенностей звукопередачи последних. По этому, сложно сказать, какая схема создания 3D звука более совершенна. Гораздо легче сказать, что все существующие схемы далеки от совершенства, и все технологии 3D звука, построенные на использовании HRTF или других алгоритмов, имеют массу недостатков, так как просто невозможно создать универсальную схему, учитывающую все вышеперечисленные особенности слуха, источников звука и их расположения относительно слушателя.

В качестве справки отметим, что для создания библиотек HRTF используется искусственный манекен KEMAR (Knowles Electronics Manikin for Auditory Research) или специальное "цифровое ухо". В случае использования манекена суть измерений состоит в следующем. В уши манекена встраиваются микрофоны. Звук воспроизводится источниками, расположенными вокруг манекена, а запись производится с микрофонов. В результате, запись от каждого микрофона представляет собой звук, "прослушанный" соответствующим ухом манекена с учетом всех изменений, которые звук претерпел на пути к уху. Расчет HRTF производится с учетом исходного звука и звука, "услышанного" манекеном.

Следует сказать также, что мы рассмотрели лишь одну сторону реализации полноценного пространственного звучания. Дело в том, что на ряду со сложностями, связанными с "правильной" передачей объемности звучания, при создании игр возникают также проблемы корректной имитации различных физических свойств звука (эффектов отражения от различных поверхностей, поглощения и искажения звука). Грамотная реализация этих свойств также коренным образом влияет на ощущение слушателем пространственности звучания. Однако, эта проблема в основном касается аккуратности механизмов, закладываемых разработчиками в игры. Что же касается рассмотренной нами выше проблемы <донесения> трехмерного звука до пользователя (а вернее, до его нервной системы), то она остается не решенной, так как идеальные модели реализации трехмерного звучания еще не найдены.

Surround — объемный звук. Что такое объёмный звук (surround sound)