В размышлениях о правде стерео сигнала я наткнулся вот на эту статью Александра Рогожина, которая продолжила мои мысли которые я излагал  в материале:

В поисках волшебного звука.

Статья рассказывает о способе акустического воспроизведения стерео-сигнала позволяющем без вмешательства в замысел звукорежиссера избавиться от недостатков этого формата и полностью раскрыть его достоинства.

Всем настоящим любителям музыки и качественного звуковоспроизведения, а также исследователям и экспериментаторам настоятельно рекомендую собрать эту несложную схему хотя-бы в качестве эксперимента т.к. это позволит вам увидеть проблемы современного звуковоспроизведения с совершенно другого ракурса. Не смотря на широкое распространение многоканальных домашних кинотеатров и неспешное начало экспансии многоканальных аудио-записей, подавляющее большинство музыкального материала продолжает выпускаться по ряду причин именно в формате двухканального «стерео». Поэтому вопросы корректного его воспроизведения не теряют своей актуальности, а даже наоборот, т.к. количество выпускаемой музыки в этом формате и ее мировой архив быстро растет с каждым днем. Возможно методика также найдет применение в контрольных комнатах прослушивания звукозаписывающих студий.

На идею и написание этой статьи натолкнула публикация Дэйва Молтона (Dave Moulton) об оригинальной 3-х канальной методике воспроизведения стерео-сигналов без применения сложных обработок сигнала и искажения оригинальной панорамы записи:http://www.moultonlabs.com/more/happy_accident_a_better_way_to_play_back_stereo/P0/

Итак, давайте поймем о чем идет речь. Сначала, как известно, было «моно». Один канал записи, один канал воспроизведения, одна акустическая система. Для реалистичной передачи голоса и звучания отдельных инструментов этого более чем достаточно.

 

Для того чтобы передать акустическую атмосферу зала, перемещение источников сигнала по горизонтали и разгрузить динамический диапазон тракта при записи поли-инструментальных произведений появился формат «стерео», состоящий из двух каналов. По аналогии с наличием у человека двух ушей все логично – изменением баланса уровней и фазы сигнала дорожки в каналах можно добиваться достаточно точной локализации виртуальных позиций источников звука в записях и воссоздавать панораму сцены. Т.е. теоретически можно сказать что поставив перед сценой с музыкантами два микрофона на расстоянии ширины головы человека друг от друга мы получим практически точную копию того что слышал-бы человек находясь на месте записи.

 

Но проблема в том, что это все было-бы актуально если бы прослушивание в последствии проводилось исключительно через наушники. Реально-же записи предназначенные исключительно для наушников являются экзотикой и имеют отдельное название – «бинауральные». Обычным-же «стерео» принято называть двухканальные записи, предназначенные для воспроизведения на двух АС. А другими словами – сведенные в студии с учетом того что при прослушивании будет происходить акустическое сложение и взаимопроникновение каналов в воздушном пространстве между головой слушателя и акустическими системами, чего при прослушивании через наушники не происходит. Другими словами – если в наушниках спанорамированную в крайнее левое или правое положение дорожку вы будете слышать только одним соответствующим ухом, то при прослушивании через две акустические системы вы всегда будете слышать все звуки обоими ушами, позиции-же источников по панораме ваш мозг будет определять по балансу уровней и фазово-временной разницей между тем сигналом который поступает в ваше левое ухо и тем сигналом, что поступает в ваше правое ухо.

Что-же происходит когда мы слушаем стерео-запись не через наушники, а через акустические системы и в чем собственно заключается основная проблема воспроизведения стерео-записей двумя акустическими системами?

Для этого нам достаточно включить или вспомнить как звучит подавляющее большинство музыкального материала и где принято располагать позиции каких инструментов по панораме. Вот так выглядит сцена исторически сложившейся, как ее принято называть, «стандартной» группы:

 

Если мы будем записывать ее двумя микрофонами или захотим воссоздать такую-же картину из многомикрофонной записи, то нам нужно будет разместить наши дорожки инструментов по панораме таким-же точно образом. Реально-же так строятся чаще всего только «академические» записи живых коллективов, а большинство популярной музыки и тем более полностью электронной, состоит из гораздо большего количества звуков и соответственно имеет панорамирование дорожек уже как правило без такой привязки, а исходя уже де-факто из того как трек звучит из акустических систем и как хотелось-бы чтобы он звучал автору и будущим слушателям. На фото студия всемирно известного голландского DJ и композитора — Armin Van Buuren:

 

При этом, как известно, даже при много-микрофонной записи все инструменты снимаются в моно. И не из-за экономии, а именно потому что так лучше и этого достаточно.

Исключения составляют инструменты, иногда снимающиеся несколькими микрофонами из разных точек – рабочий барабан, бочка, оверхэды и т.д. Но снимаются они так не для того чтобы подать сигнал одного микрофона в одну АС, а другого в другую, а всего-лишь потому что в разных точках эти инструменты имеют разный характер звучания и звукорежиссер смешивая звучания различных микрофонов выбирает результирующее звучание инструмента наиболее подходящее по его мнению к замыслу композиции. В реальном стерео снимаются только большие инструменты, как правило – клавишные. Например – рояль.

Все остальные инструменты записываются исключительно в моно и по панораме раздвигаются уже на самых последних этапах мастеринга и больше из соображений повышения читабельности и разборчивости записи, чем с точки зрения создания пространственных эффектов. При этом после панорамирования все записи обязательно проверяются на «моно-совместимость», т.е. включаются через сумматор двух каналов и тестируются на отсутствие фазовых перекосов вызывающих выпадение отдельных сигналов при воспроизведении обрабатываемой стерео-записи через монофонический тракт. Доступно об этом можно почитать в книге Бобби Овсински «Настольная книга звукорежиссера» (Bobby Owsinski «Mixing Engineer Handbook»).

Так вот если мы вспомним звучание большинства записей, то легко обнаружим, что большинство наиболее важных элементов записи всегда расположены по центру и если и панорамированы, то не сильно, а лишь слегка раздвинуты. Большое-же разделение каналов имеют только объемные и пространственные спецэффекты. А как достигается панорамирование сигнала в центр сцены, если акустических систем у нас только две и расположены они не по центру, а по бокам? Психоакустика нашего мозга устроена таким образом, что когда звук, достигающий наших ушей, имеет абсолютно одинаковый спектр и фазу, то для нас это сигнал того что источник расположен ровно по центру вектора нашего взгляда. Если-же спектр или фаза звука, воспринимаемого одним ухом начинает хоть немного отличаться это является свидетельством того что источник звука начал перемещение и находится уже не прямо напротив нас, соответственно мозг начинает попытки проанализировать полученную спектральную и фазовую картину и выяснить новое местоположение источника. Если спектр источника остался идентичным, а изменился только уровень или временная задержка между ушами, то мозг без труда и точно выдаст вам новую позицию этого источника. Если-же мы каким-то образом разрываем спектр сигнала, то в мозгу у вас появится некая размазанная сюрреалистичная картинка без возможности точного определения направления позиции источника. Именно поэтому записи с обилием пространственных эффектов настолько более ярки и объемны, насколько и быстрее вызывают утомления от прослушивания, чем имеющие меньшую разницу между каналами. Т.е. здесь звукорежиссеру необходимо выбирать баланс между тем чтобы не сделать запись слишком «плоской» и «скучной» для рядового потребителя и чтобы не создать нечто что будет непредсказуемо и нечитабельно звучать в различных акустических условиях. И именно поэтому все основные солирующие голоса и инструменты как правило стараются располагать по центру виртуальной сцены. Кроме этого есть еще одно достоинство, а именно – динамический диапазон звуковоспроизводящей системы для спанорамированного в центр инструмента или голоса автоматически удваивается т.к. он будет воспроизводиться не одним каналом усиления и акустической системой, а уже двумя. Это актуально как с точки зрения повышения читабельности основных звуков композиции, так и с точки зрения наиболее оптимального использования низкочастотного ресурса воспроизводящего комплекса. Ну и естественно это более логично и приятно – когда при прослушивании записи вы как-бы стоите лицом к вокалисту, солирующим и основным инструментам. Но как только мы спанорамировали наш инструмент в центр виртуальной сцены и включили запись не в наушниках, а на акустических системах, имеющих взаимопроникновение и сложение сигналов в пространстве между ними и слушателем, то автоматически столкнулись с проблемой интерференции. Расстояние между акустическими системами, кроме самых низких частот, значительно превышает длинны волн звуков ими воспроизводимыми. Поэтому фантомный образ центрально-расположенных объектов при воспроизведении стерео-записей двумя АС всегда будет подвержен фазовым и спектральным искажениям.

Его точность и устойчивость зависит от многих факторов, основные из которых это – степень идентичности звуко-усилительных каналов воспроизводящего тракта, энергоемкость блока питания и чувствительность к пульсациям питания схемы усилителя мощности (разделение питания на два отдельных блока и трансформатора не решает этой проблемы т.к. в таком случае центральный образ будет деформироваться еще сильнее в виду не идентичности пульсаций питания в каналах, что вызывает еще большую асимметрию, улучшая при этом только разделение каналов и глубину пространственных эффектов), парная идентичность головок и электронных элементов в акустических системах, симметричность помещения прослушивания и расположения в нем акустических систем, точная позиция слушателя. И даже при полном соблюдении всех этих требований наш центральный образ все-равно будет искажен гребенчатым фильтром интерференции и тональный баланс его (спектр) будет зависеть от расстояния между АС т.к. изменяя расстояние мы меняем не только характер интерференции, но и частоту ее начала. Кроме того, при уходе слушателя из оптимальной точки прослушивания в центре между АС он автоматически становится слушателем уже не одного, пусть условно, но все-же точечного, источника, а уже двух, имеющих разбег по времени, соответствующий разнице расстояний между слушателем и каждой из акустических систем. Именно поэтому монофоническая система звуковоспроизведения, хоть и лишена возможности передачи перемещения источников по горизонтали (только по глубине, ибо как известно расстояние до источника наш мозг определяет по времени и характеру реверберации и это никак не связано с локализацией направления по горизонтали), но зато имеет 100% читабельность и стабильность всех инструментов как в точке прослушивания напротив АС, так и в любой другой точке помещения где сохраняется достаточное соотношение уровня прямого сигнала к отраженному. Вторым достоинством является практически полное отсутствие утомления, вызываемого ее прослушиванием ввиду того что такая система не создает напряжения для мозга в виде необходимости постоянного слежения за фантомным образом и фильтрации его от фазовых и частотных искажений. При этом, однако, к такой системе предъявляются гораздо более жесткие требования по динамическому диапазону т.к. сигналы обычно воспроизводимые сдвоенными АС и двумя каналами усиления здесь воспроизводятся уже только одной акустической системой и одним каналом усилителя. Второй момент – такая система должна иметь несколько отличающуюся от обычных стерео-систем форму АЧХ на НЧ т.к. при воспроизведении звука двумя акустическими системами составляющие спектра, имеющие длинны волн больше расстояния между АС складываются по уровню, тогда как сигналы имеющие более короткие длинны волн уже подвержены интерференции и складываются не так линейно. Следовательно — чтобы сохранить оригинальный тональный баланс записи, предназначенной для воспроизведения на двух АС, при работе на одной моно-АС нам необходимо создать подъем на НЧ порядка 6 дБ. Разница между распространением звуковых волн от точечного источника и от двух точечных источников хорошо видна на рисунке из учебника по физике Слободянюка А.И.:

Проблема фантомного центрального образа давно беспокоит умы любителей и профессионалов от аудио и создала уже несколько вариантов решения. Так многоканальные записи уже имеют в своем составе центральный канал. Который по-хорошему должен был бы быть и в стерео-формате. Однако при переходе от «моно» к «стерео» маркетологи сделали скорее всего правильный выбор и исключили центральный канал. Хотя казалось-бы есть прекрасно звучащее «моно» и единственное что ему не хватает это пространственные эффекты – добавляем два боковых канала для них и получаем идеальную с точки зрения передачи панорамы систему домашнего звуковоспроизведения. Но такая система была достаточно громоздкой и дорогостоящей и шансов у нее стать массовой практически наверно не было. Особенно с учетом того насколько редкой и дорогой тогда была звуковоспроизводящая техника сама по себе, а теперь представьте, что каждую домашнюю систему покупателям предложили-бы не удвоить, а утроить и по цене и по размерам. Результат очевиден. Современное распространение ДК обязано в первую очередь значительным падением цен на звуковые компоненты и как следствие появлением сверх-дешевых решений, что позволило продавать рядовым пользователям большее количество АС и каналов усиления, не превышая при этом их порог покупательской способности.

Итак, первым простым решением, получившим распространение в основном в автомобилях и иногда в профессиональном озвучивании стала банальная добавка к обычным стереофоническим АС центрального канала, в который подается сумма левого и правого канала воспроизведения. Это позволяет сделать более читабельным и стабильным центральный образ т.к. мозг получает возможность зацепиться уже не за фазово-нестабильный фантом, а за реальное прямое излучение физического источника.

Это решение, однако, не полноценно по той простой причине что введением такого канала мы нарушаем замысел оригинальной записи – полностью панорамированные в крайние положения звуки воспроизводятся уже не только левой или правой АС, но также и центральной, что вызывает смещение виртуальной позиции источников звука в записи относительно их оригинального местоположения. Плюс часто центральная АС имеет не идентичную основным АС конструкцию, что вызывает также и спектральные искажения панорамируемых звуков. По этой причине такую дополнительную АС обычно делают гораздо ниже по уровню, чем основные АС и выбирают этот уровень таким образом, чтобы появилась уже необходимая минимальная степень привязки к физическому центру нашего центрального фантома, но и при этом еще не сильно исказилась стерео-панорама и тональный баланс.

На всякий случай уточню еще раз – эти методы не имеют отношения к многоканальным форматам записи и воспроизведения т.к. там центральный канал формируется в виде отдельной независимой дорожки самим режиссером. Мы говорим исключительно о методах воспроизведения двухканальных записей.

Следующим кардинальным решением, как и логично было-бы предположить, стало использование цифровых сигнальных процессоров – DSP. Методика была изобретена итальянцем Фабрицио Монтануччи (Fabrizio Montanucci) и получила название «Deep Stereo».

В ее основе лежит сложный математический алгоритм, целью работы которого является извлечь из двух каналов всю синфазную составляющую и направить его в третий – центральный канал, удалив, при этом из него все несинфазные составляющие и направив их в боковые АС, таким образом, чтобы в каждую из них попадал только уникальный сигнал соответствующего канала, весь-же синфазный сигнал, имеющийся в обоих каналах и предназначенный для центральной АС, из боковых АС должен быть полностью удален. Кроме этого сигналы всех каналов проходят процесс различной частотно-амплитудной коррекции для того чтобы решить вышеописанную в статье проблему – перехода от излучения центрального фантомного образа двумя АС и перехода к аналогичному его воспроизведению, но уже с помощью одной АС. Таким образом автор формирует трехканальное стерео в соответствии с той формой, в которой оно должно было-бы сейчас существовать, если бы при переходе из «моно» центральный канал не был-бы удален.

 

Автор избавляется от проблем интерференционного искажения и нестабильности центрального образа, полностью отдавая его реальному физическому источнику, но также и сохраняя при этом все пространственные эффекты, присутствующие в записи. Недостатками такой системы можно назвать, во-первых, физическую перегруженность центрального канала и недогруженность основных стерео-АС, во-вторых – необходимость применения сложного нелинейного и частотно-зависимого процесса обработки сигнала, нуждающегося в подстройке и коррекции, плюс необходимость применения отдельного дорогостоящего устройства-процессора, что кроме того является так-же и потенциальным дополнительным источником искажений в тракте. Но основной недостаток — это конечно частотно- и фазово-зависимое вмешательство в запись и соответственно внесение искажения в замысел режиссера и оригинальный баланс композиции, которое не может остаться незамеченным на сложных поли-инструментальных записях. Более подробно на русском языке текст издательского дома «Technipress» об этой технологии для ее представления на 8-й пресс-конференции EISA в Брюсселе есть здесь: http://www.avtozvuk.com/az/2007/07/056.html .

После понимания этих двух методов мой интерес к трех-канальному стерео угас до знакомства с идеей Дэйва Молтона (Dave Moulton) (ссылка в начале статьи).

Здесь автор предложил простое и элегантное решение проблемы, а именно – сформировать центральный канал простой суммой левого и правого, как в самом первом описанном методе. Затем-же он предлагает не использовать сложные электронные коррекции и преобразования, а применить тот-же принцип психоакустики, который позволил создать сам «стерео»-формат. Итак, боковые – левую и правую АС мы должны расположить не в вершинах равностороннего прямоугольника, как мы обычно ставим нашу стерео-акустику, а на таком-же расстоянии, на котором находится от нас центральная АС, но под углом уже не 30°, а 60° (в оригинальной статье автор предлагает значения 36° и 72°). Другими словами, мы выбираем угол между центральной АС и боковой таким образом, чтобы при переводе баланса звука в крайнее положение в одну из сторон фантомный образ, создаваемый излучением центральной АС и боковой попадал как раз в то место, куда мы-бы поставили обычные стерео-АС. Таким образом мы получаем реальный живой центральный канал, при этом боковые АС у нас стали фантомными, но расположены оказались как раз в тех местах, где и должны быть расположены для оптимальной стерео-картинки. Т.е. по сути мы просто перевернули стерео-формат «наоборот» — был фантомный центр и реальные боковые АС, а стал – реальный центр и фантомные боковые.

Послушав некоторое время эту конфигурацию, не знаю как у Дэйва, но лично у меня через пол часа возникло непреодолимое желание логичного развития этой системы.

А именно – заменить и боковые фантомы также живыми АС.

Как это работает. На центральный канал мы подаем суммы левого и правого каналов с уровнем -6дБ. Почему -6дБ, потому что при суммировании синфазные сигналы складываются и центр у нас начинает играть в два раза громче остальных АС. Левая и правая, назовем их – «основные» стерео-АС, имеют уровень 0дБ и стоят по классическому равностороннему треугольнику под углом 30° от центра и на таком-же расстоянии от центра места прослушивания. «Дополнительные» боковые АС стоят под углом 60° от центра, также на равном расстоянии, как и все остальные АС, получают чистые сигналы левого и правого каналов соответственно и имеют уровень -6дБ.

Подаем моно-сигнал с одинаковой громкостью в обоих каналах, что соответствует позиции источника в центре стерео-панорамы. Основные левая и правая АС с уровнем 0дБ начинают воспроизводить этот сигнал и создавать центральный моно-фантом, который активно подхватывается физическим центральным каналом, который получает сумму левого и правого каналов с уровнями -6дБ, что соответствует фактическому уровню 0дБ когда эти сигналы одинаковы и синфазны. Дополнительные боковые АС воспроизводят так-же каждая свой канал, но с уровнем -6дБ и так как расположены они так-же симметрично, как и основные стерео-АС, то так-же начинают участвовать в формировании центрального фантома, но их вклад нивелируется фронтальными тремя АС т.к. они работают с на 6дБ большим уровнем. Что при этом слышит слушатель? Слушатель, находящийся в расчетном месте прослушивания получает полную иллюзию того что звучит только одна физическая акустическая система, расположенная по центру. Теперь переводим баланс до конца в одну из сторон. Одна из основных стерео-АС получила сигнал с уровнем 0дБ, центральная АС получила его-же с уровнем -6дБ и дополнительная боковая АС получила тот-же сигнал и тоже с уровнем -6Дб. Т.е. центром физического излучения стала основная стерео-АС, равноудаленные-же от нее дополнительная боковая и центральная АС стали формировать моно-фантом с акустическим центром на все той-же основной боковой АС и соответственно сами не слышны как отдельные источники. Если все расстояния и углы соблюдены, правильно сформирован сигнал центральной АС и правильно и точно выставлены уровни, слушатель получает 100% ощущение того что звучит только одна основная стерео-АС. При переводе баланса в противоположную сторону – противоположная. Когда убедились, что все настроено правильно и центральная и боковые позиции звучат идеально собранно, локализуются только из соответствующих АС, можно включать музыку. Желательно немного скорректировать весь тональный баланс по микрофону т.к. у нас увеличилась площадь излучения и ушла значительная часть интерференционных явлений на НЧ.

Результатом является полное исчезновение размытых звуков в миксе, панорама становится сплошной и непрерывной как экран в кинотеатре. Все звуки живые и идеально точные. Позиции всех источников можно измерять рулеткой до сантиметра, настолько точно и легко они определяются. Полное впечатление того что система имеет 3 раздельных равнозначных канала и воспроизводит 3-х канальную запись. Происходит это потому что, как это уже говорилось выше, звуки панорамированные в центр воспринимаются как воспроизводимые только центральной АС, звуки панорамированные влево или вправо воспринимаются как звучащие исключительно из соответствующих боковых АС, дополнительные боковые АС при этом не слышны.

Таким образом полностью сохраняется пространственно-панорамный замысел композиции и звукорежиссера, мы не подвергаем сигнал никаким нелинейным обработкам и не вносим в него ничего дополнительного, что позволяет назвать такую систему именно способом наиболее точного воспроизведения стандартного двухканального стерео-сигнала. При этом мы принципиально решаем проблему фантомного центрального образа и делаем локализацию источников в записи по панораме прецизионно точной и полностью соответствующей оригиналу.

 

Рогожин Александр.

2014г., г. Киев.

Facebook: https://www.facebook.com/pages/Rogozhin/442649795770232