СЛУХОВАЯ СИСТEМА М 2006 143 С 3 | Библиотека YURII.RU

В то же время надо понимать, что волны всех частот пробегают по всем участкам мембраны и, если некоторый участок и вибрирует сильнее, то это не единственный и, возможно, даже не главный фактор частотной селективности кортиева органа. Вероятно, большую роль в обострении (и вообще в формировании) частотной избирательности кортиева органа играют процессы "торможения" чувствительности рецепторов, прилегающих к участку наибольшего возбуждения. Это свойственно и другим сенсорным системам человека. Вероятно, для того чтобы не исключать этот эффект, нобелевский лауреат Георг Бекеши, получивший премию за исследование процессов в улитке, в качестве модели кортиева органа использовал собственную руку и писал о работе своей модели: "Хотя бегущая волна распространялась по всей длине мембраны почти с одинаковой амплитудой, мне казалось, что вибрирует лишь участок мембраны длиной 2...3 сантиметра" (общая длина модели составляла 30 см). Поэтому правильней фильтрующие функции рис. 1.16 рассматривать как результат совместного действия механических свойств улитки и торможения чувствительности рецепторов вокруг экстремума.
Ширина экстремума функций рис. 1.16 определяет ширину зоны возбуждения кортиева органа по частоте и называется шириной частотной группы слуха. Косвенно ширина частотной группы слуха оценивается по исследованию маскировки чистого тона полосой шума с той же средней частотой. До определенного предела безразлично, увеличиваем ли мы спектральную плотность мощности шума или расширяем его полосу. Этот предел и соответствует ширине зоны возбуждения (рис. 1.17).

Рис. 1.17 ? Зависимость ширины частотной группы слуха ?fкр от частоты
сигнала f

Скорость изменения параметров узкополосного сигнала (амплитуды и фазы) пропорциональна его полосе частот, поэтому данное функциональное преобразование позволяет снизить требования к скорости обработки сигналов на отдельных участках кортиева органа до физиологически реальных пределов.
Важно отметить, что для спектральных составляющих, входящих в одну частотную группу, на слуховое восприятие влияют фазовые соотношения между ними. Т.е. наклон фазочастотной характеристики (ФЧХ) не должен превышать некоторой величины, за которой компоненты в одной частотной группе существенно расфазируются. Определить этот наклон (а это по существу групповое время запаздывания (ГВЗ)) можно как величину, обратную ширине частотной группы (рис. 1.18).

Рис. 1.18 ?Оценка порога чувствительности слуха к фазовременным
искажениям исходя из ширины частотной группы слуха

Этот же эффект можно рассматривать и с другой стороны: как игнорирование слухом частотной неравномерности группового времени запаздывания величиной несколько миллисекунд. Это должно рассматривать не как досадный недостаток разрешающей способности, а как полезный эффект, который игнорирует типичные и не несущие полезной информации искажения сигнала при его излучении и распространении. Это свойство, однажды возникнув в процессе эволюции, влечет за собой очень важные последствия:
1) основными слышимыми свойствами сигнала становятся его спектральные признаки: высота и тембр;
2) практическую значимость приобретают сигналы хоть и широкополосные, но с относительно медленно меняющимися свойствами: периодические сложной формы (тональные) и шумоподобные (нетональные);
3) точная форма сигнала не является существенной (как, например, для видеосигнала), поэтому прямое сравнение форм звуковых сигналов, например, по методу наименьших квадратов, совершенно бессмысленно (равно как и наблюдение их на экране осциллографа) - энергия разности двух идентичных на слух сигналов может быть сопоставима с энергией самих сигналов.
Итак, небольшие искажения ГВЗ и формы сигнала являются допустимыми, однако уложиться под кривую, приведенную на рис. 1.18 довольно сложно; часто на это вообще не обращают внимания.
Следует отметить, что функциональное преобразование сигнала в кортиевом органе только лишь подобно преобразованию Фурье, поскольку последнее некаузально, требует интегрирования в бесконечных пределах и, таким образом, физически нереализуемо. Внимания этому моменту уделяется недостаточно, в частности, непосредственно приписывать кортиеву органу шкалу частот, строго говоря, некорректно. За неимением лучшей модели этим подходом можно пользоваться, но помнить при этом о его упрощенности.
Колебания основной мембраны нелинейны. При уровнях сигнала свыше 90 дБ это становится существенным. Продукты нелинейных преобразований, появившиеся в результате нелинейности колебаний мембраны, сложно отличить от физически поступающих в ухо звуков, и сделать это можно только для простейших сигналов, таких как набор нескольких синусоид, с заранее известными свойствами.

1.4.3 Обработка сигнала нервной системой

Важнейшее свойство нервной системы - наличие памяти. В памяти хранятся врожденные и накопленные жизненным опытом образы и реакции. Важным свойством памяти является хранение характерных, типичных черт образа и нивелирование случайных, не имеющих отношения к делу характеристик. Иными словами, в памяти хранятся обобщенные образы "скрипка вообще", "певческий голос вообще" и т.д. На этом свойстве основывается все современное здание Hi-Fi (high fidelity - высокая верность (англ.)) и Hi-End (high end - наивысшая точка (англ.)), т.к. практически значимой для слушателя является верность именно внутренним, хранящимся в памяти, образам звуков.
Существенную роль при обработке нервной системой поступающих сигналов играет внимание - осознаваемое субъектом ограничение поля восприятия, фокусирование восприятия на определенной его части. Например, благодаря вниманию человек способен выделить голос собеседника из шума толпы или звучание отдельного инструмента в оркестре.
Сканирование поля восприятия - перевод внимания с одних аспектов поступающего потока информации на другие. Это очень важный процесс, поскольку исследования показывают, что одновременно может восприниматься один (или очень небольшое количество) образ.
Установка на доминанту - априорная (доопытная) готовность субъекта к селективному восприятию отдельных аспектов явления, включая предполагаемый результат восприятия. Обычно установки формируются как обобщение предыдущего опыта восприятия похожих явлений или как отображение текущих целей воспринимающего субъекта. В других случаях формирование установок происходит под действием авторитетного мнения или мнения большинства. Это тоже учет опыта, только чужого, если нас удастся убедить, что это опыт. Это полезно, но только в том случае, если при конфликте установки с чувственным опытом приоритет остается за реальными ощущениями. Не особенно преувеличивая, можно сказать, что тренировка слуха музыкантом или аудиофилом представляет собой выверенную систему установок на доминанту.
Прямое сравнение образа и объекта невозможно, т.к. объект описывается в терминах физики, а образ ? в терминах ощущений. Но можно говорить об адекватности образа, если выводы, сделанные наблюдателем, подтверждаются опытом. Неадекватный образ называется иллюзией.
Константностью восприятия называется поддержание адекватности образов в условиях, когда физические воздействия (стимулы) на органы чувств подталкивают к обратному. Примером служит поддержание постоянной оценки мощности источника звука при его перемещениях.
Порог - значение стимула, при котором он начинает восприниматься. Большинство порогов зависят от действия других стимулов. Возможные варианты совместного действия стимулов следующие.
1. Индифферентное - стимулы не влияют на пороги друг друга.
2. Синергичное - один или оба порога понижаются (демаскировка). Взаимно демаскируются, как правило, компоненты, корреляционно связанные друг с другом. Например, после того как Вы включили радиоприемник, можете заметить, что у соседей включена та же программа, хотя до этого Вы ничего не слышали. Механизм демаскировки в данном случае состоит в концентрации внимания на демаскирующем сигнале и, соответственно, похожих на него. Взаимная демаскировка проявляется, вероятно, и по отношению к отдельным элементам сигнала, однако содержательное исследование этого эффекта крайне затруднено неразделимостью образа на части, проявляющейся в этом случае особенно остро.
3. Антагонистическое - один или оба порога повышаются (маскировка). В этом случае один из стимулов называется маскером.
Стимулы не обязательно должны иметь одинаковую природу. Из других сенсорных систем по отношению к слуху особенно заметна (де)маскировка со стороны зрительной системы. Например, в телевизионных системах искажения звука в целом менее заметны. Это пример маскировки. Визуальный захват источника звука повышает точность локализации (демаскировка). И наоборот, отсутствие зрительной информации приводит к искажениям в получаемых эмоциях, даже если звуковой сигнал передан совершенно точно. Поэтому математически точная передача даже трехмерного звукового поля не является безусловным идеалом. Возможно, более похожее на живой концерт ощущение человек испытает от в чем-то гипертрофированного (т.е. формально искаженного) звучания.
Кодирование сигналов в нервной системе
Волосковые клетки и нейроны работают в бинарном режиме. С волосковой клеткой контактирует "входной" отросток нейрона - дендрит, оканчивающийся синапсом. Между синапсами и источниками сигнала (в данном случае волосковыми клетками) имеется небольшой промежуток, называемый синаптической щелью. При акустическом воздействии волосковые клетки выделяют в синаптическую щель вещество, называемое медиатором. Плазма нейрона имеет электролитические свойства - ее молекулы разделены на положительно и отрицательно заряженные ионы. Медиатор изменяет разность потенциалов, приложенную к клеточной мембране, и через нее возникает обмен ионами между плазмой нейрона и межклеточной жидкостью. Этот процесс занимает 1...2 мс. Электрохимический процесс распространяется вдоль нейрона и, дойдя до выходного отростка - аксона, завершается выделением медиатора в следующую синаптическую щель. Скорость распространения сигнала по аксону 0,1...10 м/с.
Надо отметить, что модели механизмов кодирования сигнала и обработки в центральной нервной системе носят характер достаточно обоснованных, но все-таки гипотез: точно известны лишь входной звуковой сигнал, результат обработки и некоторые сведения о видах активности групп нейронов и взаимосвязях отделов нервной системы. "Срисовать" алгоритм работы мозга крайне сложно в силу большого количества, однотипности элементов нейронной сети и затруднительности неразрушающего исследования.
По современным представлениям, слух использует два разных алгоритма кодирования сигнала.
1. На частотах до 3...4 кГц кодируется форма сигнала. Нейроны имеют разные пороги срабатывания, поэтому сигнал кодируется номером нейрона с самым высоким порогом и числом сработавших нейронов. Однако частота следования импульсов в отдельно взятом нейроне не может превышать 300?400 Гц, т.к. на выделение медиатора и восстановление электрического равновесия уходит 1...2 мс. Поэтому на средних частотах (СЧ) близкорасположенные нейроны объединяются в группу (до 10 нейронов) и возбуждаются периодами сигнала по очереди (это положение называется теорией залпов). Этот алгоритм требует периодической структуры сигнала на протяжение порядка 10 периодов, что в частотной области означает узкополосный сигнал с шириной полосы около 300...400 Гц. Это обеспечивается функциональной фильтрацией сигнала в улитке. Таким образом, диапазон частот кодируемого сигнала достигает 3...4 кГц.
2. На частотах выше 4 кГц возможности организации последовательной работы нейронов исчерпываются и кодируется не сам сигнал, а его огибающая. Сигнал нейрона уже не несет информации о частоте, частотная информация извлекается из точки его подключения к коритеву органу. Иными словами, для определения высоты тона используется положение максимума амплитуды бегущей волны на основной мембране.
В пользу изменения алгоритма определения частоты свидетельствует и тот факт, что музыкальный звукоряд простирается только до 4 кГц. Замена кодирования мгновенных значений сигнала на частотах выше 4 кГц кодированием огибающей имеет весьма важные последствия.
1. Разрешающая способность по частоте в диапазоне высоких частот заметно уменьшается.
2. Наиболее важным становится наличие высокочастотного сигнала с определенной огибающей, и не столь важно, какая у него частота заполнения (в пределах трети октавы).
3. Если огибающая высокочастотного сигнала является периодическим сигналом звуковой частоты, то ее частота и воспринимается в качестве высоты тона. В спектральной области это означает, что в качестве высоты тона воспринимается не какая-либо физически существующая частота, а период сложного сигнала.
4. Разделимость сигналов нескольких источников заметно падает, если они не содержат спектральных составляющих ниже 4 кГц. Если же низкочастотные составляющие присутствуют, то разделение, вероятно, производится "присоединением" высокочастотного призвука к низкочастотному сигналу со сходным поведением во времени.
Таким образом, до 4 кГц царство тонального звука (деревянные духовые, фортепиано), а выше - царство нетонального (атаки, щипки струн и т.д.). Использование этого факта при конструировании акустических систем может быть очень продуктивным: СЧ / ВЧ-раздел на частоте 4 кГц с хорошим акустомеханическим спадом АЧХ среднечастотного громкоговорителя позволяет получить мягкий тональный звук и не отягощенный интермодуляцией нетональный.

1.5 Собственно восприятие

Восприятие в целом можно разделить на две составляющих:
1) восприятие содержания звука;
2) восприятие пространственных характеристик источника звука.
Будем рассматривать их по порядку.

1.5.1 Восприятие содержания

Под восприятием содержания будем понимать восприятие эмоций и информации, закодированных во временной форме сигнала вне зависимости от ее пространственных характеристик. Собственно, эмоции - это тоже информация, но особого рода.
В этой связи перед нервной системой стоят две задачи:
1) селекция нужного источника;
2) собственно извлечение информации из формы сигнала.
Условие разделения сигналов разных источников: два сигнала можно разделить, если один из них нельзя представить как второй, измененный по амплитуде и сдвинутый во времени (причем это касается не отдельных периодов времени, а всего сигнала). В противном случае мы слышим либо эхо, либо один кажущийся источник звука (КИЗ), расположенный между реальными источниками.
Если указанное условие выполняется (а оно выполняется даже для исполнителей, поющих в унисон), то разделить сигналы Вы можете только в том случае, если в Вашей слуховой памяти есть образцы разделяемых сигналов по отдельности. Эти образцы не обязательно должны быть точными (например, голос конкретного человека), достаточно, чтобы эти образцы описывали то, что присуще сигналам по отдельности, но не присуще их суперпозиции. Образцы слуховых образов, хранящихся в слуховой памяти можно, разделить на врожденные и приобретенные.
Наиболее правдоподобная гипотеза того, как конкретно осуществляется разделение источников, состоит в том, что осуществляется корреляционное (или какое-либо другое) сравнение поступающей смеси сигналов с имеющимися образцами. Если обнаружен аддитивно существующий в смеси интересующий нас компонент, то формируется соответствующий образ.
Теперь относительно собственно восприятия содержания.
Можно выделить три уровня восприятия музыкального произведения:
1) восприятие звука (восприятие основных характеристик отдельных фрагментов звуковой волны);
2) восприятие эмоций, заложенных в отдельные музыкальные фразы;
3) восприятие музыкального произведения в целом.
Они не лучше и не хуже друг друга, это звенья одной цепи. Далее рассмотрим только первый уровень. Основные слышимые характеристики звука - громкость, высота, тембр. Рассмотрим первые две, т.к. относительно третьей пока можно высказать только самые общие соображения.
Восприятие громкости
Упрощенно говоря, человек оценивает не то, на сколько изменилась мощность источника, а во сколько раз она изменилась. Это позволяет иметь больший динамический диапазон и более стабильную относительную погрешность.
Уровни
В связи с логарифмической зависимостью слухового ощущения от возбуждающего стимула характеристики звуковых сигналов также выражают в логарифмической шкале. Но логарифм можно брать только относительно безразмерных положительных величин. Поэтому логарифмируют не сам параметр p, а его отношение к некоторому опорному p0 (нулевому в логарифмической шкале):
.
Значение логарифма ? вещь, конечно, безразмерная, но к ней для удобства принято добавлять наименование: Бел (в честь Александра Белла). Бел - крупная единица, соответствует изменению параметра в 10 раз. Поэтому повсеместно применяется одна десятая Бела - децибел [дБ]. 1 дБ соответствует изменению параметра ~1,26 раз и примерно соответствует порогу чувствительности слуха к изменению громкости.
Значения параметров, выраженные в логарифмической шкале (конкретно, в дБ), называются уровнями.
По причине невозможности логарифмирования неположительных величин невозможно вычислять уровень мгновенного значения знакопеременной величины (звукового давления и т.д.). Когда говорят об уровнях, речь идет только об огибающей или мгновенной амплитуде. Это одновременно является и положительным и отрицательным моментом. Плюс состоит в том, что слух фиксирует огибающую как одну из характеристик звука, как текущую громкость. Минус в том, что нет ни однозначного математического описания того, что такое огибающая, ни точного представления о том, как именно определяется текущая громкость слуховым аппаратом. В связи с этим, наряду с указанием значения уровня, указывают и способ определения огибающей (пиковые уровни, квазипиковые уровни, средние уровни).
Для того чтобы значение уровня не зависело от того, какая из характеристик (линейных или энергетических) является параметром, уровень вычисляют различным образом для линейных и энергетических характеристик:
1) для энергетических параметров (мощность, энергия, интенсивность, плотность энергии): ;
2) для линейных параметров (давление, колебательная скорость, напряжение, ток): .
Классификация уровней
По физической природе параметра:
1) акустические;
2) электрические.
По существу опорного уровня:
1) абсолютные (опорный уровень физически обусловлен);
2) относительные.
Физически обусловленные нули акустических уровней: pзв0=2·10-5 Па, I0=10-12 Вт/м2, ?=3·10-15 Дж/м3. Эти величины точно не укладываются в формулы взаимосвязи интенсивности, давления и плотности энергии (см. раздел 1.2), но, тем не менее, ограничиваются одной значащей цифрой, поскольку характеризуют они самый тихий звук, который еще может быть воспринят человеком, а эта величина не слишком стабильная и от индивида к индивиду, и в зависимости от характера звука. При нормальных атмосферных условиях акустические уровни по давлению, интенсивности и плотности энергии равны Np?NI?N?, поэтому обычно не указывают, по какому физическому параметру вычисляется акустический уровень.
Условный нуль абсолютных электрических уровней: 1 мВт на нагрузке 600 Ом. При этом P0=1 мВт, u0=0,775 В, i0=1,29 мА. Уровни мощности, напряжения и тока в одной и той же точке могут различаться в зависимости от сопротивления нагрузки. Поэтому к названию децибела добавляется наименование физической величины, по которой измеряется уровень: дБн, дБт, дБм. дБ/Вт, дБ/мкВ означает уровень относительно Ватта и микровольта соответственно.
Статика восприятия громкости
По отношению к громкости есть два параметра.
1. Уровень громкости - это уровень тона частотой 1 кГц, субъективно равного по громкости оцениваемому сигналу. Единица измерения - фон. Недостаток этой единицы - опора на синусоидальный сигнал - сигнал, который в естественных условиях не встречается и воспринимается с заметными погрешностями. Уровень громкости - это не громкость, это уровень сигнала с нивелированием частотной зависимости чувствительности слуха. Изменение уровня громкости, например, с 40 до 80 фон не означает, что субъективная громкость изменяется вдвое.
2. Собственно субъективная громкость измеряется в сонах. 1 сон - громкость тона 1 кГц при уровне 40 дБ. Двукратное увеличение субъективного ощущения громкости происходит при увеличении уровня сигнала до 50 дБ:
G(сон)=2(L(фон)-40)/10 40?L?120.
Графически зависимость субъективной громкости G от уровня громкости L представлена на рис. 1.19.

Рис. 1.19 ? Связь между уровнем громкости и громкостью

Для f=1000 Гц, когда уровень громкости в фонах численно равен уровню в дБ:
.
Эта зависимость носит название закона Стивенса (степенная зависимость громкости от характеристик поля): громкость в средней части звукового диапазона частот пропорциональна линейным характеристикам звукового сигнала в степени 0,6 или энергетическим характеристикам в степени 0,3.
Динамика восприятия громкости
Динамику восприятия громкости можно разделить на две составляющих:
1) по времени;
2) по амплитуде.
Динамика восприятия громкости по амплитуде
Основное понятие в этом отношении - дифференциальный порог по уровню громкости. Для L>40 дБ составляет 0,5...1 дБ (что и объясняет распространение дБ в качестве единицы уровня).

Динамика восприятия громкости по времени
Интервал времени, в течение которого вычисляется большая часть характеристик сигнала, составляет от 80 до 140 мс (в зависимости от субъекта) и называется временным окном слухового анализатора. Средняя величина составляет около 100 мс.
После восприятия атаки сигнала чувствительность слуха притупляется на 30...40 мс. Этот феномен называется законом первой волны и служит для подавления реверберации. Полезно отметить, что снижается чувствительность обоих ушей, даже если сигнал подается на одно. Сигнал, приходящий после 30...40 мс, уже воспринимается, как эхо.
Восприятие высоты
Статика восприятия высоты
Числовое значение частоты в Гц, как и расположение высоты в музыкальном звукоряду, отражает не субъективное ощущение высоты, а параметры воздействия, которое это ощущение вызывает. Субъективное ощущение высоты тона H измеряется в мелах (здесь можно усмотреть аналогию с уровнем громкости в фонах и громкостью в сонах). Зависимость субъективного ощущения высоты от частоты сигнала представлена на рис. 1.20. Видно, что на высоких частотах ощущаемая высота растет медленнее, чем частота сигнала. Это объясняется насыщением импульсной активности нейронов и сменой алгоритма определения высоты. Для того чтобы определиться с единицей изменения высоты, устанавливают численное соответствие между высотой и частотой в некоторой точке. В качестве такой точки выбирается либо "до" малой октавы (131 Гц), либо 1000 Гц. Первый вариант более удобен, поскольку обеспечивает численное соответствие высоты и частоты в наиболее употребительном диапазоне.

Рис. 1.20 ? Зависимость субъективного ощущения высоты от частоты сигнала
Динамика восприятия высоты
Высота тона в диапазоне 100...1000 Гц определяется приблизительно за 5 периодов сигнала вне зависимости от его частоты и за 5 мс при более высоких частотах.
Алгоритм определения высоты, как и многие другие алгоритмы обработки информации в нервной системе, плохо работает на стационарном сигнале. В слуховой коре больших полушарий мозга имеются группы клеток, которые никак не реагируют на чистые тона, зато реагируют на изменение параметров сигнала, причем одни нейроны реагируют только на повышение частоты, другие - только на понижение, третьи на любое изменение. Эти частотные детекторы реагируют на частотную модуляцию с частотой до 7...12 Гц и наибольшую чувствительность имеют, когда во временное окно слухового анализатора укладывается половина периода частоты модуляции, что соответствует частоте модуляции 3,5...6 Гц. Этим свойством слухового аппарата объясняется большое эстетическое значение вибрато. А для электроакустики это означает недопустимость эффекта Доплера (возникает, когда излучение некоторого тона сопровождается перемещением подвижной системы излучателя другими компонентами сигнала), детонации (знакопеременные отличия скорости воспроизведения сигнала от скорости записи) и джиттера (знакопеременное несоответствие момента выдачи очередного отсчета в цифровых системах номинальному значению).
Кривые равной громкости
Кривые равной громкости (рис. 1.21) отображают зависимость уровня громкости от частоты. Измеряются они установкой такого уровня сигнала заданной частоты, чтобы он был равногромким сигналу частотой 1 кГц. Это своего рода АЧХ слуха, причем изменяющаяся с уровнем громкости.

Рис. 1.21 ? Стандартные кривые равной громкости: 1 - порог слышимости;
2 - порог болевого ощущения

Воспринимаемый диапазон частот составляет в лучшем случае 16...20000 Гц. Данный диапазон частот называется звуковым. Более низкие частоты называются инфразвуковыми и слухом не воспринимаются, но могут ощущаться в виде кинестетических ощущений. Наиболее значимы при таком восприятии частоты, совпадающие с резонансными частотами различных органов тела: желудка, мембраны, легких и т.д. Они составляют единицы Гц. Кроме того, излучение чистого инфранизкого тона без заметных на слух гармоник (которые уже попадают в звуковой диапазон) ? чрезвычайно сложная задача, поэтому наличие инфранизких частот может фиксироваться косвенно по наличию заметных гармоник.
Нужно отметить, что никакая частота или узкий диапазон частот не воспринимаются отдельно хотя бы потому, что для широкополосного сигнала энергия, переносимая отдельной частотой, очень мала. Кроме того, чувствительность слуха по отношению к одним компонентам сигнала может меняться под воздействием других, поэтому непосредственная неслышимость некоторого диапазона частот не повод утверждать, что этот диапазон частот не вносит вклада в общее ощущение от звука.
Неравномерность чувствительности слуха не следует воспринимать только как недостаток слуховой сенсорной системы. В частности, относительно малая чувствительность слуха на низких частотах при невысокой громкости способствует уменьшению маскировки важных для человека средних частот. Выброс чувствительности в окрестности 3...4 кГц обусловлен резонансом слухового прохода, достаточно быстрый в области ВЧ спад (на верхней границе слышимого диапазона частот до ~60 дБ/окт) связан с фильтрующими свойствами среднего уха и, вероятно, с тем, что экстремум колебаний кортиева органа оказывается вблизи точки крепления основной мембраны. С возрастом верхняя граница диапазона слышимых частот снижается.

1.5.2 Восприятие пространственных характеристик

Локализация источника звука - процесс определения его пространственных координат.
Кажущийся источник звука (КИЗ) ? субъективный звуковой образ источника звука, располагаемый определенным образом в пространстве. Положение и количество КИЗ не всегда адекватно расположению и количеству реальных источников звука. Более того, задача электроакустики в плане передачи пространственных характеристик - именно формирование иллюзий, неадекватных КИЗ, поскольку положение акустических систем фиксировано, а пространственные характеристики первичных источников меняются.
Процесс локализации можно разделить на две части:
1) угловая локализация;
2) локализация по дальности.
Будем рассматривать их по порядку.
Угловая локализация
По современным представлениям человек использует четыре дублирующих и дополняющих друг друга механизма угловой локализации [9]. Результатом их совместного применения является точность, которая на фоне размера апертуры и количества антенн (2 шт., разнесенные на ~ 17 см) является просто поразительной.
1. По азимуту (?). Для ?=0°: 2°, для ?=?90°: 10° [10].
2. По углу места для сложных сигналов: 4° [10].
3. По дальности: звуки метронома, речь на расстоянии 3...5 м: 25% [9].
Заметные ошибки локализации в обыденной обстановке ? явление весьма редкое.
Механизмы угловой локализации следующие:
1) анализ кода, заложенного в поступающий на барабанную перепонку сигнал, углозависимой частотной характеристикой ушной раковины [9];
2) анализ бинауральных различий ушных сигналов;
3) анализ изменений ушных сигналов, возникающих при перемещении головы (моторный механизм локализации);
4) использование информации, поставляемой другими сенсорными системами.
Будем рассматривать их по порядку.
Использование углозависимой АЧХ ушной раковины
Положение пеленговых полос (специфических для данного направления участков подъема или провала АЧХ) приведено в таблице 1.1.

Таблица 1.1
Направление прихода звука по углу места (?) F, кГц Спереди (? =-15°...45°) 0,25...0,6; 3...7 Сзади (? =135°...195°) 0,7...1,8; 9...14 Сверху (? =45°...135°) 7...9
Данный механизм нормально работает, если спектр звука перекрывает несколько пеленговых полос. При этом большое значение имеет предварительное знакомство слушателя со спектром локализуемого источника.
Это единственный способ локализации по углу места при неподвижной голове и отсутствии информации о положении источника со стороны других сенсорных систем. Он является причиной возникающей иногда иллюзии вертикального разделения КИЗ при расположении громкоговорителей в одной плоскости.
Ниже 250 Гц размеры ушей и головы не позволяют иметь существенную зависимость АЧХ от угла, и этот механизм не в состоянии определить направление на источник. Важно, однако, отметить, что источников, спектр которых был бы полностью сосредоточен в диапазоне до 250 Гц, практически не бывает (даже при специальном стремлении к этому, как в случае с так называемыми сабвуферами), поэтому большинство источников звука по углу места локализуются.
Анализ бинауральных различий ушных сигналов
Это основной механизм локализации по азимуту. Обеспечивает локализацию в пределах ?=?90°.
В бинауральных различиях ушных сигналов можно выделить две составляющих:
1) амплитудные различия, возникающие вследствие экранирующего действия головы;
2) фазовременные различия, возникающие за счет разной длины пути волны до ушей.
Анализируются обе составляющих, что обеспечивает дублирование и взаимодополнение результатов. Важно, чтобы результаты амплитудных и фазовых оценок не конфликтовали друг с другом. Подсознательный конфликт разных механизмов оценки параметров звука (не только пространственных) может вызывать непонятный дискомфорт при прослушивании. В ряде случаев такую ситуацию могут создавать электроакустические системы, например при прослушивании через головные телефоны фонограммы с "интенсивностной" стереофонией в отсутствие "временной".
Основная проблема измерения фазовой составляющей бинауральных различий - неоднозначность определения направления, т.к. на частотах выше ~800 Гц разность фаз может составлять несколько периодов. Решается эта проблема, вероятно, следующим образом. Т.к. на каждую волосковую клетку действует относительно узкополосный сигнал, неоднозначность определения фазового сдвига "частоты заполнения" можно устранить, анализируя фазовый сдвиг огибающих. Это эквивалентно измерению не фазового сдвига, а производной фазового сдвига по частоте (а это есть групповое время запаздывания). Такой способ корректно работает в диапазоне ширин критической полосы слуха до 800 Гц, т.е. до 3...4 кГц. В области более высоких частот работа данного механизма локализации может быть нарушена при доминировании в огибающей периодического сигнала с частотой более 800 Гц, т.е. и сдвиг огибающих может превышать один период.
Наибольшее значение при оценке сдвига огибающих имеет нарастающий фронт волны. Кроме того, лучше, если сигнал имеет при этом длящееся продолжение, это удерживает на нем внимание и способствует наиболее точному определению как тембральных, так и пространственных характеристик. Таково большинство музыкальных звуков.
Ниже 250 Гц различия ушных сигналов несущественны, и определить направление на источник на основе их отличия невозможно.
Синтез апертуры при сканирующих движениях головы
Из изменений ушных сигналов при перемещении головы можно извлечь информацию о пространственных координатах источника. Например, если при повороте головы не происходит изменений ушных сигналов, то это значит, что источник имеет угол места 90°. Это является одной из причин эффекта локализации звука внутри головы при прослушивании передач через головные телефоны и подъема центра стереопанорамы при чрезмерной ее ширине, поскольку в обоих случаях при повороте головы ушные сигналы изменяются меньше, чем должны были бы при данном угловом положении КИЗ.
Поворот головы в горизонтальной плоскости может служить основой для решения вопроса спереди/сзади, а качание влево-вправо - для решения вопроса сверху-снизу. Эту же задачу выполняет слежение за спектром в пеленговых зонах. Некоторые эксперименты показывают, что если между этими двумя механизмами возникает конфликт, то приоритет имеет оценка, полученная при сканирующих движениях головы.
Для нормальной работы данного механизма локализации необходима информация о направлении и скорости перемещения головы. Такая информация поставляется тремя сенсорными системами:
1) зрительной системой;
2) вестибулярным аппаратом (датчики вестибулярной системы - полукружные каналы, совмещены с улиткой);
3) тензомоторными датчиками шейных мышц.
Локализация по дальности
Механизм локализации по дальности наименее изученный и наименее точный. Точность определения дальности составляет около 25% [9]. Но и это для пассивного пеленгатора с базой около 17 см поразительный результат. Вероятно, основной причиной локализации звука внутри головы при прослушивании через головные телефоны является корректная локализация действительного источника звука по дальности.
Более-менее определенно можно указать лишь параметры, на которые в принципе можно ориентироваться при локализации по дальности.
1. Громкость звука. В совокупности со сведениями о мощности источника и условиях распространения это позволяет определить дальность.
2. Спектральный состав. При удалении источника звука высокие частоты затухают быстрее. Если известен спектральный состав сигнала источника, то можно определить дальность.
3. Кривизна волнового фронта.
4. Акустическое отношение (связано с дальностью).
5. Изменение ушных сигналов при перемещениях.
6. Использование информации от других сенсорных систем.
Большое значение имеет ознакомление с источником, т.к. для корректной локализации по дальности нужны сведения о мощности и спектральном составе сигнала источника.
Полезно отметить следующие экспериментально установленные феномены локализации по дальности.
1. При увеличении громкости звука и неизменном положении источника КИЗ приближается к слушателю.
2. При удалении источника звука на расстояние более 3 м КИЗ начинает отставать от источника. Таким образом, при бесконечном удалении источника слуховой образ не может удаляться бесконечно далеко. Граница, за которую не может удалиться кажущийся источник звука, называется акустическим горизонтом.
Глава 2. ПРЕОБРАЗОВАНИЕ ЗВУКОВЫХ СИГНАЛОВ В ЭЛЕКТРИЧЕСКИЕ И ОБРАТНО

Помещение, в котором источниками звука создается звуковое поле (называемое первичным), подлежащее копированию при воспроизведении электроакустическими устройствами, называется первичным помещением. Помещение, в котором прослушивается создаваемое электроакустическими преобразователями звуковое поле, называется помещением прослушивания.
Перед системой звукозаписи/воспроизведения стоят две задачи:
1) передать содержание первичных звуков;
2) передать пространственные свойства первичного звукового поля.
Вначале рассмотрим вопросы "конструирования" трехмерного звукового поля, исходя из того, что Вы в целом представляете, что такое микрофон и громкоговоритель.

2.1 Воспроизведение звукового пространства

Пространственные характеристики звукового поля в помещении прослушивания определяются двумя факторами:
1) характеристикой направленности излучателя;
2) расположением, количеством излучателей и соотношениями питающих их сигналов.
Рассмотрим эти факторы.

2.1.1 Разновидности систем звуковоспроизведения по количеству излучателей и их расположению

Звуковое поле является трехмерным континуумом. Для того чтобы преобразовать его к виду, пригодному для обработки в электрических системах, которые могут хранить и передавать ограниченное количество скалярных сигналов, к настоящему моменту используется регистрация характеристик поля в одной или нескольких его точках, а возбуждается звуковое поле с определенными пространственными свойствами также конечным числом источников, расположенных в нескольких точках помещения прослушивания.
Монофонические системы
Монофонической (от греческого monos - один, единственный) будем называть систему звуковоспроизведения с единственным излучателем в помещении прослушивания. Однако нужно иметь ввиду, что этим термином может обозначаться и система с несколькими излучателями, на которые подаются идентичные сигналы. Далее речь о системах с одним излучателем.
Преимущество системы с единственным излучателем состоит в том, что нет "хорового эффекта": если схожие сигналы излучают несколько источников (как при пении хором), то итоговый звук оказывается "размытым" и менее внятным, поскольку сигналы разных источников не могут быть совершенно идентичны (хотя бы потому, что излучаются из разных точек пространства). Монофоническая система лишена этого недостатка. Однако ей присущи другие недостатки:
1) полное отсутствие азимутального разделения источников звука;
2) недостаточно хорошая передача акустической атмосферы помещения.
Тем не менее мнение о том, что моносистема вообще не передает пространственные характеристики, неверное по следующим причинам.
1. Гулкий звук реверберации, откуда бы он ни передавался, воспринимается как пространственно распределенный, диффузный.
2. Разделение по глубине (передний и задний планы), основанное в значительной степени на различном содержании реверберации в звуках разной удаленности, работает вполне заметно.
3. Вертикальное разделение источников звука, основанное, в частности, на анализе слухом спектральной плотности мощности сигнала в пеленговых полосах, может иметь место, если сформировать спектр сигнала характерным для, например, расположения источника звука сверху.
В общем, для музыки с небольшим количеством инструментов и малой долей реверберации моносистема обеспечивает наиболее достоверное звучание. При этом следует сказать, что это достаточно нетрадиционная точка зрения. Неочевидность этой позиции вызвана, вероятно, тем, что массовые системы звуковоспроизведения вносят довольно большие искажения сигнала, что делает его самого по себе не очень интересным, и пространственные эффекты позволяют разнообразить прослушивание.
Системы пространственного звучания
Следующие системы звуковоспроизведения имеют целью создать пространственную звуковую картину. Область электроакустики, занимающаяся этими вопросами, называется иногда голофонией. Несмотря на существенные различия между существующими системами пространственного звучания, они имеют ряд общих свойств.
1. Создание определенного положения КИЗ на приемной стороне реализуется подачей коррелированных (преобразуемых друг в друга сдвигом и изменением амплитуды) сигналов на несколько излучателей звука, определенным образом пространственно разнесенных. Коррелированные сигналы не могут быть разделены слухом. Отчасти это вызвано принципиальной невозможностью разделения суммы неортогональных сигналов на слагаемые, но также, вероятно, и невозможностью одновременной генерации мозгом двух содержательно эквивалентных последовательностей ощущений, исходящих из разных направлений. При восприятии нескольких коррелированных сигналов ощущается один КИЗ, положение которого определяется фазовым сдвигом и разницей амплитуд сигналов излучателей и их расположением относительно слушателя, а размеры КИЗ определяются коэффициентом корреляции сигналов. Максимально компактный КИЗ наблюдается при наибольшей корреляции сигналов. При уменьшении корреляции размеры КИЗ и гулкость звука растут, и при нормированном коэффициенте корреляции менее 0,1 происходит разрыв КИЗ на несколько самостоятельных КИЗ, локализуемых обычно в положении действительных излучателей.
2. Всем подобным системам свойственен "хоровой" эффект. Несмотря на то, что сигналы излучателей коррелированы и воспринимается один КИЗ, физически каждое ухо воспринимает вместо одного сумму нескольких сдвинутых во времени сигналов, при этом слышимость нюансов звука ухудшается.
3. Как правило, предъявляются высокие требования к идентичности АЧХ и ФЧХ излучателей.
4. К звукорежиссеру предъявляются повышенные требования, поскольку многоканальная фонограмма отнюдь не представляет собой простую передачу звукового давления в первичном помещении. Чтобы получить нормальное пространственное впечатление, нужно регистрировать звуковое давление в точках, в которых слушателя не было и быть не могло, и это иначе, как кодирование, рассматривать нельзя. Сложность этих дополнительных требований иллюстрируют первые стереозаписи, когда имевшиеся инструменты просто разносились по каналам.
Итак, рассмотрим подробнее варианты построения систем с несколькими излучателями в помещении прослушивания.
Стереофонические системы
Если в помещении прослушивания два излучателя, то данный вариант обычно называется стерео (от греческого stereos - пространственный), хотя происхождение слова указывает на то, что первоначально оно претендовало на роль общего наименования систем, передающих пространственную информацию. Можно выделить два варианта построения системы с двумя излучателями:
1) излучатели расположены относительно слушателя спереди слева и спереди справа (классическая стереосистема);
2) один излучатель ? по центру спереди, другой ? по центру сзади.
Классическая стереосистема
Наиболее популярен в настоящее время вариант расположения излучателей относительно слушателя спереди слева и спереди справа. Расстояние между громкоговорителями называется стереобазой или просто базой. Особенности данной системы следующие.
1. Наличие азимутального разделения КИЗ. Это способствует лучшему разделению источников (прозрачности) при восприятии полифонических фонограмм.
2. Несколько неестественная и обедненная по сравнению с натуральным звучанием подача реверберации в связи с тем, что ее сигналы излучаются только спереди. Однако по сравнению с моно реверберация и акустическая атмосфера помещения передаются лучше.
3. Размывание центральных КИЗ и более четкая локализация периферических КИЗ. Этот эффект усугубляется при возрастании угла, под которым видимы излучатели.
4. Подъем центра стереопанорамы (увеличивается при увеличении угла расстановки излучателей).
5. Рассеивание внимания на большее пространство (в этой связи можно сказать, что традиционная угловая база в 60° является излишней).
Стереосистема с одним излучателем спереди и одним сзади
Особенности.
1. Отсутствие азимутального разделения КИЗ.
2. Гораздо лучшая, чем у классической стереосистемы, передача пространственных и временных характеристик реверберации. Можно даже сказать, гипертрофированная.
3. Меньше требования к идентичности характеристик каналов.
4. Меньше требования к положению слушателя в пространстве.
5. Можно управлять слышимой зависимостью времени реверберации от частоты.
6. Громкоговоритель сзади воспринимается слухом, как системой безопасности, некомфортно.
Модификации этой системы.
1. Несколько пространственно распределенных тыловых громкоговорителей (рис. 2.1, а). Цель - уменьшение локализуемости тылового громкоговорителя, т.к. его задача - создание диффузного реверберационного поля.

а) б)
Рис. 2.1 ? Модификации стереосистемы
2. Один или несколько тыловых громкоговорителей разворачиваются к стене так, чтобы до слушателя доходили только отраженные волны (рис. 2.1, б). Это способствует дальнейшему повышению диффузности тыловой "подзвучки".
Общее свойство системы с излучателями спереди и сзади: большая часть звука, излучаемого тыловым громкоговорителем, при восприятии присоединяется пространственно и энергетически к фронтальному громкоговорителю. Это обусловлено тем, что и в естественных условиях слух в основном собирает образ из отраженных звуков. Поэтому до определенного момента действие тылового громкоговорителя эквивалентно простому увеличению акустического отношения во фронтальном канале. Существенно вытянуть слышимое звуковое пространство на слушателя тыловому громкоговорителю удается только при большом уровне сигнала на нем, а это означает завышенное акустическое отношение, высокую локализуемость тылового громкоговорителя и сильную зависимость акустического впечатления от положения слушателя, особенно если тыловой сигнал заметно отличается от фронтального по АЧХ в силу, например, разворота тылового громкоговорителя к стене.
Стереосистемы с малой базой
Известны разновидности стереосистемы, общим свойством которых является то, что излучатели расположены на небольшом расстоянии друг от друга, а предотвращение акустического смешивания сигналов каналов производится при помощи электрического и/или акустического их матрицирования. На рис. 2.2 приведен пример подобной системы. Литерами А и B обозначены сигналы левого и правого каналов соответственно. Обыкновенно такие системы встраиваются в переносную или носимую аппаратуру, но, как ни странно, могут быть интересны и для высококачественного воспроизведения: т.к. расстояние между громкоговорителями небольшое, временной сдвиг между сигналами каналов мал и хоровой эффект, вероятно, будет проявляться не столь ярко, как в классической стереосистеме. Кроме того, для подъема центра стереопанорамы также причин нет, а также фокусировка КИЗ должна быть более логичной: центральные КИЗ более компактны, периферические более размыты.

Рис. 2.2 ? Одна из разновидностей стереосистем с малой базой
Квадрафонические и другие многоканальные системы
Квадрафоническая система подразумевает четыре равноправных канала, расположенных относительно слушателя спереди слева, спереди справа, сзади слева, сзади справа (рис. 2.3).

Рис. 2.3 ? Квадрафоническая система звуковоспроизведения

До определенного момента развитие этой и других многоканальных систем тормозилось отсутствием многоканальных носителей. Пробовали даже писать дополнительные каналы на грампластинку модуляцией ультразвуковой частоты.
Кроме того, быстро выяснилось, что тыловая полусфера для человека объективно не является равноправной с фронтальной и стремление распределить панораму по углу 360° ? такая же детская болезнь многоканальной электроакустики, как разнесение источников по каналам в первых стереозаписях. Это катастрофически рассеивает внимание. Попросту говоря, так же, как никто не рассматривает живопись вблизи, никто не хочет сидеть внутри оркестра как вживую, так и электроакустически.
Итак, поняв, что тыловые каналы являются каналами для передачи реверберации и спецэффектов, стали строить системы с сильно "облегченными" тыловыми каналами, как по мощности, так и по АЧХ, и по качеству в целом. Такова система Dolby Surround. Она даже не имеет отдельного канала записи тыловых сигналов на носитель ? они матричным способом "врезаются" в основные два канала. Все это привело к дрейфу многоканальных систем от высококачественной подачи музыки к спецэффектам в кинотеатре.
Системы с центральным каналом (канал диалогов)
Центральный канал (фронтальный, канал диалогов) служит для стабилизации КИЗ, расположенных по центру (рис. 2.4).

Рис. 2.4 ? Многоканальная система звуковоспроизведения
с центральным каналом (каналом диалогов)

В системах домашнего театра это необходимо для привязки диалогов к экрану (Dolby Pro Logic). В системе Dolby Digital 5+1 вводится еще дополнительный громкоговоритель, который служит для излучения самых низких частот (subwoofer).
В системах Dolby Surround EX, THX Surround EX, Circle Surround EX вводится дополнительный канал посередине между тыловыми громкоговорителями. Недостаток таких систем: источник звука точно за спиной вызывает психологическое напряжение в связи с тем, что слух выполняет функции, в том числе, и системы безопасности. Это, однако, можно использовать как средство целенаправленного воздействия. Второй момент: центральный канал, в отличие от левых/правых, с необходимостью не имеет зеркального и обладает поэтому большей локализуемостью. В связи с этим один тыловой центральный излучатель в некоторых системах заменяют двумя разнесенными.

2.1.2 Влияние характеристики направленности излучателя на пространственную картину звукового поля

Характеристика направленности громкоговорителя влияет на то, насколько интенсивно озвучиваются поверхности помещения, и вообще на характер реверберационного процесса в помещении прослушивания. Это определяет, в свою очередь, размеры КИЗ, эффект присутствия, гулкость звука и размеры зоны, в которой звук остается тембрально сбалансированным.
Разновидности излучателей по характеристикам направленности.
1. Узконаправленные излучатели. Характерный представитель - рупорные громкоговорители. В этом случае поверхности помещения прослушивания озвучиваются в наименьшей степени, что может оказаться полезным в акустически неблагоприятных помещениях. Узконаправленные громкоговорители создают негулкий, разборчивый, пространственно компактный звук. Однако узкая направленность формируется на высоких частотах; на низких частотах направленность практически отсутствует, вследствие малых размеров излучателя относительно длины волны. Поэтому при отклонении от акустической оси АЧХ приобретает спад на высоких частотах. Таким образом, размеры зоны, в которой звук остается тембрально сбалансированным, невелики. Кроме того, если АЧХ в направлении максимума диаграммы направленности равномерна, то общая мощность, излучаемая в помещение прослушивания, будет иметь спад на высоких частотах.
2. Излучатели с умеренной направленностью (озвучивается передняя полусфера). Зона тембрально сбалансированного звучания достаточно велика, а накачка помещения реверберацией нечрезмерна.
3. Слабонаправленные излучатели. В этом случае происходят большая накачка помещения отраженными звуками и, как следствие, большая реверберация, эмуляция пространственности. Такие излучатели требовательны к помещению прослушивания и установке в нем, необходимо принимать меры для уменьшения отражения от задней и боковых стен.
В заключение следует отметить, что ряд вопросов, связанных с пространственными особенностями излучения громкоговорителя в помещении прослушивания не являются на настоящий момент вполне осмысленными. В частности, неясно, как влияет на субъективное восприятие тип волны (продольная/поперечная). Или, например, другой момент - энергия, запасенная соколеблющейся массой в ближней зоне излучателя, классически не рассматривается как излученная, но может быть воспринята слушателем, если он находится в ближней зоне.

2.2 Электромеханическое преобразование вообще

В этом разделе рассмотрим собственно устройства, которые преобразуют акустические волны в электрические сигналы и наоборот. Общее их название ? электроакустические или электромеханические преобразователи.
Существуют следующие разновидности электромеханических преобразователей по принципу действия:
1) электромагнитные;
2) электростатические;
3) пьезоэлектрические;
4) магнитострикционные;
5) ионные.

2.2.1 Модель черного ящика

Большинство преобразователей являются обратимыми (взаимными). Это значит, что потери мощности при передаче в прямом и обратном направлении равны.
Итак, преобразователь преобразует энергию электрического сигнала в механическую энергию (или наоборот). Если отнести эти энергии ко времени, то это будут мощности. Мощность, протекающая по электрическому входу преобразователя, определяется произведением напряжения на ток, а механическая мощность - произведением силы на создаваемое ею в единицу времени перемещение, т.е. произведением силы на скорость. Итак, входными параметрами электроакустического преобразователя с электрической стороны являются ток i и напряжение u, а с механической - сила F и скорость v. Желательно, чтобы преобразователь был линейным. Если считать его таковым, то связь между электрическим и механическим полюсами будет описываться линейными уравнениями. Для излучателя (головного телефона или громкоговорителя):
(2.1)
Для приемника (микрофона):

<< Пред. стр. 3 (из 6) След. >>

Список литературы по разделу