音高和频率(续三)

February 13, 2008 11:18 pm | In Study | 6 Comments | hide

Fang 在《写作的重要性》一文中提到:看完书不写读后就好像做完题目不写成 paper,不是好习惯。在这个方针的指引下,我在过去几年看的音乐方面的书该摘录的前面三篇差不多写完了,这里补点小问题作个尾巴吧。

音高感知:比较流行的理论是,几百赫兹以下大脑是直接数周期来确定音高的,1600 Hz 以上则主要靠内耳频谱分析,中间频率段两种机制都在起作用。

声源定位:人有俩耳朵,定位声源主要靠分辨声音到达耳朵的时间差。比较令人惊讶的是,虽然声音感知的神经脉冲有 100 微秒,但是人可以分辨的时间差在 10 微秒的量级。另外,左右耳的声强和频谱对比也对判断声源有帮助,比如,右边来的声音在右耳听起来会亮一些,因为声波经过圆型头部的时候高频被吸收得多。

还有一个有趣的现象是声源的上下定位。人即使不移动脑袋,也是可以感觉到正前方声源的上下位置的,而这种声源对左右耳完全对称,因此也不可能用左右耳差异来判断位置。实验发现,如果堵上耳朵或者改变耳廓形状,人的声源上下定位能力就会减弱或者消失。流行理论是人对预定声音的频谱会有记忆,而声源上下移动会在耳廓上产生不同的反射模式,特别会影响高频部分的频谱,人估计就是从高频频谱里得到声源位置的暗示的。实验也发现,如果编造不熟悉的声音,人对声源高度的判断就不会那么准确了。

另外,一般在房间里声源到接受者耳朵里不光有直接声波还有大量墙壁和地面的反射波。首先,人会选取最先听到的直接声波判断出声源的位置;其次,人也会利用反射波的信息来感知房间大小。实验发现,如果把房间墙壁搞成完全吸收声波,哪怕再小的房间人也不会感觉到房间很小(当然这个实验需要把人眼睛蒙起来)。

鸡尾酒会效应:Cocktail party effect,听觉系统的一种选择能力。在鸡尾酒会上即使周围噪声很大,我们还是可以听到朋友说的内容。听音乐时,人如果专注于一样乐器,也可以跟随那个乐器的声音。这种能把注意力集中在某个声音上的现象就是鸡尾酒会效应,这和视觉里人可以在纷乱的背景中看出熟悉的图形可能是类似的机制。大凡自然界的声音、人声和乐器都会略有噪音和瑕疵,实验发现人对声音里面这种瑕疵非常敏感,这也很可能是人分辨相近声音的主要线索。两个人说话或者两种乐器演奏,频谱一般有很明显的不同,所以人能分辨出来并不奇怪;两把几乎相同的小提琴一起演奏,人还是可以听出有两把小提琴,这是因为两个乐器各有各的瑕疵,演奏的人也可能技巧略有不同。电子合成的乐音如果不加瑕疵,听起来很机械,完全没有美感,两个不加瑕疵的电子小提琴一起演奏,人是分辨不出来的。可见完美的世界并不美好,我们需要一定的个性才能让这个世界变得有趣。

最后推荐一本书 Music, Cognition, and Computerized Sound:  An Introduction to Psychoacoustics,这本书是 Stanford Center for Computer Research in Music and Acoustics (CCRMA) 的一帮人根据教学经历整理的。这个多学科研究中心集结了音乐、计算机、电子和机械工程、物理和心理方面的大牛,成立多年虽无重大突破,但是成功改变了过去各个学科独自研究音乐的局面,算是在这个交叉学科领域走出了重要的一步。

>> 序言 续一 续二 续三

Tags: , , ,

音高和频率(续二)

January 30, 2008 11:59 pm | In Study | 2 Comments | hide

为什么小整数频率比的两个音比较和谐?这个问题,要从乐音的谐波说起。

一般乐器发出的音都不是纯频率的音,而是由好多谐波(harmonic)组成的;其中频率最低的那个通常最强,叫做基音。比如小提琴发出音高 A4 的音,指的就是其基音是 440 Hz,而声波频谱里面同时有二次谐波 880 Hz、三次谐波 1320 Hz、四次谐波……等等。不同乐器发出的声音,其谐波强度分布往往完全不同,因此音色(timbre)也就不同(比如高谐波强的话听起来就亮一些)。乐音含有谐波这个特性和小整数比的和音规则有什么关系?以完全五度举例,A4 和 E5 的两个乐音,频率比为 2:3,而 A4 的三次谐波和 E5 的二次谐波刚好重合,都是 1320 Hz。相隔完全五度的两个乐音同时听起来比较好听,是不是因为它们大部分的谐波都重合了?

于是就有科学家做实验了。人们发现,把纯频率的音(不含谐波)A4 和 E5 同时发出来听并不怎么好听。还有人用电脑制作了扭曲的乐音,把 N 次谐波搞成 Nlog(2.1)/log(2) 倍(谐波从 2 倍拉宽到 2.1 倍,自然界是没有这种声音的),然后发现谐波重合的扭曲乐音同时听起来还比较和谐,而它们的基音却不是小整数比了。还有一些别的实验,但是结论都是差不多的,就是两个乐音和谐主要是因为他们的谐波重合,转换为数学语言,就是基音必须是小整数比。

为啥谐波重合就好听呢?这是因为,如果谐波不重合但是距离很近,它们就会干涉形成低频率的拍(beat),这种低频拍音嗡嗡作响,非常难听。两个频率距离多近才会形成不好听的拍?人们一般把这个临界距离叫做临界频宽(critical bandwidth),处于临界频宽之内的两个频率就会互相干涉。这个临界频宽本身是频率的函数,频率越高,临界频宽带也就越宽,如下图所示:

criticalband.png

可以看到,临界频宽在低频区是 100 Hz 左右;高频区大约是本身频率的 1/6。比如,900 Hz 的临界频宽是 150 Hz,这就是说,750 - 1050 Hz 频率范围内的音都会和 900 Hz 的音干涉。用音乐术语,1/6 频宽介于大二度和小三度之间(上图所示 2&3 semitones 之间),所以在高频区域里,间隔一个或者两个半音的音就会相互干涉形成不愉悦的拍。

乐音的高谐波排列非常紧密,比如 A4 的 10 次谐波和 11 次谐波分别是 4.4 kHz 4.84 kHz,间隔不到两个半音,所以高谐波之间就会相互干涉。如果对小提琴乐音做频谱分析,会发现它有很多谐波强度很弱,造成的结果是各个强谐波之间间隔都比较大,不在互相的临界频宽内,所以小提琴乐音本身极少有难听的拍,这也正是小提琴乐音很好听的原因之一。有些乐器音高很准,但是发出声音很难听,可能就是因为它自己有很多谐波互相打架,形成很多低频拍,听起来很难受。

那么为什么低频的拍听起来难听呢?有人认为这和人耳的解剖学结构有关。匈牙利生物物理学家 Georg von Békésy 发现人的耳蜗里有很多小毛毛,功能是把外界声波在内耳液体中产生的振动转换为神经电信号,而且耳蜗的特殊生理结构导致每根小毛毛只对一小段频率的振动敏感。也就是说,耳蜗就是一个频谱分析仪;而小毛毛的敏感频率段,差不多就是相应频率的临界频宽。好的乐音因为没有互相打架的拍频,小毛毛们都会做优美的简谐运动,人就会觉得很愉快;相反,如果临界频宽内有两个频率的声音,有一些小毛毛就会受到两种频率的影响,运动起来比较别扭,所以人也觉得不怎么愉快。Békésy 这个发现是得了诺贝尔医学奖的,不过后来进一步的研究发现虽然他的理论基本成立,但是数据并不正确,主要是因为 Békésy 是拿死人耳朵做实验的,因为尸体失水,耳朵的频率响应也非常不同。不过炸药奖发了就发了,也收不回了,Békésy 本人在晚年也否定了自己早期的一些研究。

如果还有人偏要问到底,为什么耳蜗里小毛毛运动别扭,人就觉得难受呢?有些问题呢,它就是没什么道理的。好不好听这本身就是个主观的问题,如果你偏要问为什么,那估计就只好把你的脑袋砸开来研究了……现代脑科学的研究已经越来越科学,越来越定量化,但是像乐音和谐度这类宏观问题上,基本上也只有一些假说,信仰假说的人多了,也就成了学派。有些哲学家对脑科学前景非常悲观,认为人自己的主观意志去研究自己的主观意志,是很难有结果的。这个说法倒是过于杞人忧天了,目前人类对脑子的了解还远远不够,可以研究的东西还多得很,不过也许在遥远的未来,人就真的要面对无法继续研究自己的问题了。

说了这么多,可千万不要以为知道了一个小整数比就可以谱曲了。翻开和声学,你会发现正统的和声规则要复杂得多,甚至用什么乐器来演奏,调起多高,是小型音乐厅还是露天演奏,等等都是需要考虑的因素。几百年前就有很多音乐家搞出各类奇奇怪怪的规则,而现代人类更是从胎教开始就逐渐接受正统的规则,作曲人即使没有受过专业训练也会在潜移默化中将这些规律继续发扬光大。事实上音乐制作已经在人类社会中形成了巨大的正反馈,某些和声规则逐渐被强化。原始部落的人们听到贝多芬的曲子,并不会神魂颠倒。所以说,可能也只有最朴素的小整数比和声规律还有一定的生理基础,现在复杂的和声学则基本上算是美学,没有道理可言。我曾经看到有人对着乐谱做傅立叶分析,研究为什么某些和声听起来好听。挺美好的音乐,偏偏硬要去扣个科学的帽子,我想说,你从小就是听这些和声规则长大的,能不觉得好听么……这个就跟我受了十多年政治教育就再也不会怀疑马克思列宁主义了是一个道理。

>> 序言 续一 续二 续三

Tags: , , ,

This weblog is licensed under a Creative Commons License.
Powered by WordPress. Theme based on Pool by Borja Fernandez.