音高和频率(续三)
February 13, 2008 11:18 pm | In Study | 6 Comments | hideFang 在《写作的重要性》一文中提到:看完书不写读后就好像做完题目不写成 paper,不是好习惯。在这个方针的指引下,我在过去几年看的音乐方面的书该摘录的前面三篇差不多写完了,这里补点小问题作个尾巴吧。
音高感知:比较流行的理论是,几百赫兹以下大脑是直接数周期来确定音高的,1600 Hz 以上则主要靠内耳频谱分析,中间频率段两种机制都在起作用。
声源定位:人有俩耳朵,定位声源主要靠分辨声音到达耳朵的时间差。比较令人惊讶的是,虽然声音感知的神经脉冲有 100 微秒,但是人可以分辨的时间差在 10 微秒的量级。另外,左右耳的声强和频谱对比也对判断声源有帮助,比如,右边来的声音在右耳听起来会亮一些,因为声波经过圆型头部的时候高频被吸收得多。
还有一个有趣的现象是声源的上下定位。人即使不移动脑袋,也是可以感觉到正前方声源的上下位置的,而这种声源对左右耳完全对称,因此也不可能用左右耳差异来判断位置。实验发现,如果堵上耳朵或者改变耳廓形状,人的声源上下定位能力就会减弱或者消失。流行理论是人对预定声音的频谱会有记忆,而声源上下移动会在耳廓上产生不同的反射模式,特别会影响高频部分的频谱,人估计就是从高频频谱里得到声源位置的暗示的。实验也发现,如果编造不熟悉的声音,人对声源高度的判断就不会那么准确了。
另外,一般在房间里声源到接受者耳朵里不光有直接声波还有大量墙壁和地面的反射波。首先,人会选取最先听到的直接声波判断出声源的位置;其次,人也会利用反射波的信息来感知房间大小。实验发现,如果把房间墙壁搞成完全吸收声波,哪怕再小的房间人也不会感觉到房间很小(当然这个实验需要把人眼睛蒙起来)。
鸡尾酒会效应:Cocktail party effect,听觉系统的一种选择能力。在鸡尾酒会上即使周围噪声很大,我们还是可以听到朋友说的内容。听音乐时,人如果专注于一样乐器,也可以跟随那个乐器的声音。这种能把注意力集中在某个声音上的现象就是鸡尾酒会效应,这和视觉里人可以在纷乱的背景中看出熟悉的图形可能是类似的机制。大凡自然界的声音、人声和乐器都会略有噪音和瑕疵,实验发现人对声音里面这种瑕疵非常敏感,这也很可能是人分辨相近声音的主要线索。两个人说话或者两种乐器演奏,频谱一般有很明显的不同,所以人能分辨出来并不奇怪;两把几乎相同的小提琴一起演奏,人还是可以听出有两把小提琴,这是因为两个乐器各有各的瑕疵,演奏的人也可能技巧略有不同。电子合成的乐音如果不加瑕疵,听起来很机械,完全没有美感,两个不加瑕疵的电子小提琴一起演奏,人是分辨不出来的。可见完美的世界并不美好,我们需要一定的个性才能让这个世界变得有趣。
最后推荐一本书 Music, Cognition, and Computerized Sound: An Introduction to Psychoacoustics,这本书是 Stanford Center for Computer Research in Music and Acoustics (CCRMA) 的一帮人根据教学经历整理的。这个多学科研究中心集结了音乐、计算机、电子和机械工程、物理和心理方面的大牛,成立多年虽无重大突破,但是成功改变了过去各个学科独自研究音乐的局面,算是在这个交叉学科领域走出了重要的一步。
Tags: ear, instrument, music, sound
神经机械论
January 3, 2008 12:02 am | In Study | 2 Comments | hide很久很久以前,我想过一个问题,人是如何调节晶状体看清楚物体的,我在笔记本上画了这么一个图:

并写道:“晶状体根据视网膜反馈调节到位”。看来我从小就是一个朴素的机械论者,可惜这个反馈过程并不正确。视网膜上成像清晰与否,必须要在大脑视觉中心去处理,视网膜是不可能直接反馈信息给晶状体的调节机构的。不过,反馈机制本身并没有错,对比一般的机械反馈控制回路:

这样的反馈控制回路在人体神经控制中无处不在,比如弹奏乐器就是一个神经反馈控制回路:

看起来反馈机制在神经控制中起着至关重要的作用。但是反馈真的如此重要吗?先来看看神经信号能走多快。科学研究表明,神经信号的传递速度基本和神经粗细成正比,最粗的神经也不过能达到 100 米/秒的速度。一个很流行的神经信号速度的说法是:
据科学家测算,神经脉冲的速度每小时只有 250 公里,而电视、无线电广播和电话所传递信息的速度则要快得多了。如果人的脚趾产生了问题,由神经脉冲传递消息,由于这段时间对人来说仍然显得很短暂,所以一般人没有丝毫的感觉。但是,假设你是一个巨人,头在阿拉斯加,脚在南非的海边,星期一的早晨鲨鱼咬了你的脚趾,你的大脑将在星期三的晚上才能知道这件事;如果你决定要把脚收回来,那么一直要等到星期六,脚才会真正行动起来,到那时,你的脚恐怕早已被鲨鱼啃得只剩下骨头了。
通常机械控制的反馈电信号以光速传播,比神经信号快几百万倍。神经信号如此之慢,导致反馈机制在很多情况下根本跟不上节奏。比如歌唱家有时候会使用颤音,其调制频率大概是 8 Hz 左右,而人耳音频反馈加反应时间基本要到 200 毫秒左右,也就是说,歌唱家的大脑其实必须早两个调制周期就给声带预送调制命令。再比如说,鼓手有时候手脚并用同时击鼓,如果大脑同时下令打鼓,由于神经传递路程不同,两个本应同时发出的鼓声就会间隔几十毫秒,造成节奏紊乱。所以鼓手大脑事实上必须先发出脚击鼓的命令,虽然熟练的鼓手根本不会意识到这个发送手脚命令的时间差。可以看到,至少在音乐控制中,依靠反馈的神经控制是跟不上速度的。
事实正是如此,不少情况下,神经控制并无直接反馈,按照控制论的说法,闭环控制(closed-loop control)成了开环控制(open-loop control),而大脑可以直接发出控制命令以达到预期目的(anticipatory control)。那么大脑是如何学会开环控制的呢?这就是人学习的过程,所谓熟能生巧,说的就是人通过反馈机制和闭环控制逐渐调节开环控制机构(adaptive control 的过程),直到最后完全抛弃反馈机制建立开环控制。这个开环控制的建立,需要无数神经元细胞的协调合作,难怪学精一样乐器需要好多年的时间了。
由此可见,反馈机制在学习过程中仍旧非常重要。人和其他的一些高等动物为什么能有如此精巧的反馈机制呢?有不少人给了进化论的解释,发明中听不中用的 Shepard Tone 的大牛 Roger Shepard 在 Music, Cognition, and Computerized Sound 一书中提到:
There is a long chain of processes between the physical events going on in the world and the perceptual registration of those events by a human observer. The processes include … … Presumably, the end result is the formation of a representation in the brain of what is going on in the external world. The brain has been shaped by natural selection; only those organisms that were able to interpret correctly what goes on in the external world and to behave accordingly have survived to reproduce.
这类进化论解释看起来自圆其说,却很难证明或证伪,有人(比如我)就常常把它们和人择原理划归为伪科学一类,或者好听点,叫信仰。人择原理,简单的说就是因为人存在,所以宇宙是这个样子的。乍一看,这整个儿一唯心主义嘛。不过我懒得展开写了,博客李淼上有些关于人择原理的,比如这里。
一个 forward link: 表演运动的魅力
音高和频率(续一)
November 5, 2007 9:04 pm | In Study | 6 Comments | hide上次说到现在最通用的音阶是把一个八度的倍频等比分为 12 份,那么为什么要这么做呢?在开始讲这个之前,先看两条人民群众总结的规律:
- 人耳对音高的感觉主要取决于频率比,而不是频率差。比如 220 Hz 到 440 Hz 的音差,和 440 Hz 到 880 Hz 的音差,一般人认为是一样大的音差。
- 如果两个音的频率比值很接近小整数比,那么这两个音同时发出来人会感觉很和谐。比如 440 Hz 和 660 Hz 的两个音,频率比值是 2:3,一般叫做完全五度,同时发出来很和谐。
至于为什么有以上的规律,这个问题太深刻了,折磨了一代又一代的音乐家、数学家、物理学家、心理学家、生理学家、哲学家……这里不深入说了,就把它们当作公理好了。下面是某个测试人对各种频率比评价的结果,峰越高表示人觉得越和谐。可以看见,1:1 1:2 是很和谐的,接下来是 2:3 3:5 3:4 等小整数比。(这张图的出处不祥,应该是某个论文或者教科书。)

有了上述公理,怎么样来定音阶?早在公元前,伟大的毕达哥拉斯就发现了小整数频率比很和谐的规律。首先最简单的整数比是 1:2,接下来分别是 2:3 和 3:4,于是他先定出四个音(按照现在的写法):F:C=4:3,G:C=3:2,高八度C’:C=2:1。然后他把 F 和 G 之间的间隔 9:8 叫做一个全音,按照 9:8 全音间隔填补空档他定下来这样的音阶:
- C:C = 1:1 = 1.0000
- D:C = 9:8 = 1.1250
- E:C = 81:64 = 1.2656
- F:C = 4:3 = 1.3333
- G:C = 3:2 = 1.5000
- A:C = 27:16 = 1.6875
- B:C = 243:128 = 1.8984
- C’:C = 2:1 = 2.0000
可以看到 E:F 和 B:C’ 之间的间隔是 256:243 = 1.0535,差不多是 9:8 的一半,毕达哥拉斯把这种间隔叫做半音。这样定出来的音阶其实已经蛮好用的了,现在把这种用整数比定音的方法叫做纯律(just intonation)。纯律的主要问题是有些音之间的比例很古怪,比如上面的 F:D 是 32:27,非常不和谐。另外,巴赫同学后来出了各种奇怪变调的钢琴曲,而纯律变调之后音阶就变了,于是巴赫就开始鼓吹当时已经建立起来的平均律(equal temperament)了。
平均律沿用了这种七个基本音的全音阶(diatonic scale)系统,但是让全音刚好等于两个半音,这样无论如何变调,整个音阶只要偏移一下即可,而各个音之间音程不变。我们知道,一个八度之间是 5 个全音间隔 + 2 个半音间隔,也就是 12 个半音间隔,于是就一刀切,直接把 2 等比分 12 份就是半音间隔了。下面是十二平均律(12-TET)和毕达哥拉斯的纯律的对比:
| 音程 | 纯律 | 十二平均律 |
|---|---|---|
| C:C | 1.0000 | 1.0000 |
| D:C | 1.1250 | 1.1225 |
| E:C | 1.2656 | 1.2599 |
| F:C | 1.3333 | 1.3348 |
| G:C | 1.5000 | 1.4983 |
| A:C | 1.6875 | 1.6818 |
| B:C | 1.8984 | 1.8877 |
| C’:C | 2.0000 | 2.0000 |
可以看到,十二平均律和纯律很接近,特别是 F:C 完全四度和 G:C 完全五度非常接近应有的整数比 4:3 和 3:2,只相差 2 个音分(cents)。一般没有受过音乐训练的人对 20 音分以下的音差已经不敏感;即使专业调音师,不靠仪器的话 5 个音分也基本是分辨极限了。所以在实际使用中,十二平均律对完全五度这么小的误差是完全可以忽略的。
理论上说,如果把 2 等比分为别的份数,也可以制造出可用的音阶。一个例子是等比分为 29 份,这样出来的音阶比 12-TET 更接近 3:2,但是大三度 5:4 却惨不忍睹,相差很大。一个小细节是有些音程是互补的,比如某个平均律如果很接近 G:C 3:2 完全五度,那么 C’:G 4:3 完全四度也同时被搞定。一般人们评价一个平均律,主要看它和大三度、完全五度、大六度的偏差总和(同时搞定的互补音程为小六度、完全四度、小三度),计算表明,比十二平均律更好的下一个音律是十九平均律,接下去更好的分别是 31、34 和 53。可以想象,即使是十九平均律,钢琴键盘也会复杂很多,而且由于多了很多音,不和谐的音高组合也会更多,所以非十二等分的平均律使用很有限,现在一般只局限在理论研究上。
中国古代各类弦乐器五声音阶宫商角徵羽按照五度相生律定音,演奏起来非常优美。五度相生律可以算是纯律的一种,中国人发现这个小整数比的规律应该比毕达哥拉斯早好多年。不过到了现代,特别是键盘乐器的普及以及大型乐队的配合需要,最后还是十二平均律胜出了。
也说海豚音
November 1, 2007 10:12 pm | In Misc | 7 Comments | hide海豚音,大约就是 whistle register(哨音)的意思。张靓颖同学在 2005 快乐中国蒙牛酸酸乳超级女声五进三比赛中以一曲 Lovin’ You 晕翻评委黑楠。黑楠说,同志们,朋友们,大家听清楚了,这就是伟大的海豚音!因此海豚音迅速被广大人民群众所认识。来听听现场录音片段:

上面这个是频谱分析。可以看到张靓颖后面唱到 1275 Hz 左右,这个音是 E6 -50,在 Eb6 和 E6 中间,可以算走音,不过看现场伴奏状况很糟糕,更何况海豚音的控制也比较困难,要唱准音几乎是不可能的。她在这个音高稳定保持两秒半多,引来一阵掌声,对于业余歌手现场发挥,这已经相当不容易了。下面听 Minnie Riperton 原唱的片段:

海豚音开始两个音为 1310 Hz(E6) 和 1400 Hz(F6),这两个音转调自然,音高准确,不知道 1975 年录音是否有 tuning 一节,不过录音棚出这样的音乐,也不算太神奇。Minnie 后来唱现场证明她确实能准确唱到 F6 这个音,另外别的歌她唱到过 F#7,比上面所述的还要再高一个八度,惊为天人。Lovin’ You 这首歌当时上过排行榜首,只可惜 Minnie 后来英年早逝,也没有留下太多别的好歌。
Mariah Carey,高音之王,C7 以上的音随处可见。下面是著名玩弄高音的 Emotions 片段:

这里 Mariah 不但轻松唱出音阶,还有近两秒停留在 2100 Hz 左右,更过分的是她还在海豚音区玩颤音,在 C7 和 C#7 之间晃,属于赤裸裸的炫耀技巧。据说 Mariah 在别的歌里最高唱到过 G7 或者是 A7,音域跨五个八度,恐怖之极。
当然,海豚音也不是 mm 们的专利,俄罗斯小生 Vitas 的片段中:

他玩到了近 2000 Hz B6,接小段颤音,然后降到 F6,升到 F#6,音高转换近乎完美。有人说,海豚音和咽音都可以唱出极高音,但发声机理并不相同,这个问题事实上国际上并无定论。作为业余听歌的人,用不着管这么多技术细节问题,听起来好听即可。
音高和频率
October 28, 2007 1:33 pm | In Study | 7 Comments | hide音高和频率转换表如下(来源)
| Frequency in hertz (semitones above or below middle C) | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| Octave→ Note↓ |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| C | 16.352 (−48) | 32.703 (−36) | 65.406 (−24) | 130.81 (−12) | 261.63 (0) | 523.25 (+12) | 1046.5 (+24) | 2093.0 (+36) | 4186.0 (+48) | 8372.0 (+60) |
| C♯/D♭ | 17.324 (−47) | 34.648 (−35) | 69.296 (−23) | 138.59 (−11) | 277.18 (+1) | 554.37 (+13) | 1108.7 (+25) | 2217.5 (+37) | 4434.9 (+49) | 8869.8 (+61) |
| D | 18.354 (−46) | 36.708 (−34) | 73.416 (−22) | 146.83 (−10) | 293.66 (+2) | 587.33 (+14) | 1174.7 (+26) | 2349.3 (+38) | 4698.6 (+50) | 9397.3 (+62) |
| D♯/E♭ | 19.445 (−45) | 38.891 (−33) | 77.782 (−21) | 155.56 (−9) | 311.13 (+3) | 622.25 (+15) | 1244.5 (+27) | 2489.0 (+39) | 4978.0 (+51) | 9956.1 (+63) |
| E | 20.602 (−44) | 41.203 (−32) | 82.407 (−20) | 164.81 (−8) | 329.63 (+4) | 659.26 (+16) | 1318.5 (+28) | 2637.0 (+40) | 5274.0 (+52) | 10548 (+64) |
| F | 21.827 (−43) | 43.654 (−31) | 87.307 (−19) | 174.61 (−7) | 349.23 (+5) | 698.46 (+17) | 1396.9 (+29) | 2793.8 (+41) | 5587.7 (+53) | 11175 (+65) |
| F♯/G♭ | 23.125 (−42) | 46.249 (−30) | 92.499 (−18) | 185.00 (−6) | 369.99 (+6) | 739.99 (+18) | 1480.0 (+30) | 2960.0 (+42) | 5919.9 (+54) | 11840 (+66) |
| G | 24.500 (−41) | 48.999 (−29) | 97.999 (−17) | 196.00 (−5) | 392.00 (+7) | 783.99 (+19) | 1568.0 (+31) | 3136.0 (+43) | 6271.9 (+55) | 12544 (+67) |
| G♯/A♭ | 25.957 (−40) | 51.913 (−28) | 103.83 (−16) | 207.65 (−4) | 415.30 (+8) | 830.61 (+20) | 1661.2 (+32) | 3322.4 (+44) | 6644.9 (+56) | 13290 (+68) |
| A | 27.500 (−39) | 55.000 (−27) | 110.00 (−15) | 220.00 (−3) | 440.00 (+9) | 880.00 (+21) | 1760.0 (+33) | 3520.0 (+45) | 7040.0 (+57) | 14080 (+69) |
| A♯/B♭ | 29.135 (−38) | 58.270 (−26) | 116.54 (−14) | 233.08 (−2) | 466.16 (+10) | 932.33 (+22) | 1864.7 (+34) | 3729.3 (+46) | 7458.6 (+58) | 14917 (+70) |
| B | 30.868 (−37) | 61.735 (−25) | 123.47 (−13) | 246.94 (−1) | 493.88 (+11) | 987.77 (+23) | 1975.5 (+35) | 3951.1 (+47) | 7902.1 (+59) | 15804 (+71) |
一些解释:
- Octave 0-9 表示八度区。C-D-E-F-G-A-B 为 C 大调七个主音:do re mi fa so la si(简谱记为 1 到 7)。科学音调记号法(scientific pitch notation)就是将上面这两者合在一起表示一个音,比如 A4 就是中音 la,频率为 440 Hz。C5 则是高音 do(简谱是 1 上面加一个点)。
- 升一个八度也就是把频率翻番。A5 频率 880 Hz,正好是 A4 的两倍。一个八度区有 12 个半音,就是把这两倍的频率间隔等比分为 12,所以两个相邻半音的频率比是 2 开 12 次方,也即大约 1.05946。这种定音高的办法叫做 twelve-tone equal temperament,简称 12-TET。
- 两个半音之间再等比分可以分 100 份,每份叫做一音分(cent)。科学音调记号加上音分一般足够表示准确的音高了。比如 A4 +30 表示比 440 Hz 高 30 音分,可以算出来具体频率是 447.69 Hz。
- A4 又称 A440,是国际标准音高。钢琴调音师或者大型乐队乐器之间调音都用这个频率。
- C4 又称 Middle C,是中音八度的开始。有一种音高标定方法是和 C4 比较相隔的半音数,比方 B4 就是 +11,表示比 C4 高 11 个半音。
- MIDI note number p 和频率 f 转换关系:p = 69 + 12 x log2(f/440)。这实际上就是把 C4 定为 MIDI note number 60,然后每升降一个半音就加减一个号码。
- 可以看到 E-F 和 B-C 的间隔是一个半音,而七个主音别的间隔都是两个半音,也叫一个全音。
- 标准钢琴琴键有大有小,大的白色琴键是主音,小的黑色琴键是主音升降一个半音后的辅音(图)。一般钢琴是 88 个琴键,从 A0 到 C8。知道了上面这些,看到钢琴键盘应该就马上能找到 Middle C 了,如下

- 音高间隔(音程)有各类说法,某些间隔的两个音同时发出来会比较令人身心愉快,比如频率比 3:2 的 perfect fifth 在各类乐曲都会广泛用作和弦。具体音高间隔名称:
间隔半音数 间隔名 大致频率比 0 perfect unison 完全一度 1:1 1 minor second 小二度 16:15 2 major second 大二度 9:8 3 minor third 小三度 6:5 4 major third 大三度 5:4 5 perfect fourth 完全四度 4:3 6 augmented fourth 增四度
diminished fifth 减五度45:32
64:457 perfect fifth 完全五度 3:2 8 minor sixth 小六度 8:5 9 major sixth 大六度 5:3 10 minor seventh 小七度 16:9 11 major seventh 大七度 15:8 12 perfect octave 完全八度 2:1 - 人的听觉和很多音乐设备的频率范围是 20 Hz - 20000 Hz,但是成年人一般只能听到 30 - 15000 Hz,所以上面表格的频率范围已经足够用了。
This weblog is licensed under a
Creative Commons License.
Powered by WordPress. Theme based on Pool by Borja Fernandez.