人声效果的精细处理详解-配音学习-新闻中心-优音配音网

对人声效果的处理，大多数人都是使用反复试探性调节的方法，以寻找音感效果最好的处理效果。此种调音方式的不足十分明显：

　　（1）寻找一个理想的调音效果，需经多次猜测，所以需要教长的时间。

　　（2）较好的调音效果常常是偶然遇到的，这对于调音规律的归纳总结没什么帮助，并且以后也不易再现。

　　（3）不同设备的各项固定参数和可调参数都不尽相同，因而使用某一设备的经验，通常都无法用于另一设备。

　　发展到目前的效果处理设备，用于改变音源音色的技术手段并不太多，其中比较常用的只有频率均衡、延时反馈、限幅失真等3种基本方法，然而这些效果处理设备的不同参数组合所产生的音色则大相径庭。

　　效果处理器的参数设置可以有很多项，尤其是延时反馈，这种模拟混响效果参数的设置理论上可达几十项之多。当然这些专业性极强的参数，大多数人都难以理解，也不知道如何理解。因此，大部分效果处理设备都只设置一、二个可调参数，并且其可调范围也比较狭窄。这种调整简单的效果处理设备容许人们在上面进行尝试性调整，而不会出现太大的问题。但对于效果处理要求更为精细的调音场合，例如在多轨录音系统当中，则必须使用更为专业的效果处理设备，用以做出更为精细的效果处理。

频率均衡

　　很明显，频率均衡的分段越多，效果处理的精细程度也就越高。除了图示均衡，一般调音的均衡单元通常只有三四个频段，这显然满足不了精确处理音源的要求。为了能足够灵活的对人声进行任意的均衡处理，我们建议使用增益、频点和宽度都可调整的段频率均衡。

　　多数频率均衡的可调参数只有增益一项，然而这并不意味着其他两项参数不存在，而且这两项参数为不可调的固定参数。当然这两项参数设置为可调也并非难事，但这些会增加设备的成本，并使其调整变得复杂化。所以增益、频点和宽度都可调整的参量均衡电路，通常只有在高档设备上才能见到。

　　实际上，增益、频点和宽度都是可调整的频率均衡，几乎不可能使用胡猜乱试的方法找出一个理想的音色。在这里我们必须研究音频信号的物理特性、技术参数以及他在人耳听感上的对应关系。

　　人声音源的频谱分布比较特殊，就其发音方式而言，他有三个部分：一个是由声带震动所产生的乐音，此部分的发音最为灵活，不同音高、不同发音方式所产生的频谱变化也很大；二是鼻腔的形状较为稳定，因而其共鸣所产生的谐音频谱分布变化不大；三是口腔气流在齿缝间的摩擦声，这种齿音与声带震动所产生的乐音基本无关。

　　频率均衡可以大致的将这三部分频谱分离出来。用语调节鼻音的频率段在500Hz，以下均衡的中点频率一般在80~150Hz，均衡带宽为4个倍频程。例如，可以将100Hz定为频率均衡的中点，均衡曲线应从100~400Hz平缓的过渡，均衡增益的调节范围可以为+10Db~-6dB。这里应提醒大家的是：进行此项调整的监听音箱不得使用低频发音很弱的小箱子，以避免鼻音被无意过分加重。

　　人声乐音的频谱随音调的变化也很大，所以调节乐音的均衡曲线应非常平缓，均衡的中点频率可在1000~3400Hz，均衡带宽为六个倍频程。此一频段控制着歌唱发音的明亮感，向上调节可温和地提升人声的亮度。然而如需降低人声的明亮度，情况就会更复杂一些。一般音感过分明亮的人声大多都是2500Hz附近的频谱较强，这里我们可用均衡带宽为1/2倍频程，均衡增益为-4dB左右的均衡处理，在2500Hz附近寻找一个效果最好的频点即可。

　　人声齿音的频谱分布在4kHz以上。由于此频段亦包含部分乐音频谱，所以建议调节齿音的频段应为6~16KHz，均衡带宽为3个倍频程，均衡中点频率一般在10~12KHz，均衡增益最大向上可调至+10Db；如需向下降低人声齿音的响度，则应使用均衡带宽为1/2倍频程，均衡中点频率为6800Hz的均衡处理，其均衡增益最低可向下降至-10Db。

　　由以上分析可以看出，对人声进行频率均衡处理时，为突出某一音感而进行的频段提升，都尽量使用曲线平缓的宽频带均衡。这是为了使人声鼻音、乐音、齿音三部分的频谱分布均匀连贯，以使其发音自然、顺畅。从理论上讲，应使人声在发任何音时，其响度都保持恒定。

　　为了在不破坏人生自然感的基础上对其进行特定效果的处理可以使用1/5倍频程的均衡处理，具体有以下几种情形：

　　（1）音感狭窄，缺乏厚度，可在800Hz处使用1/5倍频程的ゼ醮恚ゼ醯淖畲笾悼梢栽?3dB。

　　（2）卷舌齿音的音感尖啸，"嘘"音缺乏清澈感，可在2500Hz处使用1/5倍频程的衰减处理，衰减的最大值可以在-6Db。

　　对音源的均衡处理，最好是使用能显示均衡曲线的均衡器。一般数字调音台均衡器上的均衡增益调节钮用"G"来标识，均衡频率调节钮用"F"来标识，均衡带宽调节钮用"F"或"Q"来标识。

延时反馈

　　延时反馈是效果处理当中应用最为广泛，但也是最为复杂的方式。其中，混响、合唱、镶边、回声等效果，其基本处理方式都是延时反馈。

　　 1、混响

　　混响效果主要是用于增加音源的融合感。自然音源的延时声阵列非常密集、复杂，所以模拟混响效果的程序也复杂多变。常见参数有以下几种：

　　混响时间：能逼真的模拟自然混响的数码混响器上都有一套复杂的程序，其上虽然有很多技术参数可调，然而对这些技术参数的调整都不会比原有的效果更为自然，尤其是混响时间。

　　高频滚降：此项参数用于模拟自然混响当中，空气对高频的吸收效应，以产生较为自然的混响效果。一般高频混降的可调范围为0.1~1.0。此值较高时，混响效果也较接近自然混响；此值较低时，混响效果则较清澈。

　　扩散度：此项参数可调整混响声阵密度的增长速度，其可调范围为0~10，其值较高时，混响效果比较丰厚、温暖；其值较低时，混响效果则较空旷、冷僻。

　　预延时：自然混响声阵的建立都会延迟一段时间，预延时即为模拟次效应而设置。

　　声阵密度：此项参数可调整声阵的密度，其值较高时，混响效果较为温暖，但有明显的声染色；其值较低时，混响效果较深邃，切声染色也较弱。

　　频率调制：这是一项技术性的参数，因为电子混响的声阵密度比自然混响稀疏，为了使混响的声音比较平滑、连贯，需要对混响声阵列的延时时间进行调制。此项技术可以有效的消除延时声阵列的段裂声，可以增加混响声的柔和感。

　　调治深度：指上述调频电路的调治深度。

　　混响类型：不同房间的自然混响声阵列差别也较大，而这种差别也不是一两项参数就能表现的。在数码混响器当中，不同的自然混响需要不同的程序。其可选项一般有小厅（S-Hall）、大厅（L-Hall）、房间（Room）、随机（Random）、反混响（Reverse）、钢板（Plate）、弹簧（Sprirg）等。其中小厅、大厅房间混响属自然混响效果；钢板、弹簧混响则可以模拟早期机械式混响的处理效果。

　　房间尺寸：这是为了配合自然混响效果而设置的，很容易理解。

　　房间活跃度：活跃度，就是一个房间的混响强度，他与房间墙面吸声特性有关，此项参数即用于调节此特性。

　　早期反射声与混响声的平衡：混响的早期反射声与其处理效果特性关系密切，而混响声阵的音感则不那么变化多端，所以数码混响器的这两部分的生成是分开的，本参数就是用于调整早期反射声与混响声阵之间响度平衡。

　　早期反射声与混响声的延时时间：即早期反射声与混响声阵之间的延时时间控制。此时间较长，混响效果的前段就较清澈；此时间较短，早期反射声与混响声就会重叠在一起，混响效果的前段就较浑浊。

　　除以上可调参数之外，混响效果还有一些其他附属参数，例如低通滤波、高通滤波、直达/混响声的响度平衡控制等。

　　 2、延时

　　延时就是将音源延迟一段时间后，再欲播放的效果处理。依其延迟时间的不同，可分别产生合唱、镶边、回音等效果。

　　当延迟时间在3~35ms之间时人耳感觉不到滞后音的存在，并且他与原音源叠加后，会因其相位干涉而产生"梳状滤波"效应，这就是镶边效果。如果延迟时间在50ms以上时，其延迟音就清晰可辨，此时的处理效果才是回音。回音处理一般都是用于产生简单的混响效果。

　　延时、合唱、镶边、回音等效果的可调参数都差不多，具体有以下几项：

　　 *延时时间（Dly），即主延时电路的延时时间调整。

　　 *反馈增益（FBGain），即延时反馈的增益控制。

　　 *反馈高频比（HiRatio），即反馈回路上的高频衰减控制。

　　 *调制频率（Freq），指主延时的调频周期。

　　 *调制深度（Depth），指上述调频电路的调制深度。

　　 *高频增益（HF），指高频均衡控制。

　　 *预延时（IniDly），指主延时电路预延时时间调整。

　　 *均衡频率（EQF），这里的频率均衡用于音色调整，此为均衡的中点频率选择。

　　由于延时产生的效果都比较复杂多变，如果不是效果处理专家，建议使用设备提供的预置参数，因为这些预置参数给出的处理效果一般都比较好。

声激励

　　对音源信号进行浅度的限幅处理，音响便会产生一种类似"饱和"的音感效果从而使其发音在不提高其实际响度的基础上有响度增大的效果。

　　一些数码效果器上也配有非线性饱和效果，他就是对信号的振幅处理，模拟大电瓶信号在三极管上的饱和所引起的非线性，从而产生出"发硬"的音感效果。

　　由于限幅失真所引起的主要是产生额外的高次谐波成分，因而新设计的激励器，为了使其处理效果柔和一些，都是通过在音源中家置高次载波成分来模拟限幅失真，营造不那么"嘶哑"的声激励效果。

　　另外，通过一个用于加强高次谐波的高通滤波器对原信号进行处理，然后再叠加在经延时的原信号上，可以营造出音头清澈的声效果。显然、这种处理方式可以产生出不那么嘈杂的激励处理。

　　激励处理类似于音响设备的过载失真，因而对音源的过量激励，会产生令人不悦的嘈杂感。由于早期音响设备的保真度都不高，人们已经习惯了那种稍显嘈杂的音响，而对于音感清洁的高保真度音响，反而不太习惯，感觉其发音过分柔弱。在人声音源当中，除了一少部分经过专门训练的人之外，大部分的发言都缺乏劲度，因而这里的激励处理是十分必要的。

　　对人声的激励处理有下面几种情形：

　　 (1)对人声乐音的激励处理，其频谱分布以2500Hz为中点。此种激励的效果比较自然舒适、对增加音源突出感的作用也比较明显。

　　 (2)对人声鼻音的激励处理，其频谱分布以500Hz为中点。此种激励可以有效地增大人声的劲度感。

　　 (3)对人声800Hz附近进行激励，可以增加音源的喧嚣感，当然此处理方式的使用应十分谨慎，最好是只用于摇滚乐的演唱。

　　 (4)对人声3500-6800Hz范围内的频谱，不宜使用激励处理，因为它容易使音源产生令人不悦的嘈杂声响。

　　 (5)对人声的齿音一般应避免使用激励处理，因为此频段的失真很容易被人察觉。当然如果是使用激励效果比较柔和的数质郊だ鳎部梢远猿菀糇銮嵛⒌募だ恚杂糜诩又爻菀舻那逦龈小Ｆ浯淼钠灯子υ?200Hz以上。

　　歌唱发音的激励处理通常要保守一些。在实际的调音当中，激励处理的音感效果有可能随长时间的听音而逐渐弱化，所以在调节激励效果时，时间不要超过10分钟。

　　对人声音源的激励处理，最好是使用数码效果处理器。它通常有以下几项调整参量：

　　 1.输入增益(Gmn)，用于调节输入电平，注意此处切勿使设备产生过载。

　　 2.调谐频率(Tuning)，根据需要处理的频段，选择一个合适的频率。

　　 3.驱动电平(Drive)，用于调整激励的深度。驱动电平较大时，效果比较嘈杂；驱动电平较小时，效果则比较温和。

　　 4.混合比率(Mix)，即原信号与效果信号的响度比。

效果处理的整体规划

　　对人声音源的精细处理，需要使用1台全数字式调音台，至少3台数字式效果器和一台数字式激励器，其连接方式如附图所示。

　　首先在调音台上，使用通道均衡控制单元对人声进行音色调整，以使其音感得以改善，这里给出几个常用的例子。

　　 (1)8OOHz附近的频段可使人产生某种厌烦感，因而是可在此频段予以最大为15dB的衰减，频带宽度为1／5倍频程，用于改善人声发音的总印象；

　　 (2)68O0Hz附近的频段可使人声产生尖啸、刺耳的感觉，可在此频段予以最大为10dB的衰减，频带宽度为l／5倍频程，用以减弱齿音的尖啸感；

　　 (3)对于发音过亮、有炸耳棍子的感觉者，可在3400Hz处予以最大为8dB的衰减，频带宽度为1／3倍频程；

　　 (4)对于鼻音过重者，可在500Hz以下频段适当衰减，衰减带宽为3倍频程；

　　 (5)齿音的超高频段由于受人耳灵敏度的影响，需对12KHz处提升6dB(频带宽度为2倍频程)，其响度才能与人声的乐音平衡。

　　以上均衡处理较适用于现场扩音，如果是多轨录音或节目转发，则应将增益的调节量减半。

　　均衡调好之后，再调节激励器。先将激励器的驱动电平和混频电平调至最大状态，频率调谐放在2500Hz，此时如果其发音已显嘈杂，或音色过硬，可将驱动电平调低，应注意这种调整有变化的是音源的硬度。如果驱动电平调在较高的位置，而只将混频电平调低，则高硬度声响的音响保持不变，但它会被未经激励处理的原声略微掩盖。此一现象在激励深度很强时比较明显，其中前一种发音给人的听感就是原声，后一种则可产生出两层声音，它具有增加人声层次感的效果。

　　一般1台激励器只能处理一个频段，并且很多单一功能激励器的连接都要求不能并联，只能串联。如需对音源的多个频段加激励，这里建议在附图所示的设备连接当中，混响器应选用含有激励处理的多重效果器(如YAMAHASPX990)，此时就可以用激励器处理500Hz、800Hz和7200Hz频段，用混响器上的激励功能处理2500Hz频段。

　　再次提醒大家的是，激励处理的调整时间不能太长，以免人耳疲劳后，无法准确辨认激励的程度是否合适。

　　最后就是调整混响效果。这里的混响效果包含两个方面，一个是基础润饰，另一个是强染色。

　　混响处理的基础润饰，主要是为了增加音源的融和性，但又不能让人听出有房间残响。此处的混响处理的强染色效果，主要是用于为音源生成余音缭绕渲染性，其处理方式有以下3种情形：

　　 (1)生成空间感。使用厅堂或房间混响效果。模拟余音明显的自然混响效果，是混响处理简单而又有效的方式，对此效果通道上3500Hz附近的频段稍作提升，可以产生穿透感良好的高亮度声响。当然，也有一个缺点，即处理的效果比较浑浊，有时带有一种"闷罐"声响。

　　 (2)生成回音。长延时时间的延时反馈处理，可以模拟山谷回音效果；处理的延时时间一般都与演唱歌曲的节奏合拍。为使其效果更具有遥远感，可对其1600Hz以下和3800Hz以上的频段适量衰减。模拟山谷回音效果，很多数码效果处理器上都有现成的程序可供使用。

　　 (3)生成融和的声背景。余音缭绕的混响效果对人声音源的美化作用非常有效，几乎所有的人声演唱都要使用混响。在不导致其发音变浑，或引起"闷罐"声的前提下，我们认为混响效果越强越好，但实际常常是混响效果还很弱时，其发音已经变浑，并引起明显的"闷罐"声。

　　为了在不导致其发音变浑，或引起"闷罐"声的前提下，生成融和的声背景。下面推荐如下效果处理方式，即延时一混响串联处理方式。此种处理的延时时间一般为200-600ms，反馈增益40％-60％，混响使用大厅混响效果，混响时间为2-8s。串联处理后的混响效果要求平滑、连贯。如果处理后的声响音头毕露，则可作如下调整，一是缩短延时时间，二是增加混响的响度，三是增大混响的时间。

　　混响处理的强染色效果，一般都应在基础润饰的前提下进行，这样强染色处理就可以弱一些。

首先，我们要弄清楚一个问题，你做的是音乐还是歌？我的意思并不是说歌就不是音乐，我的意思是你要把歌和纯音乐分开，在歌里，人声是绝对的主导。所以，正确的处理歌里的人声在整个歌里占有了非常重要的地位。

　　现在，我们从准备工作入手，首先你得有一个像样一点的话筒，千万别相信别人说的一两百元的话筒就能录出专业的人声。那些卡拉ok话筒尤为明显，由于过分地夸大中频段、而且往往为了不出杂音把高频削掉了，这样的话筒当然录不出清晰的人声，好多朋友在单独用卡拉ok话筒录音的时候觉得人声还可以，但是做完整个音乐混缩的时候才发现人声含混不清，不管怎么弄都不好听，就是这个原因。同样的道理，有些人刚开始用akg这样的话筒的时候觉得很不习惯，认为噪音奇大，声音发尖，其实对于人声来讲，我认为清晰亮丽的高音频段非常重要，比如有一些流行歌曲本身混响较大，混缩时就非得再把高频提升一点，要不然混响不够，要不然含混不清，这就待后面再讲了。我的建议是录音时用耳机听回送，基本上听不到环境噪音和电流声就可以了，当然专业一点的话筒阻抗比较大，没有话放听起来可能吃力一点，所以最好弄个话放或者弄个大功率耳机。

　　好了，提归正转。现在开始录音！

现在做第一步工作，降噪

　　有人说了，降噪我会啊，选取一段噪音波形为样本，然后再整体降噪呗，慢着，这个地方就容易出问题，首先你要听一下噪音属于哪一类？在人声里占到多大的比重。看这个噪音采样（图一），这是一段人声静音时的环境噪音在COOLEDIT里的噪音采样。（有关具体步骤请参阅胡戈和张俊在www.gigastudio.net上的有关文章，在此不详述）这段频谱的噪音量实际上已经非常小，而且主要是非常高频的电流声，这样的噪音是可以通过上述方法解决的，但是如果噪音的量比较大，而且参杂了许多中高频的环境噪音的话，我建议你不要用这个方法，因为这样会吃掉你的声音，还会让人声产生吭吭巴巴的现象。所以我建议这个方法要慎用，而且采样的时候尽量采最小最平直的一部分噪音。如果降噪完毕在人声中间还有噪音啊、喘气声啊，我建议你直接把那一部分静音，这样尽管人声里还有一点噪音，但是被人声掩盖，人声间歇时又是静音，整个人声就会听起来比较干净。说一千道一万最好是录音的时候就把好关，尽可能的减少噪音录入。

第二步，音量

　　音量也是人声是否清晰很重要的一个原因（废话）。

　　录制完成一轨波形后，先看看波形的纵向大小，一般振幅在2-2.5左右声音比较好。然后在混缩的时候用这样的办法判断你的人声音量是否合适：

　　把监听音箱的音量关到最小，然后稍微开一点，这个时候因该只能听到人声比较清楚，其他的声音都若隐若现，然后再开大一点，这时候可以听到吉他、贝司泛音、嚓的声音比较清楚，然后把音量开到一般状态下，这时候鼓和贝斯清楚的铺开了。然后把音量整个放到最大，听一听什么东西录爆了。实际上这是人的耳朵的听觉特性决定的，先是接近人声的中频，然后是中高频，然后是低频。

　　做音乐和听音乐的人不同之处在于，做音乐的人往往要试着听清楚每个细节、每种声音，但听音乐的人往往只注意他想听到的，所以在一首歌里，人声是一定要让别人听清楚的。试想你自己路过一家音像店，无意识的听到了一首歌，你注意的是什么？——是歌手唱歌的声音。我认为合适的音量和混响是构成声音清晰与否或者靠前靠后的重要组成。

第三步，压限

　　完成了上面的一些工作以后，下面开始最重要的两步工作：压限和混响。

　　首先讲压限在人声处理中的合理使用，如果你还不懂什么叫压限，那么请你去看看胡戈的文章《动态大法》，简而言之，压限就是一个音量调节钮，在你声音太大的时候给你关小一点，在你声音太小的时候给你提升一点，是你的音量始终保持在一个比较平均的线上。我常用的是wave3.0插件包里的rcl,但是通过试验我发现wave3.0的多段压限器c4更适合处理人声。

　　这是c4里预设的一个vocal的压限值，大致你可以看出：纵向是音量值，在正负6db这个范围内（紫红色范围内）是正常范围，超过这个范围就进行处理。然后你可以看出横向分出了4个区域，这才是c4的精髓所在----分段压缩，事实上，有了c4以后，我已经很少对人声在做什么均衡处理了，静态的均衡总是在这里合适在那里又不合适，调来调去非常麻烦，而c4的均衡和压限一样是动态的，而且是紧密联结在一起的，下面我着重讲一下这种动态的均衡和压限结合的好处。

　　先这样讲吧，假设你的作品里有四个乐器，贝斯、吉他、鼓、铺底弦乐再加你的声音，从频段来讲，贝斯和底鼓在低频段，高把位的吉他和高音区的弦乐在高频段，然后及他的中音区、贝斯的泛音、弦乐的中音区、你的人声都在中音区，这只是我们的划分，事实上每种乐器混在一起的时候并没有这样明显地划分，往往在各个频段划分的地方重合了一大队声音，这样的结果是各个乐器听起来都不明显，全部参杂在一起，一会儿听不到贝斯了，一会儿人声又蒙了。c4的作用就在于将效果分致于各个频段，通过动态的压限和均衡将各个频段的声音清晰化，比如说贝斯，通过处理，就老老实实的占据了低频，超过低频的声音就被压掉了，这样该是哪个频段的声音就在哪个频段，大家相安无事，谁的声音都清晰可辨了。所以我一般在最后混缩前要用c4处理（应该是梳理）一遍。通过这样大概的解释，不知道你有没有一点认识，如果不太懂，没关系，反正我们这次只讲人声的处理，看下面这个：

　　这也是c4的一个预设值叫pop vocal，你注意看看和上面那个标准的人声处理有何不同？（像我刚才讲到的，POP的人声因为常常加很多的混响，所以为了清晰一般要将高频提升一点点，因为在声音里高音的指向性最强，低音最差。）看那个紫色的区域！在3K的时候开始提升一直到16K，这就是一般人声音的主干部分（也是最清晰最好听的部分）如果你录的人声是男低音或女高音，你可以手动把4k那个地方的灰色小卡子调整一下，然后相应的调节均衡的量，一般来说没有固定的预设值，在我录《生于七十年代》cd的时候，由于歌的风格和配器的不同，我调整的值也不同，《习惯》这样重一点的东西，我把紫色部分整个拉下来了一点，高音区也不上调，和整个音乐配起来，人声就融入其中了，而《凸凹》则相反，基本上就用了上面这个值处理，试想想如果整个音乐偏向中低频，你的人声尖利地在高频是怎样的感觉（除了刻意的音乐试验），所以有人说总感觉人声和音乐融不到一起，出了合适的混响度之外，这也是重要的原因。从mastering的角度来说，合理平均的将声音分配到各个频段，整个音乐才会显得饱满，你的工作就是将该去哪里的声音分配到哪里，别叫他乱跑而已。怎么样，找出你的人声文件，自己听听你的声音然后调整着看哪一段频率是最动人的，对了，我建议你在CAKEWLK或SAM里作为效果插件使用，不要对音频进行破坏性处理，否则做坏了后悔不说也不太方便。

　　实际上，压限还要和混响一起来使用，左右权衡才能试出来最好的声音，下面就来看看我的混响处理方法。