【摘要】无论国内还是国外的企业,都非常重视声音定制对于触达用户、引导成交、树立企业科技形象的重要价值,但同时声音、音质是一个难以量化的东西,我们该如何选择最合适的声音定制方案呢?
人的声音是一个很奇妙的东西,一方面我们很难用日常词语将人声描述得很具体(相对于人的外貌),但另一方面,我们大脑对人声的记忆力、分辨力和联想能力却非常强,我们能够“闻声识人”,通过声音区分不同人物,通过声音节奏、音量大小感知对方情绪,甚至了解到对方的性格特点。同一句话,不同的语速、语气、语调,我们也能敏锐察觉到情感上的细微差异。当听到清澈、明朗的高音声音时,我们会很自然地联想到灵动、单纯的小女孩,大脑会瞬间放松戒备,启动“打开”模式来接收外界信息,即轻快的、使人放松的声音提高了信息的接受程度。
声音定制的应用
前进保险公司(Progressive Insurance)是美国保险业的一股创新力量,他们推出了一款对话机器人Flo,在定制这个机器人声音的原型时,Progressive Insurance寻找了许多形象,最终选定为Stephanie Courtney在电视广告中所塑造的、观众熟知的销售人员 Flo,其声音给人一种俏皮可爱、个性开朗的感觉,一经推出便深受人们喜爱,在Facebook上收获了上百万粉丝。Flo的出现,帮助Progressive Insurance触达用户、引导成交,在宣传公司科技形象方面,也起到了无法估量的作用。
在国内,也有企业很早就认识到个性化的声音对于产品、企业的重要价值,并通过声音来凸显产品定位或企业形象、占领用户心智。在某些行业,定制IP声音已成为标配,如手机导航软件、有声读物平台、金融业智能客服等。除了这些我们熟知的,其他的应用场景还包括:定制明星声音用于品牌传播及市场营销;定制动漫IP声音用于增加互动,提高动漫形象的趣味性;在知识付费领域,定制名师、大V或KOL的声音以提高内容的受欢迎程度······随着元宇宙、虚拟人的兴起,声音定制的落地场景也将越来越多。
如何定义一个好方案
声音、音质是一个难以量化的东西,甚至不同细分场景差异巨大,如何定义一个优秀的声音定制方案呢?
我们调研了多家已进行或正在进行声音定制的虚拟人平台、有声阅读平台和品牌营销公司,发现他们最看重的是声音的逼真度,具体可以量化为3个维度及对应的4个指标,3个维度包括系统可懂性、自然度、相似度,(以中文为例)对应的指标包括PER(拼音-不包含声调-错误率,越低越好)、PTER(拼音-包含声调-错误率,越低越好)、MOS(自然度音质,越高越好)、Sim(与真人声音的相似度,越高越好)。
与智能语音领域专业人士的沟通中,我们了解到,这一赛道的头部企业国外如谷歌、苹果,国内如 BAT,因其资本优势以及先发性的技术沉淀,对该市场有较强的垄断性,但按声音定制的实际效果而言,根据关键指标、客户口碑,国内企业已经有一匹黑马突出重围——深声科技(//www.deepsound.cn),是该领域的绝对权威。
在对深声科技声音定制产品的测评过程中,我们发现很多细节,比如还原nl、儿化音的口音习惯,比如还原对短句和长句的语调、语势处理,这些细节处理可能会使合成的声音普通话不够“标准”,但是高度还原了用户发音特征,富有表现力。“我们更加倾向于还原声音本身的特征,尊重每一个声音独一无二的特质,”深声科技CEO周俊明说道,“希望能够真实地还原声音在现实世界中给人的那种感觉,就像与朋友进行的一场对话,或聆听或思索,给人一种非常舒适的感受。”
如何选择方案
我们还了解到,为达到客户所需的最佳合成效果,深声科技在各个技术环节都做了大胆的创新和优化,并提供多档解决方案,以解决不同场景下的客户需求:
1.极速声音定制,仅需20句话录音(约90秒)、1天内即可上线使用,由于音色还原效果好、价格亲民,还可先体验后付费等特点,目前是最受B端客户欢迎的解决方案;
2.轻量声音定制,30分钟音频、3个工作日左右可完成定制,高度还原发音特点,可用于B端专业级商用;
3.精品声音定制,2小时音频,并提供录音棚、专业设备、录音文本等内容,主要是高端客户使用,适用于深度定制的企业、明星IP等场景。
目前,这些方案已经得到了市场的认可,从公开信息我们得知,有很多行业的头部企业选择使用深声科技的声音定制方案,如手机行业的小米、OPPO,音乐传媒的网易云音乐、酷我音乐,汽车行业的长城汽车、东风岚图等等。
声音是塑造一个有血有肉的形象的关键,在元宇宙、虚拟人的浪潮中,声音定制将会扮演越来越重要的角色。相信在未来,会有越来越多像深声科技这样的科技界黑马,突破国外老牌企业的重围,带来更多更具创造力、想象力的智能语音解决方案。