Uploads%2farticles%2f11794%2fgettyimages 634014902
|
2017-09-22

语音助手容易遭遇黑客入侵?专家教你如何化解「海豚攻击」

近期,几篇名为「语音助手存在重大漏洞,黑客可以这样攻击你的手机」以及「海豚攻击,攻破你的语音助手」等类似文章广泛传播,文章中提到已攻陷了包括苹果 Siri、亚马逊 Alexa、微软 Cortana、三星S Voice、Google Assistant、华为 HiVoice 等知名语音助手,让大家对语音交互的安全性不免又增添疑虑。

在一篇相关的研究论文「DolphinAttack: Inaudible Voice Commands」中,作者介绍了上述主流语音助手遭受黑客入侵,导致手机、智能音箱、电脑等硬件设备接收到第三方指令并且执行恶意任务的现象。比如黑客可激活「Hey,Siri」或者「Ok,Google」这些基本指令,控制 iPhone 拨打某个电话号码或者进行视频通话;他们还可控制 Macbook、Nexus 7 打开恶意网站;或者命令 Amazon Echo 打开你家里门锁;甚至让奥迪 Q3 的导航系统定位到另一地点。

这一系列的语音助手入侵案例都无一例外的对个人安全和隐私造成了威胁。作为近年来备受关注的科技领域,物联网逐渐覆盖生活中的方方面面,安全必定是个不容忽视且亟待解决的问题。

为帮助理解智能语音遭受入侵的全过程以及原理,科大讯飞资深科学家、研究院副院长王海坤为我们解释「海豚攻击」产生的原因和潜在威胁,并列举了一些化解「安全漏洞」的防范。

什么是「海豚攻击」

这个名词源于该论文「DolphinAttack: Inaudible Voice Commands」,这里面的关键词「DolphinAttack」,即「海豚攻击」源于一种现象,即海豚能发出超声波来攻击目标鱼群进行觅食,而这种攻击也正是借助了超声波。

提到超声,这里先科普一下声音信号的频带分布、相应的名称和性质。

当物体振动时会发出声音。每秒钟振动的次数称为声音的频率,它的单位是 Hz。人类耳朵能听到的声波频率为 20Hz~ 20KHz。当声波的振动频率大于 20KHz 小于 20Hz 时,人类则无法听见。

频率高于 20kHz 的声波称为「超声波」。超声波具有方向性好,穿透能力强,易于获得较集中的声能,在水中传播距离远等特点,通常用于医学诊断的超声波频率为 1MHz~5MHz。

频率低于 20Hz 的声音称为次声。次声特点是来源广、传播远、穿透力强,不容易衰减,不易被水和空气吸收。某些频率的次声波由于和人体器官的振动频率相近,容易和人体器官产生共振,对人体有很强的伤害性,危险时可致人死亡。

这篇文章里提到的「海豚攻击」就是用到了超声的基本原理,其技术实现思路是:

#步骤 1:把正常的频率范围的语音信号(用于语音识别的语音一般是 16KHz 采样,由奈奎斯特率可知其信号的最高频率是 8KHz,这里称为 Baseband 信号),利用幅度调制的方法把 Baseband 信号调制到超声范围,该超声信号称为载波(Carrier)。

这么做主要目的是把信号调制到被攻击的用户无法听到的超声波范围。下面就是幅度调制的原理图:

#步骤 2:利用超声发射器来发射调制后的超声信号,冲击被测设备。通过设备端自身的录音系统实现对 Baseband 信号的解调,从而实现对设备的控制。

搭建一套这样的超声冲击测试系统,需要以下几个设备:

  • 信号源(Signal Source):用来产生 Baseband 测试信号,用普通手机便可。
  • 信号发生器(Signal Generator):用来产生超声信号,并把 Baseband 信号调制相应的中心频率。
  • 功率放大器(Power Amplifier):用来对超声载波信号进行功率放大。
  • 超声扬声器(Ultrasonic Speaker):用来播放超声载波信号。

文章中还提到可以做成一个简化装置,成本在 3 美元以下:

基于这样的装置,该系统实现了对语音助手的控制,实现如前文所提到的手机受控拨打电话、打开飞行模式、打开网页等操作,并且这些动作均是在用户不知不觉的过程中进行,如将调低音量、屏幕亮度降至最低以避免用户察觉。该作者进一步表示,除此之外,若黑客入侵到一个能实现语音购物、支付的系统,你的钱被花掉也是分分钟的事情。

「海豚攻击」为何能实现

接下来分析一下我们常见支持语音控制的系统,包括手机、汽车、智能硬件有什么缺陷,导致让黑客可以有机可乘。

首先了解一下语音控制系统的录音(Voice Capture)有哪些环节:

从上图种可以看到,录音系统包括了:

a) 麦克风:Microphone,用于把声压信号转换为模拟电信号。

b) 放大器:Amplifier,用于模拟信号的增益放大。

c) 低通滤波器:Low pass Filter,用于过滤高频无用的信号。

d) 模数转换器:ADC,用于把模拟信号采样为数字信号。

在录音系统的各个环节中,「海豚攻击」有几处风险可以利用:

a) 该文章作者的观点是,麦克风本身的非线性会对载波信号实现部分解调

b) 更为重要的原因在于,目前主流设备的录音系统一般采用的是一阶低通滤波器,过渡带太宽,从而导致高频信号不能有效的过滤;再加上市面上大部分的录音设备 ADC 的抗混叠滤波效果有限,导致带外信号被混叠到 Baseband 里面,从而客观上实现了信号的解调。

「海豚攻击」并不是想象中的那么容易

以上是「海豚攻击」实现的基本原理,该研究进一步分析发现,这种「漏洞」虽然理论上存在风险,但是实现代价较大,且整体可行性较低,因此大众也不必过于恐惧。以下是对实现效果局限性的具体分析:

#局限性 1: 测试设备发射要求高,不易隐藏作案

首先,该系统需要一个大功率且大尺寸的信号发生器来生成高质量的超声信号;同时,目前的普通麦克风对 20KHz 以上的信号频响衰减非常大,这就要求超声信号有相当大的发射功率。

这篇文章中使用的超声发射器可以支持到 300MHz 的频率范围,超声播放的声压级达到了 125dBL,在这种情况下,普通简化装置的放大器和喇叭根本无法实现。

#局限性 2: 攻击距离很短,智能家居产品不受影响

同样是基于目前普通麦克风对 20KHz 以上的信号频响衰减过大的原因,在声压级是 125dBL 的播放超声信号下(这个音量已经需要非常专业播放设备了),实验的最远冲击距离只有 1.75m,而对于大部分超过 0.5m 的设备则没法响应。另外,超声信号不具备穿墙能力,使得放在家中的智能硬件设备不受任何影响。不过,反观那些可携带到公共场所的手机和可穿戴设备,则存在着一定的「风险」。

#局限性 3: 攻击语音质量很低,效果和单个硬件相关

如前面所分析的,由于解调后的信号会经过低通滤波器,各频带都会有不同程度的衰减,且大部分 ADC 都有抗混叠滤波,因此最终设备端解调进来的 Baseband 信号失真严重,信噪比也不会很高。

攻击效果也跟硬件本身相关,包括麦克风型号、低通滤波器的实现方式和效果 、ADC 抗混叠效果和采样频率。想要达到好的攻击效果,必须根据实际的硬件来调节载波频率,信号强度等参数。这对于公共场所游走作案,且不知道被攻击者使用的什么设备的情况下是比较难以实现的

那么,该如何从源头上防止「海豚攻击」?

通过以上的分析,我们知道「海豚攻击」只是在理论上存在风险,但是否有办法从根本上解决该问题,做到万无一失呢?这里就从硬件设计和软件实现上谈一下解决方案。

硬件解决方案:

a) 再增加一个低通滤波器,进一步减少高频成分的泄露。

b) 采用抗混叠更好的 ADC,进行更严格的抗混叠测试。

c) 采用更高的采样频率,比如采样率是 16K 的话, 16 ~ 24K 的信号就能混叠进来。如果采样率是 48Khz 的话,要 24Kh 以上的信号才有可能混叠进来。实际上,24Khz 信号的发射和采集都要困难很多。

d) 采用动态的采样频率,让攻击者无法及时调整。

声纹+唤醒解决方案:

从硬件解决方案角度来讲,需要对整体硬件进行重新的设计开发,难度相对较大,且周期长,对于存量用户无法保证绝对安全。这里引入另外一种思路——通过声纹+唤醒的方案来保证个人或家用设备不被陌生语音攻击。

声纹识别是一种通过语音信号提取代表说话人身份的相关特征(如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的频谱特征等),进而识别出说话人身份等方面的技术。它广泛应用于信息安全、电话银行、智能门禁以及娱乐等领域。

声纹识别所提供的安全性可与其他生物识别技术(指纹、掌形和虹膜)相媲美,且只需麦克风即可,对设备无额外特殊要求,数据采集极为方便,造价低廉,是最为经济、可靠、简便和安全的身份识别方式,并且是唯一可用于远程控制的非接触式生物识别技术。

目前,已有部分语音技术厂商推出此类方案的服务,其中就包括科大讯飞。 基于该方案,用户只需对自己的智能语音设备说 3~4 遍唤醒词,便可完成声纹注册,使用方法与目前的语音唤醒方式保持一致。另外,科大讯飞远场声纹唤醒技术已经成熟,相关产品方案也在研发之中,将唤醒词作为声纹识别的文本,实现唤醒后对唤醒人身份的鉴别。科大讯飞将会在不久后正式公布该具体方案。

本文经「讯飞智能平台」授权发表,略有删减

Back to top btn