|
发表于 2006-7-2
|
|阅读模式
随着人工智能与人们的生活越来越近,语音技术的发展也备受关注。传统的近场语音已经无法满足人们的需求,人们希望可以在更远的距离,更复杂的环境中语音控制智能设备。因此,阵列技术成为远场语音技术的核心。
6 g3 x `8 `4 i n! [
7 s B9 d9 I/ ]5 V 阵列麦克风对人工智能的意义:2 k7 E2 e! |' w2 P, O
* v3 k! w$ I' v 空间选择性:通过电扫阵列等空间定位技术可以获取声源的有效位置,智能设备在获取精准的声源位置信息,让我们的语音更加智能,通过算法获取高品质的语音信号质量。( x5 Y* Q1 A% _
0 w7 q3 `3 e! o* `4 @ y5 C 麦克风阵列可以自动检测声源位置,跟踪说话人,同时可以获取多声源和跟踪移动声源的优势,无论你走到任何位置,智能设备都会对你的位置方向进行语音增强。3 Q# W! i6 M* U6 K$ ^* z2 x
0 I1 I! ~$ E1 |# Y$ P, z
阵列麦克风增加了空域处理,对多信号空时频三维的处理弥补单信号在噪声抑制,回声抑制,混响抑制,声源定位,语音分离方面的不足,让我们的智能设备在复杂的环境中都可以获取高质量的语音信号,提供更好的智能语音体验。% H7 n. U( T! z k. R
( m* G' W' y; X, S" y# [1 L
麦克风阵列技术的技术难点:
: W/ R( B% }3 c- o% A2 b1 [& a, e: t2 ^
传统的阵列信号处理技术直接应用到麦克风阵列处理系统中往往效果不理想,其原因在于麦克风阵列处理有不同的处理特点:- W/ \7 u( G; Q7 [
9 L& e2 N- u7 X; X 阵列模型的建立
! N+ @5 u2 F7 ]2 Z& |
- _( u& k* F4 G 麦克风主要应用处理语音信号,拾音范围有限,且多用于近场模型,使得常规的阵列处理方法如雷达,声呐等平面波远场模型不再适用,在近场模型中,需要更加精准的球面波,需要考虑传播路径不同引起的幅度衰减不同。
4 z/ ?: t. i1 b# D& {0 g* u0 e* K4 k
宽带信号处理4 g z+ J0 T5 j9 n% T0 v
+ ?" x- i" ~: p( ~5 N& J$ k4 t6 R 通常的阵列信号处理多为窄带,即不同阵元在接受时延与相位差主要体现在载波频率,而语音信号未经过调制也没有载波,且高低频之比较大,不同阵元的相位延时与声源本身的特性关系很大—频率密切相关,使得传统的阵列信号处理方法不再完全适用。' y+ p7 P* y5 I) {7 i. V
" D( ^6 C. M7 X7 O W 非平稳信号处理
: r7 t' q0 ~" C5 A8 f" [8 n3 {: ~
传统阵列处理中,多为平稳信号,而麦克风阵列的处理信号多是非平稳信号,或者短时平稳信号,因此麦克风阵列一般对信号做短时频域处理,每个频域均对应一个相位差,将宽带信号在频域上分成多个子带,每个子带做窄带处理,再合并成宽带谱。. e- p+ l. w2 W; q/ a
2 y% Y3 |9 |9 c) L4 v 混响8 Q# H r1 Q* `3 `
9 [$ |3 o! s# O9 V3 [
声音传播受空间影响较大,由于空间反射,衍射,麦克风收到的信号除了直达信号以外,还有多径信号叠加,使得信号被干扰,即为混响。在室内环境中,受房间边界或者障碍物衍射,反射导致声音延续,极大程度的影响语音的可懂度。
. ?( I; w- K$ N
+ c2 J! x" Y1 \/ j) z 声源定位, W9 U0 b" q6 ^8 D0 X
2 m3 F# `2 Q' I4 `% G: G, x4 K 声源定位技术在人工智能领域应用广泛,利用麦克风阵列来形成空间笛卡尔坐标系,根据不同的线性阵列,平面阵列和空间阵列,来确定声源在空间中的位置。智能设备首先可以对声源的位置做进一步的语音增强,当智能设备获取你的位置信息可以结合其他的传感器进行进一步的智能体验,比如机器人会听到你的呼唤走到你的身边,视频设备会聚焦锁定说话人等等。了解声源定位技术之前,我们需要了解近场模型和远场模型。
: A v, |/ N: A5 S, T `. e9 ^/ p- ~, [+ M, U& j7 D0 |
近场模型和远场模型
- k S ~+ `3 E1 d4 w
" @1 K- l8 F1 P+ ~$ c& e这里写图片描述& B; A! @2 `( ^7 J
' o: |4 h7 x; w3 F) v2 N 通常麦克风阵列的距离为1~3m,阵列处于近场模型,麦克风阵列接受的是球面波而不是平面波,声波在传播的过程中会发生衰减,而衰减因子与传播的距离成正比,因此声波从声源到达阵元时候的幅度也各不相同。而远场模型中,声源到阵元的距离差相对较小,可以忽略。通常,我们定义2L2/λ为远近场临界值,L为阵列孔径,λ为声波波长,因此阵元接受信号不仅有相位延时还有幅度衰减。$ V, { X ?7 k) N* J: E; H2 F& b! z
# f/ T7 G+ e; F2 P |
|