音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

阅读: 4472|回复: 7

[音频] 音频编码功能

[复制链接]

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
发表于 2005-9-12 | |阅读模式
音频应用公众号资讯免费发布推广
音频编码9 s; m4 }4 M7 j
编码
4 D- y4 j4 d7 l8 h    即压缩编码,其原理是压缩掉冗余的信号,冗余信号是指不能被人耳感知到的信号,包括人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号。
; y( z0 `" p  Z0 Z$ w$ l, f
. e" y& W, `4 W  r5 H
* n% P, x, |9 B1 J' ^
, f  n  {) c" I1 \    模拟音频信号转换为数字信号需要经过采样和量化,
; \7 g. Q# ^+ ^& s
5 }. ~( u* Z0 U( X    量化的过程被称之为编码,根据不同的量化策略,产生了许多不同的编码方式,
# e3 z4 A5 L$ b5 D4 U$ m( l/ L. i9 R( ]9 t
    常见的编码方式有:PCM 和ADPCM,这些数据代表着无损的原始数字音频信号,添加一些文件头信息,就可以存储为WAV文件了,它是一种由微软和IBM联合开发的用于音频数字存储的标准,可以很容易地被解析和播放。
/ A8 I' c+ ~$ E' H6 x& L+ K$ e" }6 q# X" W" B7 E, S' X
& {1 A" F9 h( W/ v6 j: F

# s$ B5 W9 p) [" t5 T7 @. v; M, v& I几个概念9 F0 X: b9 z* L* N
在进一步了解音频处理和压缩之前需要明确如下几个概念:
/ \  J; f7 `: l3 D  z! j+ \8 s6 I  o7 s, Y
4 K" Z$ U1 o* v: R8 ~2 y) F

" u1 h' M2 K" h6 W  `  b  s( C1)音调:泛指声音的频率信息,人耳的主观感受为声音的低沉(低音)或者尖锐(高音)。
3 g; a5 |0 e2 e2 ~% l; E) }, M; u! r! s. x
2)响度:声音的强弱。
- m/ n5 p$ q1 F' w4 a
' f$ P8 y8 V6 n/ n6 D* V: b" R3)采样率:声音信息在由模拟信号转化为数字信号过程中的精确程度,采样率越高,声音信息保留的越多。
/ z) u, u5 @# |
- O# c# E1 _  ~/ V  V- `4)采样精度:声音信息在由模拟信号转化为数字信号过程中,表示每一个采样点所需要的字节数,一般为16bit(双字节)表示一个采样点。
2 |! W8 F; k6 `% O; m: ^% M0 C0 G/ V$ D* u( Y/ H! `2 _  d# d
5)声道数:相关的几路声音数量,常见的如单声道、双声道、5.1声道。4 ^4 h8 v  Y  ]0 o0 l
! s6 e  s2 {* F9 U
6)音频帧长:音频处理或者压缩所操作的一段音频信息,常见的是10ms,20ms,30ms。4 M9 w. V& L$ r9 k9 M6 U) \
9 \7 x& X* E- N3 H# s
我是新手,请各位老师多多指教。。。

4086

积分

2

听众

-495

音贝

音频应用新手发布

Rank: 3

积分
4086
发表于 2005-9-12 |
音频编码功能
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-12 |
音频编码基本手段3 c6 s- q5 F. p  e+ X
编码基本手段(1):量化和量化器
. Q: J0 {5 J* f+ d! |- P1 i" a$ k基本概念:  W. y' N; I" P; p% ?

6 z$ E5 U- U/ P$ i量化和量化器:量化是把离散时间上的连续信号,转化成离散时间上的离散信号。3 t  i; c: E( {/ ~9 G- R. W
2 @) B% {  F5 t  W, T7 U
常见的量化器有:均匀量化器,对数量化器,非均匀量化器。
* c: k; Y$ V( h. F$ S& u+ o- F* h  T- d5 l
量化过程追求的目标是:最小化量化误差,并尽量减低量化器的复杂度(这2者本身就是一个矛盾)。$ _- J: f5 e  K) B' V
2 `* ]! ^3 @! P! F1 w& `
0 B6 U0 `' [+ f! ^
2 F/ N2 l. ~9 S

+ @, r5 _( @3 R( m: C$ k6 o& g# {+ P0 f: q
常见的量化器的优缺点:) ^2 E" U& q  @+ t

# Y  ?' j: ]$ q/ |' K* o(a)均匀量化器:最简单,性能最差,仅适应于电话语音。- i! K5 V* X8 @. i* e

9 p7 l1 Z) D: N/ x, W0 l(b)对数量化器:比均匀量化器复杂,也容易实现,性能比均匀量化器好。
$ R! ~. H  d8 g0 ~
* x( e- B# ?! d4 q1 d# J+ I1 V(c)非均匀(Non-uniform)量化器:根据信号的分布情况,来设计量化器。信号密集的地方进行细致的量化,稀疏的地方进行粗略量化。7 K6 y; w, B# W; o2 C1 ?  |
1 e4 M+ g" V5 J# n7 t
% O- F( s" M" o. o& ^5 z: ~$ ?- `8 {

( M# d' j* s; V' L- a; j8 }6 O
' ]+ E. A, u3 B% g, y: f" A
5 W/ n) B1 P! `% {% }编码基本手段(2):语音编码器
4 q3 l+ V0 E( w1基本概念
; n3 M. K1 H* o& j
; w, n" ]2 ^4 x" \7 Q$ f" ^. G/ Z& w7 U
语音编码器分为三种类形:(a)波形编器 、(b)声码器 、(c)混合编码器 。
' m$ M) T; e: c# s- i7 v1 [: O$ e" y- b5 I3 J

! P- i; H: h/ ^! e' G1 q4 P4 Q# ]8 u- K6 L/ r. z' m0 z3 j
波形编码器以构造出背景噪单在内的模拟波形为目标。作用于所有输入信号,因此会产生高质量的样值并且耗费较高的比特率。 而声码器 (vocoder)不会再生原始波形。这组编码器 会提取一组参数 ,这组参数被送到接收端,用来导出语音产生模形。声码器语音质量不够好。混合编码器,它融入了波形编码器和声器的长处。
) o) t; m7 u) }; X0 S
8 r1 V; g0 E' r" T; Y# _  m2 ?; V4 N3 ^2 z
7 Z' p5 y; x$ F! X
2波形编码器& d2 m" ?) a* P6 N8 l2 t% p$ d% F
波形编码器的设计常独立于信号,所以适应于各种信号的编码而不限于语音。+ |& g* s# A$ a/ |
# B! }7 t% u# Y9 C5 [

. R" `8 c% `# c/ z( R
0 `0 u' u: D4 F! S* y7 `3 B时域编码:
' |9 f2 G; }9 L. I" }a)PCM:pulse code modulation,是最简单的编码方式。仅仅是对信号的离散和量化,常采用对数量化。
# v9 M6 E# G; k7 o6 \8 x4 K3 x, ~6 _) w* q# \
b)DPCM:differential pulse code modulation,差分脉冲编码,只对样本之间的差异进行编码。前一个或多个样本用来预测当前样本值。用来做预测的样本越多,预测值越精确。真实值和预测值之间的差值叫残差,是编码的对象。
. K2 V2 s; K! n
" E% O& B) M4 j# _/ t& N0 m/ rimage.png- P/ E9 w% y8 I( k1 W/ |. N

: N/ X" d% N5 }) G: u. h' d9 ~c)ADPCM:adaptive differential pulse code modulation,自适应差分脉冲编码。即在DPCM的基础上,根据信号的变化,适当调整量化器和预测器,使预测值更接近真实信号,残差更小,压缩效率更高。
  R1 C( y; I, M* b0 L
. S0 j% U2 @- D
  F' ~; v9 D' w8 E6 N7 n' U/ w" c/ U3 p0 e9 X& ^3 e8 S, A
频域编码:. }5 Z0 ^% e; e6 i! x
          频域编码是把信号分解成一系列不同频率的元素,并进行独立编码。2 t% s6 `6 ]* m4 g% L8 t8 t
3 |7 N2 a; S1 C+ @: `, J1 k
a)sub-band coding:子带编码是最简单的频域编码技术。7 C5 H# l6 z( z# d( u; }6 Y
: z4 |% U7 |& k$ U/ M* r- @
是将原始信号由时间域转变为频率域,然后将其分割为若干个子频带,并对其分别进行数字编码的技术。9 f2 D# t$ r/ t! o8 j6 {

; h# O1 S0 l( x! Q它是利用带通滤波器(BPF)组把原始信号分割为若干(例如m个)子频带(简称子带)。将各子带通过等效于单边带调幅的调制特性,将各子带搬移到零频率附近,分别经过BPF(共m个)之后,再以规定的速率(奈奎斯特速率)对各子带输出信号进行取样,并对取样数值进行通常的数字编码,其设置m路数字编码器。将各路数字编码信号送到多路复用器,最后输出子带编码数据流。对不同的子带可以根据人耳感知模型,采用不同量化方式以及对子带分配不同的比特数。2 U2 |' E/ t5 k2 Q; X

" X6 e; {1 B6 f& u& ab)transform coding:DCT编码。
( u" q7 W. B0 c0 ]9 w
' G( ~* ?; `/ c9 e2 X& n
' |/ j' m" T/ Z5 ?6 l7 S4 k
0 @3 [, ]& a6 {1 [/ s3声码器5 ]- @( P4 N/ ]( t2 o" \
channel vocoder: 利用人耳对相位的不敏感。& v+ o" q& j( E* [
% m; \- ?+ K& `# P
homomorphic vocoder:能有效地处理合成信号。4 `# A; |1 C" \3 J

4 V- M& j3 P4 J  |" Vformant vocoder: 以用语音信号的绝大部分信息都位于共振峰的位置与带宽上。
& K% B5 P1 D; {0 a& P- y4 z' U+ V- X( X
linear predictive vocoder:最常用的声码器。
9 Q) K3 y4 i/ p7 I; \# \3 L: @( K) K$ X* z  M

$ H0 S' W7 y" h8 o* `( S# z5 G* G/ [% \( H0 j
4混合编码器
; k. f0 s+ g7 ?- Z9 U# w, J    波形编码器试图保留被编码信号的波形,能以中等比特率(32kbps)提供高品质语音,但无法应用在低比特率场合。声码器试图产生在听觉上与被编码信号相似的信号,能以低比特率提供可以理解的语音,但是所形成的语音听起来不自然。, `  ~9 g; H- N3 |9 P4 S

. {  n1 W6 r0 j# m* g0 D  x& Q7 t) n: x# l5 F
+ A, \  F7 Q! W
混合编码器结合了2者的优点:7 m& b7 `& }7 t- Z5 y1 Q2 u

8 ]3 _% [* d3 J7 l5 V' ?2 y: O) a: @

/ ~3 N1 ?! G3 z) L$ r0 o1 |RELP: 在线性预测的基础上,对残差进行编码。* S9 j! W' Y1 q6 r

/ f2 P0 n4 T* m& o% f2 v        机制为:只传输小部分残差,在接受端重构全部残差(把基带的残差进行拷贝)。2 E9 ]( \3 k1 @7 x, g  V6 B  N1 z  z
. G; y' d0 f4 D% p5 W6 n
MPC: multi-pulse coding,对残差去除相关性,
1 V& P2 T4 x5 p  y% H3 h" k( f
% c3 k/ l0 a7 W7 ~8 F( A/ V, n        用于弥补声码器将声音简单分为voiced和unvoiced,而没有中间状态的缺陷。+ h' |, L- {7 ]4 t/ K/ s

, t& U0 v5 F5 `CELP: codebook excited linear prediction,, X. e9 c* D- B8 N/ s# [

0 m4 M* Q/ ?2 Y5 o5 u        用声道预测其和基音预测器的级联,更好逼近原始信号。$ n* K3 I) J; j' c+ d! ~

5 B+ s8 z5 o& q$ t+ i% p8 e# Z% sMBE: multiband excitation,
9 Z* M& N7 ^# q" @+ Y
/ k( D0 P9 \4 s+ C. |        多带激励,目的是避免CELP的大量运算,获得比声码器更高的质量。
我是新手,请各位老师多多指教。。。

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-12 |
常见的音频压缩格式
2 r0 ^+ R" }( H+ c  w- [3 b1.WAV编码:, H4 G! i; ]+ A  {  N7 }
- r! Q9 q: O( A  s; G
WAV编码是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。特点:音质非常好、大量软件都支持。使用场景:多媒体开发的中间文件、保存音乐和音效素材等。
, r0 o" g# T1 N# M) e* l/ o- H2 @6 h" r' n1 |7 \$ }4 o3 ~
image.png1 J( ?8 k2 s! O& L/ e5 D( c

2 a+ c, H& g4 w7 C- I7 L. g
! P3 o: b% {5 q" q" V4 y& e6 M3 @7 U8 y0 o1 U" E
2.MP3编码:
( |1 ?/ [8 x" w  |
: L+ f; H$ G& x. O2 v. g4 {4 Z    MP3具有不错的压缩比,使用LAME编码的中高码率的MP3文件,听感上非常接近源WAV文件。特点:音质在128Kbps以上表现还不错,压缩比比较高,兼容性好。使用场景:高比特率下对兼容性有要求的音乐欣赏。: {6 Z! _- t( X6 t# L' x' K
2 E; K: ]1 ?. ]0 T  J5 K, {7 ?: Q
/ J) Y; f9 N( Q6 p

/ _, P% x4 T0 e2 Z3.AAC编码:
0 }1 \  a. |6 @% o5 z5 \3 W5 Q1 _4 b' k# n
    AAC是新一代的音频有损压缩技术,它通过一些附加编码技术(如PS、SBR等),衍生出LC-AAC、HE-AAC、HE-AAC V2三中主要编码格式。特点:在小于128kbps码率下表现优异,且多用于视频中的音频编码。适用场景:128Kbps 码率下的音频编码,多用于视频中的音频轨的编码。# O6 ]) _" ]; m( d; z- X+ E  {7 }
6 B8 d6 L! ?( t2 t

3 k2 z2 `' [1 Z; u6 J! w
7 {* D! E$ t& v+ g8 R& A) E: V4.Ogg编码:
$ y' P% A" g+ D" ?4 i
& G4 t2 z* {+ Z' j: ^    Ogg编码音质好、完全免费。可以用更小的码率达到更好的音质,128Kbps的Ogg比192Kbps甚至更高的MP3还要出色。但是目前媒体软件支持上还是不够友好。特点:高中低码率下都有良好的表现,兼容性不够好,流媒体特性不支持。使用场景:语音聊天的音频消息场景。0 B+ h6 Y: ]7 C3 x5 `
6 W$ B0 f0 f; z( q2 M

. ]8 f( ?9 p1 c2 |2 i  m8 N8 c' W  S* ^" M
5.FLAC编码:
% i3 R) E3 _8 O  Z9 |
) g" p0 k8 _& x  x* r9 m( M8 h/ T3 T    FLAC中文可解释为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC,它不会破坏任何原有的音频信息,所以可以还原音乐光盘音质 。2012年以来它已被很多软件及硬件音频产品(如CD等)所支持。特点:无损压缩、压缩率高于普通文件夹压缩格式(ZIP、rar等)。使用场景:高品质音乐等。7 b# ?9 {9 ?9 p6 u: g& f
$ S8 m/ v4 X2 {$ ^
我是新手,请各位老师多多指教。。。

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-12 |
音频压缩
. B. |- \/ R) r9 B本质:消除冗余数据
+ d, b: t: h% u. n
# Z* ]- m' H" J; }
8 `8 ~$ c7 ?" G: d: B3 a! S% U) }0 }2 A' K. D
第一:频谱掩蔽效应:
$ v* N. f7 n5 B, z4 V
: }3 q+ ]( p) \9 k& X; r    人耳所能察觉的声音信号的频率范围为20Hz~20KHz,在这个频率范围以外的音频信号属于冗余信号。2 e- G$ ?. \9 _8 i3 H, u2 ?1 X+ ]

3 D3 K% n2 H4 z' }+ Y    人耳听觉范围外的音频信号: 20Hz~20KHz. q' `/ V! b# ?* u( }, }
8 Z" t0 s0 _8 r. a; ?
; @0 [0 Z4 T2 Y4 K+ D. h$ A9 g
去除人耳听觉频率范围临界附近的值/ h' T' e5 Q/ U, n; R; Y) G
  ~5 G/ u) H, M" W* C( z
大声音附近如果有小的声音可以去除
4 |+ P; T+ W3 H  X, k1 k5 u% |6 e* ?# U
时域屏蔽效应. s5 b$ @0 y, E% r

$ r7 W$ I$ ^. u高声附近50ms内如果声音比较小可以去掉1 p6 I2 b: @# t5 S/ e3 `

5 d1 Q+ p2 U1 ?: z8 }# u无损压缩2 i4 V: b7 D9 R; e$ K

3 p) O4 `' U6 b/ Y, I# a2 \
- s4 R" E$ y% @' d% k% ~2 n* Q. m) L$ a; F$ L
- c1 H9 i5 ?4 ^5 `
第二:时域掩蔽效应:
% [4 ]: D3 t; u
! a; z3 V: ?3 O% t* p8 A, c    当强音信号和弱音信号同时出现时,弱信号会听不到,因此,弱音信号也属于冗余信号。
我是新手,请各位老师多多指教。。。

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-12 |
常见的音频编码器
OPUS、AAC、Vorbis、Speex、iLBC、AMR、G.711等
  • OPUS:
    目前性能最好、质量最高,但是由于时间短,暂时还没有普及,rtmp协议还不支持它。
  • AAC:

    * W) u% D  I" }: A
     有损压缩算法,目的取缔mp3,压缩率很高、但还能接近原始的质量;
  • MPEG-4标准出现后,加入了SBR技术和PS技术,目前常用规格有AAC LC、AAC HE V1、AAC HE V2;
  • AAC LV:低复杂度,码流128k
  • AAC HE V1:AAC+SBR 分频编码,低频(减少采样率)和高频(增加采样率)分开编码
  • AAC HE V2:AAC+SBR+PS 由于声道间相同的性质很大,所以对于其它声道只要存储一些差异性的特征
  • AAC格式:
    & n% [, _. I- q' j! e( E
    ADIF-只能从头开始解码,常用于磁盘文件中;
    ADTS 每帧都有一个头信息,可以在音频流的任何位置解码,但是占用比较大。
    AAC编码库:
        Libfdk_AAC > ffmpeg AAC > libfaac > libvo_aacenc
我是新手,请各位老师多多指教。。。

717

积分

1

听众

18

音贝

音频应用新手发布

Rank: 3

积分
717
发表于 2005-9-12 |
数字音频输出pcm和raw是什么意思
2 s: w' Q/ I" ?PCM (Pulse Code Modulation) 是一种数字音频编码方式,它将音频信号进行采样和量化处理,将其转换为数字信号。PCM音频文件通常以WAV或AIFF格式存储。+ Q$ ^3 }; O2 n  l
3 T& q# [9 S7 c3 ^1 [: P* a1 e7 b
RAW是一种音频格式,它没有进行任何压缩和编码处理,直接将音频信号存储为原始数据。RAW音频文件通常需要提供元数据,如采样率,量化位数等,才能进行解码播放。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-13 |
谢谢老师的指点。。。。。。。。。。。。。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频招标|音频应用 (鄂ICP备16002437号)

Powered by Audio app

快速回复 返回顶部 返回列表