音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

阅读: 12115|回复: 0

[音频] 音频详解,码率采样率、音频帧、位深度、声道编码

[复制链接]

1417

积分

2

听众

21

音贝

音频应用新手发布

Rank: 3

积分
1417
发表于 2006-7-17 | |阅读模式
音频应用公众号资讯免费发布推广
包括采样率、码率、单双声道、音频帧、编码格式等概念。) N& `+ t. Y. i! }. x

* {1 e7 D; O2 m, q; q0 T: C这里先抛出一个关于无损音频的问题。
0 m1 n+ a1 ^0 N! @. x
8 f, c! j, |: z7 `$ g( k: A0 {为什么48KHz采样率的.mp3不是无损音乐 ,而48KHz采样率的.wav、.flac音频是无损的呢?
) `# `1 b! c- B7 G$ E' _2 ]- I# b
- _9 s; t" f8 X  D, p- `1 V$ m8 R音频相关概念我们按这样的顺序分类讨论:
( i! b1 V+ G# w; _. t0 Z! W
4 b$ [! H# a1 D& l" z1、 音频采样的概念+ U: v! `. t2 i  m+ d' P
/ o' C! V8 c* z2 x
2、 单个音频帧的概念
$ n: |) u) H9 E5 O& f) Z: \$ k
' A$ d" }; O. |" [3 v+ a3、 多个音频帧的概念
& ?, |6 P" Q! e+ ]
; N# }0 ]' |, F: l5 w3 }, E8 G* v音频采样的概念
8 q' D! Q5 ]7 l0 Y3 `; q相关概念有:采样、位深度、声道、采样率。* O/ ~0 {4 F3 M/ H$ I

& `* \5 V% N2 X. {( _7 b) N与视频不同的是,音频的最小单位不是一帧,而是一个采样。
+ s: }8 l, y1 ?8 E! `
' y5 |/ A6 r# p6 c2 b) a采样是当前一刻声音的声音样本,样本需要经过数字转换才能存储为样本数据。. w2 c4 r* W' O$ ?1 z; }# g: U
$ M5 @3 n3 M, z+ E% `0 |( g9 z! Y( {

  w. d& \9 [& ?- B数字转换时会根据位深度转换,位深度就是存储单个样本数据的大小,位深度越大,记录的样本数据精度就越高。( r2 C& d+ t. S9 l
' Y/ I, a7 ^4 j' M& L3 U; j- o
网络视频、音频文件一般位深度为16bit,常用位深度还有8bit、24bit等。+ y- L; @% Y5 ^; V$ v: ^
$ Z% _' r8 p1 l+ g1 H! Y
这里需要一提的是,位深度越大虽然意味着声音还原度越高,但是过高的位深度,如32bit、64bit float或以上,可能需要特殊的软件和硬件设备才能播放。: y3 B2 e( Q! h- f# h
5 n, ~+ t" x, K0 V! s

' Q- y: Y, \% J8 ~" P接下来是声道,音频有单声道、双声道、立体声等。
4 S9 m" l* J3 Q' s3 Y) P
4 p& c5 K* ~, s. q" c每个声道的声音样本都会单独记录,一般双声道的采样数是单声道的两倍,多声道同理。
3 W2 f( s( {6 ]  c
8 I! o- I6 i# _/ o& g: i6 f. t多个声道的样本数据一般会按声道排列顺序记录,播放时,程序会根据排列顺序将声音用不同的扬声器播放。
; S. G7 `% [: Y/ L6 l
3 |2 M$ j7 o( k; `! U& m( S; W7 X3 c+ }" m) h# q1 q" m6 W) S" i' [
而采样率是采样的频率,与视频的帧率类似,是一秒钟对声音的采样个数,如果是双声道,那么1秒采样的个数是采样率的两倍,多声道同理。
0 i4 S6 h' W" \* e$ z) Y
' e3 W. D4 j: d( U0 e6 g3 {普遍认为,流畅且不失真的音频,要求采样率达到40KHz以上,这个采样率是人类听觉频率上限的两倍,一般CD品质音频的采样率是44.1KHz,网络视频、视频文件一般是48KHz。  `# g4 g# }  e" E+ R- j

- X; W. x+ \9 ?8 e+ d& q8 a% {" r; q2 l: q7 [8 m3 Q
不过,某些具体场景可能会降低采样率要求,如语音通话、监控摄像头等,这些场景下,音频采样率一般只有8KHz,这个频率虽然听音乐是一种折磨,会一卡一卡的,但是对听清别人说话倒是一点问题没有。* b7 x8 y1 v& `; z3 @2 H3 R

2 T; A- ]8 @+ s; ~6 I8 H8 H单个音频帧的概念# Q3 w3 t6 m. Z9 P
这里我们理解为什么存在音频帧就可以了。7 l  `3 J- R$ c1 c5 Z4 E8 K

6 c4 z& P" t* q3 @5 y% P理论上,音频并不需要音频帧的概念,因为音频采样数据和采样率已经可以把音频播放描述清楚了。- J5 P: z0 g8 k

9 l# r% x4 Y0 H但是音视频文件播放时,为了保证音视频同步,程序需要根据每帧的播放时间戳进行有序播放。! s; o5 r' g1 o; x4 j! }
7 j; D: g  {  G8 M# N: l5 W
但是每个音频采样数据太小了,如果每个采样数据都记录播放时间戳的话,那么就得不偿失了。毕竟一个时间戳数据的大小比一个音频采样数据都大,所以就有了音频帧的概念。
% e  R' C9 R* |/ m0 ?2 D# v. O8 Y' J7 [. @% V
音频帧实际上就是把一小段时间的音频采样数据打包起来,如每20ms的音频采样数据合并成一帧。
1 g" f0 \( C2 Y3 i! f7 n0 ]# K: k
这里的具体时间间隔是具体编码码格式决定的,一般不需要特别关心。' O: X; W' b) n) R! Q# W
/ ^; X9 r# ?- P% `5 _$ @
% r3 [6 @5 S: m% }' d
多个音频帧的概念
7 l7 S0 [7 v$ v# @, {* d, R# j多个音频帧的概念有播放时间戳PTS、码率、编码格式。与- k0 T- X2 `9 e9 A9 }) p

1 m. T6 K& N7 E+ M% W% H- l) o视频帧一样,每一帧音频帧也会记录播放时间戳PTS,程序播放时会根据播放时间戳PTS播放音频帧。! s& H+ I. G' W0 O, v9 H

$ G- {& Q# R5 s! H  K& y音频帧的播放是比较特别的,因为一帧音频包含的是一小段时间的音频采样,所以实际上音频帧的播放时间戳只是这一小段音频的开始播放时间,里面的采样数据会根据采样频率连续播放。
5 U2 K2 Z: y* x6 H" C9 j9 k6 m# x& U4 |, v' o9 L8 X
* Y% ^" e# p9 J6 m+ l* \1 T
同时音频也有码率,也就是常听到的音频比特率,码率就是一秒钟的数据量大小。; o% c, Q/ v; X; j

! Q# A$ O) W% U在不压缩的情况下,音频码率的大小=采样率*位深度声*道数。8 Q: x: Y0 K( U3 z7 h3 U0 ]
7 ~! I8 e. o2 W) h

3 u  K+ l% l+ k3 C; }接下来是编码格式,编码格式实际上是压缩数据的方式,常用的编码格式有wav、mp3、aac等,音频编码格式有有损、无损压缩之分。. K+ t# f* x+ L

: W5 F5 w* h/ E  S# \
* p! v0 _. q1 }& y这里可以解释开篇的问题了,为什么采样参数相同的mp3和wav文件会有不同的音质,这实际上是编码格式的问题。! H" w9 J# C. J7 w+ A+ h: R

% y1 b  ~# Q$ ]! [0 fmp3、aac这些编码格式是有损压缩,其中mp3支持的最大码率是320Kbps,而wav编码格式是无损压缩,虽然压缩后的码率可能会比降低,但是它在播放时能无损还原采样数据。$ U& _) I" t1 Q4 k4 E! j

9 j3 k) i4 I8 D3 Z0 G% A# L最后值得一提的是,在网络音频文件、音频直播时,需要考虑限制码率,限制码率的目的是为了限制数据量的大小,避免带宽、流量等问题。' B8 @  o6 T. {" |
6 }' x& B& g$ M* o
音频编码格式一般采用aac,音频码率一般设置为128Kbps就可以了。; p6 r) y$ m- C5 G3 W
* a9 C  x3 a! C6 _
总结5 P1 H/ y3 |8 p
以上是音频的基础概念,音频在很多介绍中都不会说到音频帧,因为普通的视频编辑场景是用不到的,但是在音视频处理中音频帧的概念是十分重要的,不然会出现很多问题,如音频重编码重采样后,出现卡顿、音频播放过快等问题。
0 o: {/ d- P- p* C2 ~5 j  v7 l. `0 W9 k6 J" p
介绍完了音频和视频的基础概念,后面我们会介绍关于音视频处理、识别的一些软件和框架。

相关帖子

音频应用
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频招标|音频应用 (鄂ICP备16002437号)

Powered by Audio app

快速回复 返回顶部 返回列表