본문 바로가기

스마트폰&오디오

비트레이션과 샘플레이트(음원을 이해하기 위한글) 재작성

 

정보 출처 http://blog.daum.net/sue438/12414074

 

요즘 고음질 음원에 대한 관심이 늘어나면서 비트레이션과 샘플레이트라는 용어를 접하게되는 일이 많아졌습니다.

상기의 블로그에서 정확한 내용을 다루고는 있지만 좀더 쉽게 풀어쓰는 개념으로 글을 작성합니다.

 

 

 

여기 음파가 하나 있습니다. 이것을 아날로그 즉 연속 데이터라고 할때

이것을 연속적인 형태로 있는 그대로 기록하기 위해 필요한 데이터의 양은 이론상 무한대입니다.

하지만 우리가 반드시 무한대의 정보량이 있어야만 원음을 그대로 느끼는것도 아니고

또한 무한대의 정보량을 기록하는것도 불가능하기 때문에

우리는 이것을 불연속적인 형태로 끊어서 다음과 같은 형태로 기록하게 됩니다.

 

 

 

이것이 일반적인 pcm 음원 파일의 데이터 샘플링 기준입니다.

음파를 그래프로 표현할때 파형의 방향인 Y 축 방향을 '비트레이션' 이라는 단위로 나누고

시간의 진행방향인 X 축 방향을 '샘플레이트' 라는 단위로 나누어 데이터를 '채취(샘플링)' 하는것입니다.

 

그렇다면 비트레이션이란 정확하게 무엇이고 샘플레이트란 또 무엇일까요?

 

일단 샘플레이트를 먼저 설명하겠습니다.

인간의 가청 주파수 음역대는 통상적으로 20~20000hz 에 달합니다.

사람마다 개인적인 차이가 있으며 어떤사람은 24000hz 음역대의 초고음을 듣기도 합니다.

즉 1초동안 20000~24000 회동안 진동하는 음파를 인간은 들을 수 있다는 것입니다.

이에 따라서 정확하게 음원을 기록하기 위해서는 1초라는 시간동안

최소한 20000번 이상의 데이터를 채취하여 기록해야만 합니다.

매우 정밀한 시계가 필요해지겠죠?

이 정밀한 시계 그러니까 데이터 샘플링을 위한 시간의 간격을 지터 라고 합니다.

이 지터가 정확할때 정확한 데이터가 채취되고 또 기록되는것이지요

아무튼 각설하고 자세히 다루면 머리가 아파질 여러가지 이론에 의하면

가장 정확하게 데이터를 기록하기 위해서는 진동수의 최소한의 두배 이상의 데이터가 필요하다는 이론과

다른 여러가지 골치아픈 이론들을 종합하여서 우리가 음원을 정확하게 기록하고

또 듣기에 '필요충분한' 횟수로 지정된 단위가 바로 44.1khz 라는 샘플레이트 라는 단위 입니다.

1초동안 44100회 동안 데이터를 채취하여 기록한다는 뜻이지요

 

 

그렇다면 비트레이션이란 무엇일까요?

이것은 컴퓨터의 비트전송률단위에서 기초하는 개념입니다만

데이터가 전송되는 통로의 숫자입니다.

그렇다면 16bit 44.1khz 음원은 16개의 통로로 44100개의 데이터가 전송된다는 뜻일까요?

 

그렇지 않습니다.

 

비트레이션에서 말하는bit 라는 단위는 2의 자승횟수를 말합니다.

1bit 이면 2개

8bit 이면 256개

16bit 이면 65536개

24bit 이면 16,777,216개의 데이터 전송 통로를 가지게 된다는 뜻입니다.

이것은 컴퓨터의 비트전송률 단위가 8bit 단위로 오르기때문에 설정된 데이터 기록밑 전송방법인것입니다.

 

따라서 16bit 44.1khz 음원이라하면 Y축 방향을 65536개의 데이터 전송 통로를 바탕으로

각 통로마다 X축의 시간의 진행방향을 따라서 1초당 44100개의 데이터가 기록된다는 뜻입니다.

굉장한 양의 데이터이죠

이것은 이론상 사람이 '원음을 느끼기에 무리가 없는 수준'의 '필요충분조건'에 해당하는 데이터의 양이라고 합니다.

사실 제가 CD 에서 음원을 직접 추출해서 신호대비잡음비 120db 이상의 고음질 플레이어로 들어보면(충분히 에이징된 고해상도 헤드폰 사용시)

CD 음원만으로도 충분히 원음의 감동을 느끼기에 부족함이 없다고 느껴집니다.

그리고 일반적으로 16bit 44.1khz 음원이라함은 CD 음원을 가리키는 말이지요

mp3 파일이나 다른 파일들은 여기서 다운그레이드된 파일들입니다.

압축과 손실을 거친 파일들이지요

 

아무튼 인간의 청각으로 원음의 감동을 느끼기에 '필요충분조건'을 충족하는것이 16bit 44.1khz 음원이라면

요즈음 대두되는 하이레졸루션 오디오 즉 24bit 음원이상의 고음질 음원들이나 DSD 음원같은것들은 아무런 의미가 없는것일까요?

 

정확하게 이론적으로 설명하고자 한다면 이렇게 설명할 수 있습니다.

샘플링 단위가 늘어나면 음파의 형태를 보다 더 자세하고 명확하게 기록하고 재생할 수 있다.

라고요

따라서 청감상의 분명한 차이가 있습니다.

 

비트레이션과 샘플레이트가 상승하면 소리의 '명료함'이 증가합니다.

이것은 음원의 종류를 막론하고 공통적으로 적용됩니다.

전제조건은 '정확한 지터로 기록된 경우' 입니다.

또한 오디오의 신호대비잡음비가 해당 음원을 손실없이 재생할 수 있는 수준일것입니다.

 

인간의 가청음역대의 한계는 분명히 20000hz 입니다만

그것을 44.1khz 단위로 기록하는 이유는 명료도를 증가시키기 위해서입니다.

왜냐면 20000hz 라고 해서 20000번만 데이터를 샘플링한다면

음파의 형태를 기록함에 있어서 한 파장 전체의 샘플레이트 횟수가 1밖에 되지 않고

따라서 음파의 정확한 형태를 기록하는게 불가능한겁니다.

결국 데이터를 기록함에 있어서 음파의 정확한 형태를 기록하기 위해서는

샘플레이트 횟수가 많을수록 더 정확해지는것은 당연한 일입니다.

 

위에 예를든 파장의 그림을 다시 보시죠

 

 

 

샘플레이트란 결국 음파의 파장이 시간의 진행방향에 따라서 변화하는 위상의 백터량의 각도값에 대한 데이터 입니다.

 

이런거죠

 

 

 

시간이 흐르면서 음파라고 하는 파장이 그 곡선의 방향의 각도값이 변화하는것을 추적하여 기록하는것이 바로 '샘플레이트' 입니다.

 

따라서 하나의 음파의 파장을 정확하게 기록하기 위해서는 반드시 2회 이상의 데이터 샘플링이 필요해지게 되는것입니다.

이것이 위에 설명한 16bit 44.1khz 음원이 말하는 '필요충분조건' 입니다.

다시말해서 44.1khz 샘플링이란 절대로 '오버샘플링' 이 아니라 음파의 파장의 형태를 정확하게 기록하기 위한'최소한의 데이터량' 입니다.

왜 하필이면 최소한의 데이터를 설정했느냐 그것은 오디오의 신호대비잡음비와 지터라는 문제와 맞물리는데요 이것은 나중에 설명하기로 하고

좀더 샘플레이트에 대해서 썰을 풀자면

 

가령 20hz 음파라고 하죠

그럼 1초동안 20회만큼 진동하겠죠

이 데이터를 44100 회만큼 샘플링한다면 어떨까요?

하나의 음파의 파장에 대해서 2205회 만큼의 데이터를 샘플링 하게 됩니다.

 

많은 뮤지션분들이 또 음원 매니아들이 헷갈리는 부분인데

가청음역대의 한계가 20000hz 이니까 44100hz 샘플링은 오버 샘플링이다 라는것은 잘못된 상식입니다.

저음으로부터 고음으로 넘어갈수록 파장 하나당 데이터를 샘플링하는 양이 적어지게 되고

많은 음원매니아들이 CD 음원을 감상할때 고음부에서 기계적인 느낌을 느끼게 되는 원인이 바로 그 '부족한' 데이터량에서 기초하는 현상입니다.

샘플레이트가 말하는 주파수는 음파의 주파수하고는 상관이 없습니다.

단지 1초동안 기록하는 횟수이다 라는 의미일 뿐이지 20000hz 를 넘어선 고음의 영역의 데이터를 샘플링한다는 개념이 절대로 아닌겁니다.

 

다시말해서 인간이 듣지 못하는 20000hz  이상의 초고음역대의 데이터를 샘플링하는 일은 없다는 것입니다.(경우에 따라서 하기도 하지만.........)

단지 데이터를 1초동안 44100 회만큼 기록한다는 뜻에 불과한 이야기일 뿐이지요

따라서 고음부로 갈수록 부족해지는 음원의 파장에 대한 데이터를 보충하기 위한 유일한 방법은 샘플레이트 량을 늘리는 방법 뿐입니다.

 

보다 많은 샘플레이트 횟수의 데이터를 16,777,216개의 통로로 전송하는 24bit 음원의 정밀도는 상상을 초월합니다.

에이징이 충분히 이루어지지 않아 번지는 음색의 스피커로 들어도 대단히 또렷하고 명료하게 들릴정도입니다.

물론 다시한번 말씀드립니다만

'정확하게 기록된' 경우에 한해서 입니다.

 

그루버스라는 음원사이트에서 '웅산' 이라는 가수의 24bit 176khz 음원으로 기록된 음반이 바로 그 조건에 해당하는 음원입니다.

일반 CD 음원에 비해서 한참이나 더 명료한 음질을 들려줍니다.

 

단지 명료해지기만 하는것이 아니라 고음부의 음색이 보다 더 자연스럽게 살아나고 고음부가 보다 더 밝게 살아나며

좀더 시원하게 쭉쭉 뻗어가는 청감상의 느낌을 주게 됩니다.

왜냐면 고음부의 파장에 대해서도 '충분한 양의 데이터를 샘플링' 하기 때문인겁니다.

통상적으로 24bit 96khz 이상의 파일들은 '믿을만' 하더군요(어디까지나 통상적으로)

 

사실 인코딩만 새로한다고 정확하게 기록되는게 아니라 녹음부터 다시 하던가 아니면

원음 소스에 대해서 데이터 샘플링을 다시 해야, 그래야 진짜'고음질 음원'으로 재탄생할 수 있다고 봅니다.

 

아무튼 어제 전자공학을 전공하신분께 물으니 비트레이션은 크게 의미가 없다고 하시더군요

분명히 데이터의 전송 경로는 2의 자승 횟수만큼 증가하지만 실제 데이터 증가량은 8bit 단위 증가시 1.5배정도 증가한다고 합니다.

제가 음원파일들의 용량을 보기에도 그게 맞는것 같습니다.

 

다시말해서 음파의 파형의 방향 그러니까 Y 축 방향의 데이터는 16bit  또는 24bit 만으로도 '충분할만큼'의 데이터를 샘플링하고 있다고 볼 수 있습니다.

물론 24bit 가 더 정확할 테지만 이상하게도 제가 일반 16/44 음원과 24/44 음원을 비교 청음할때 큰 차이점을 느끼지는 못했습니다.

데이터량에는 분명히 차이가 나지만 그것이 실제 청감상에 미치는 영향은 미미하더군요

 

하지만 24/96 이상으로 샘플레이트가 오르면 확실하게 명료도가 증가합니다.

파형이라는 데이터에 비해서 파장이라는 데이터의 샘플링이 그만큼 부족하다는 반증인것 같습니다.

 

 

다시 본론으로 돌아와서

분명히 고해상도 음원이라는것이 의미가 있는것인가?

의미가 있습니다.

 

이제부터 신호대비잡음비에 대한 이야기로 넘어갑니다.

고해상도 음원이 고음질을 들려줄 수 있는 이유는

오디오의 신호대비잡음비가 상승하면 음질이 보다 더 명료해지는 이유와 마찬가지입니다.

신호대비잡음비란 1개의 노이즈 신호가 발생할 때 몇개의 오디오(소리)신호가 발생하는가를 비율로 표시한것입니다.

120db 의 신호대비잡음비라면 1개의 노이즈 신호에 대비해서 1조개의 소리신호가 발생하는것을 의미합니다.

 

데시벨은 10이 상승하면 10배가 커진다는 뜻으로

10db 은 10 배

20db 은 100 배

30db 은 1000 배를 말하는겁니다.

 

음질이라는놈은 DAC(디지털 아날로그 컨버터) 라는놈을 통해서 디지털 데이터가 아날로그 데이터로 변환되고

증폭장치인 앰프를 비롯한 여러 회로를 거치면서 데이터가 굉장히 많이 소실되거나 보완된 상태로 스피커에 도달합니다.

오디오의 신호대비잡음비가 120db 일때 스피커에 도달하는

(재생되는이 아니라 도달하는 입니다. 재생과정에서 또 소실 또는 보완이 일어납니다.)데이터의 량이 1조개입니다.

 

아까 이야기한 16bit 44.1khz 음원의 데이터 량은 65536 X 44100 = 2890137600 개 그러니까 1초당 28억개 입니다.

무려 357배에 해당하는 데이터량의 차이가 있지요?

그 차이는 DAC가 만들어낸 '데이터의 복원력'을 오디오의 회로가 얼마나 적게 손실하는가의 척도입니다.

 

그러니까 항간에서 이야기하는 '업샘플링'의 개념이 아주 허황된 이야기는 아닌셈이죠

디지털로 기록된 데이터를 음파의 파장의 형태로 복원하는 과정에서 즉 아날로그 신호로 변환하는 과정에서

자연스럽게 데이터의 복원 현상이 발생하는 겁니다.

 

아무튼 일반적인 스마트폰의 오디오 신호대비잡음비는 95db 로 25억개의 오디오 신호가 1초마다 발생합니다.

(정확한 수치는 아닙니다. 이론상의 수치입니다.)

소위 전문가들이 이야기하는 전문 이론대로라면 25억개의 데이터가 발생하는 일반 스마트폰과

제가 사용하는 1조개의 오디오신호가 발생하는 고음질플레이어간에 청감상의 차이는 없어야 합니다.

데이터량의 차이가 음질 차이를 만들지는 않는다고 그들이 고음질 음원을 그렇게 설명하니까요

샘플레이트가 음질에 미치는 영향이 미미하다고 이야기하는것은 음원파일의 용량

즉 데이터의 량이 음질에 미치는 영향이 미미하다고 그들의 입으로 이야기하는것이니까요

 

그러나 그 차이는 어마어마합니다.

제아무리 막귀에 음악에 문외한의 사람이라도

들어보면 깜짝 놀랄정도의 차이가 있습니다.

 

그것은 바로 '명료함'의 차이 입니다.

 

"나는 막귀야 들어도 몰라"

라고 흔히들 생각합니다.

하지만 저정도로 500배에 가까운 데이터량의 차이가 발생하면

그 차이를 느끼지 못할만큼 무감각한 인간은 이세상에 귀머거리밖에 없습니다.

 

따라서 고음질 음원들 그러니까 24bit 이상의 비트레이션과 96khz 이상의 샘플레이트로 기록된 음원이

"정확하게" 기록된 음원이 맞다면

"명명백백하게" 청감상에 차이가 발생하게 됩니다.

 

데이터 량에 차이가 발생하니까요

신호대비잡음비란 하나의 비율입니다.

고정된 데이터가 발생하는것이 아니라 "원음 소스가 훌륭하면 훌륭할수록" 그러면 그럴수록 "더욱 더 훌륭한" 데이터를 발생시킵니다.

훌륭한 오디오에 고음질 음원이 만나면 소름이 끼칠만큼 명료하고 아름다운 소리가 들립니다.

 

전반적으로 소리의 명료함이 살아나고 그만큼 디테일한 부분들까지 세밀하게 표현되게 됩니다.

들리지 않던 영역의 소리들이 들리게 되고 고음부가 마치 꽃이 피어나듯이 화사하게 살아납니다.

무슨 무협소설쓰는 기분이 잠깐 들었는데 실제로 그렇습니다. ㅎ

 

하다못해 일반 MP3 파일 하나를 들어도

고음질 플레이어와 일반 플레이어는 음질이 다릅니다.

DAC의 데이터'복원력'이 분명히 유의미한 청감상의 차이를 만들어냅니다.

 

전제조건이 하나 있는데

24bit 이상의 비트레이션의 음원이 제성능을 발휘하려면 오디오의 신호대비 잡음비가 대단히 높아야 합니다.

24/44 음원을 예로들죠

16,777,216 X 44100 = 739875225600 개 즉 7천억개 의 데이터량이 발생하므로 신호대비 잡음비가 최소한 120db 에는 도달 해야 합니다.

샘플레이트 횟수가 늘어나면 데이터는 더 증가하죠 그것을 소실시키지 않고 재생하려면 좋은 오디오가 필요합니다.

 

24/192 음원을 데이터 소실 없이 재생하려면 최소한 125db 이상의 신호대비잡음비가 필요하고

그 조건을 충족하는 포터블 오디오는 제가 알기로 vivo xplay5 라는 6g램 스마트폰과 제가 쓰는 vivo x6plus 뿐입니다.

xplay5 의 경우 ES9028DAC 듀얼 DAC 에 OPA1612 트리플앰프를 적용시켜서

DAC의 데이터 복원력을 이론상 3배까지 끌어올렸다고 하는데 써보지를 않아서 모르겠습니다만

대단한 수준의 포터블 오디오를 중국에서 만들어낸것 같습니다.

 

전제조건이 하나 더 있습니다.

지터가 정확해야 합니다.

 

그래서인지는 모르겠습니다만 1bit 5.6mhz DSD 음원은 제가 듣기에는 CD 음원의 음질에는 미치지 못하는것 같습니다.

보다더 아니 아주 훨씬 더 정확한 지터를 필요로 하니까요

그리고 그게 샘플레이트 횟수를 쉽게 못올리는 주 원인이죠

정확한 지터를 만들기란 대단히 어려운 일이거든요

제조단가가 올라간다고 보시면 정확합니다 ㅎ

 

이광조씨의 DSD 음원을 앨범채로 사서 들어보았는데 음질이 별로더군요 ...........

비트전송률은 소장한 음원 중에서 가장 높은데 어딘가 모르게 정밀함이 떨어집니다.

명료함이 부족해요

아스텔 앤 컨 AK240 을 매장에서 청음할때 내장된 DSD 음원은 음질이 좋았는데 직접 음원사이트에서 구매한 음원은 별로더군요 ....

어쩌면 아스탤 앤컨 AK240의 지터가 제가쓰는 오디오보다 더 정확해서 일수도 있겠습니다만

(아스텔 앤컨이 AK380을 광고할때 주력으로 내세운 무기가 바로 지터였죠)

DAC 성능과 전체적인 신호대비잡음비는 제것이 더 좋거든요 좀 아리송한 부분이네요

 

아무튼 두서없이 주저리 주저리 내뱉었는데

결론은 이겁니다.

고음질 음원은 분명히 의미가 있다

단 그것이 정확하게 기록된 경우에 한해서만

또한 고성능 오디오 플레이어를 사용할 경우에

입니다.

 

 

 

ps.

32bit 음원을 재생하려면 엄청난 오디오가 필요하겠군요

4294967296 X 44100 = 189408057753600 개의(189조개) 신호가 기록되므로 이걸 데이터 소실 없이 재생하려면

오디오의 신호대비잡음비가 최소한 160db 에는 도달 해 주어야 32bit 384 khz 음원을 데이터 소실 없이 재생할 수 있다는 결론에 도달하는군요

 

현존하는 오디오 기술로는 결국 24bit 음원 재생이 한계라는 결론에 도달합니다.

컴퓨터는 데이터를 다룰 능력이 되는데 DAC 와 오디오 회로가 이걸 못받쳐줍니다.