Trong bài hôm nay, chúng ta sẽ tìm hiểu một số kiến thức căn bản về âm thanh từ đặc điểm của sóng âm thanh đến tín hiệu âm thanh tương tự chuyển đổi sang tín hiệu âm thanh số. Tìm hiểu về các giải thuật nén âm thanh và các định dạng âm thanh thực tế.
Định dạng tín hiệu âm thanh: Analog và Digital
Tất cả âm thanh mà bạn nghe hàng ngày – tiếng xe cộ, nhạc cụ đều được chuyển trong âm thanh dưới dạng sóng âm, và được tồn tại dưới dạng tín hiệu lặp lại liên lục (analog cũng có nghĩa là lặp lại). Những tín hiệu này trước đây được thu và lưu trữ dưới dạng các đĩa than, vinyl hay băng cát sét nhưng do tạp âm và tiếng rè của những thiết bị này mà người ta đòi hỏi một thiết bị mới có thể khắc phục được tình trạng đó. Đĩa CD ra đời, bắt đầu cho một kỉ nguyên của định dạng kĩ thuật số (Sony là một trong hai hãng phát minh ra chuẩn đĩa này).
m thanh dạng kĩ thuật số (digital)thường được lưu trữ dưới nhiều dạng tần số mẫu – số mẫu được phát mỗi giây (sample rate), độ sâu số (bit depth), chuẩn mã hoá encoding hay nhiều chuẩn file nén khác nhau. Việc chuyển đổi một sóng âm analog ở dạng tín hiệu liên tục sang âm thanh kỹ thuật số được thực hiện bằng phương pháp biến điệu xung-mã (nôm na là âm thanh đã giải mã) hay còn gọi là “điều biến mã xung” PCM (Pulse-Code Modulation), được tạo ra bởi việc thu những âm thanh từ micro hay một số các thiết phát âm điện từ khác chẳng hạn như guitar điện, organ. Tuy nhiên việc âm thanh có độ phân giải cao không đồng nghĩa với âm thanh hay nếu như bản thu có chât lượng tệ hại.
Ý nghĩa của tốc độ truyền dữ liệu và tần số
Dù dễ bị vỡ, nhưng đĩa nhựa vinyl cho âm thanh chất lượng tốt nhất vì đó là âm thanh tương tự (analog). Các bản ghi âm được thực hiện trên các hệ thống analog, khắc lên đĩa nhựa và phát trên hệ thống analog chứ không phải hệ thống kỹ thuật số (digital). Cơ bản là bạn đang tái tạo một bản sao chính xác phần âm thanh gốc được ghi.
Trong khi đó, âm thanh kỹ thuật số không dễ dàng như thế, nhưng đã trở nên cần thiết vì người dùng muốn tìm ra một định dạng phát bền bỉ hơn.
Sóng âm được chia thành nhiều mẫu (đoạn âm thanh kỹ thuật số).
Số mẫu kiểu này càng cao, tín hiệu gốc sẽ được trình bày lại càng chính xác. Thí dụ, tốc độ lấy mẫu của âm thanh CD là 44,1KHz. Không phải chỉ là một con số tùy ý, 44,1KHz còn là con số ứng hợp hoàn hảo giữa giới hạn thính giác của con người với lượng âm thanh có thể chứa được trên một đĩa CD dung lượng 750MB.
Giới hạn thính giác của con người nói chung có thể lên đến 20.000Hz (20KHz) tùy theo lứa tuổi và tùy theo thời gian họ nghe nhạc. Để trình bày âm thanh 20KHz, âm thanh kỹ thuật số cần dành riêng 2 mẫu cho mỗi chu kỳ của một sóng âm.
Độ sâu số (bit depth) chứa một lượng thông tin có trong mỗi mẫu. Cơ bản là độ sâu số báo cho thiết bị chuyển đổi âm thanh analog sang âm thanh kỹ thuật số (thiết bị thu) biết là mẫu này ồn đến cỡ nào và người ta có thể chịu đựng được một tín hiệu ồn đến cỡ nào. Độ sâu số thường được gọi là độ nét (resolution). Độ sâu số càng cao, càng ít bị hiện tượng xén âm kỹ thuật số (digital clipping), do đó độ nét sẽ cao hơn và cho âm thanh chất lượng tốt hơn.
PCM AUDIO: Nơi mọi thứ khởi nguồn
Âm thanh dạng số được ghi trên đĩa CD với định dạng file có đuôi WAV đồng thời được sử dụng chuẩn định dạng PCM. Những tín hiệu âm thanh này là nguyên bản, không bị nén và do đó chiếm nhiều diện tích trong ổ cứng của bạn, chúng được gọi là Uncompressed (không nén).
Theo chuẩn định dạng này, cứ mỗi giây, âm thanh sẽ được lẫy mẫu với tần số 44.1 KHz (44100 lần/giây); mỗi mẫu được diễn tả bởi 16 bit dữ liệu. Như vậy, trong 1 phút nhạc/âm thanh, ta sẽ có: 44100 đợt lấy mẫu x 2 kênh trái phải x 2 bytes (16 bit = 2 bytes) x 60 giây = 10.584.000 bytes = 10.1 Mb
Thông thường, 1 CD có dung lượng là 750 Mb, được lưu khoảng 74 phút nhạc. Do đó, nếu nhân 10 Mb của mỗi phút cho 74 phút sẽ cho ra dung lượng khoảng 750 Mb như đã nói. Như vậy, 1 giây của âm thanh gốc sẽ có bit rate là 1411 kbps.

Nếu muốn có chất lượng âm thanh gần giống âm thanh analog thật sự, bạn phải cần đến loại tập tin âm thanh lossless gọi là Studio Master.
Nếu muốn có chất lượng âm thanh tốt hơn CD và gần giống âm thanh analog thật sự, bạn phải cần đến loại tập tin âm thanh lossless gọi là Studio Master (âm thanh gốc phòng thu). Loại này được gọi như thế vì có cùng độ nét và số mẫu giống như âm thanh thu gốc và dùng làm bản gốc. Không có ấn định cụ thể nào về mức độ nét, nhưng mức cao hơn 24-bit có thể được xem là Studio Master và độ nét có thể lên đến 192KHz mà hiện giờ được xem là mức cao nhất mà phần cứng và phần mềm ghi âm có thể xử lý. Kiểu tập tin thô (raw) được chọn dùng trong phòng thu là WAV hay AIFF (lần lượt là những định dạng của Windows và Apple trước đây, nhưng nay không còn riêng của hãng nào nữa).
Định dạng nén: Uncompressed, Lossless và Lossy
Uncompressed
Là định dạng không nén, như đã nói ở trên.
Lossless compression

Các loại định dạng không nén: WAV và AIFF
Như đã nói ở trên, cả WAV và AIFF đều đựợc coi là các định dạng âm thanh “không thể mất”. Chúng được tạo ra dựa trên nền tảng PCM với một vài thay dổi nhỏ trong bộ dữ liệu lưu trữ, bên cạnh đó hai loại định dạng này có thể chuyển đổi được cho nhau mà không hề bị giảm chất lượng âm thanh.
Chúng cũng được coi là “không mất dữ liệu” – không bị nén – và một file âm thanh PCM stereo, chẳng hạn có tần số là 44.1kHz và độ nén là 16 bit (chất lượng đĩa CD) thì chất lựợng âm thanh có thể lên đến 10MB một phút sau khi được chuyển đổi (convert).
Do vậy, nếu bạn thu âm hay mix nhạc ở nhà, thì đây là một sự lựa chọn đúng đắn vì chất lượng âm thanh của hai loại định dạng này rất đảm bảo.
Các loại định dạng lossless: FLAC, ALAC, APE
FLAC(Free Lossless Audio Codec), ALAC( Apple Lossless Audio Codec) và APE( Monkey’s Audio) là các loại định dạng nén âm thanh và giống như hầu hết các sản phẩm ngày nay trong thế giới số: chúng sử dụng các thuật toán. Sự khác nhau giữa các file nén và các file FLAC đó là FLAC được thiết kế chuyên cho âm thanh thế nên tỉ lệ nén của nó tốt hơn và không bị mất dữ liệu. Thông thường thì file FLAC bằng khoảng một nửa kích cỡ file WAV. Một file FLAC cho âm thanh stereo với chất lượng CD chạy khoảng 5MB mỗi phút.
Những loại định dạng kể trên dành cho những người làm những công việc liên quan nhiều đển việc hiệu chỉnh âm thanh. Bạn cũng có thể chuyển (convert) những định dạng này về file WAV mà vẫn có thể yên tâm về chất lượng âm thanh thu được.
Lossy compression
Là một khái niệm nói về các bản nhạc được nén lại nhưng dữ liệu âm thanh bị mất đi để làm giảm nhẹ dung lượng, giúp người ta chia sẻ dễ dàng trên internet thay vì phải upload cả album nặng đến 700 Mb của nhạc không nén.
Một số định dạng file tiêu biểu cho loại nhạc này như: MP3, WMA, AAC, OGG, MPC, ATRAC… Người ta sẽ dựa vào một thuật toán phù hợp để giữ lại hay bỏ đi mẫu âm thanh nào đó để có thể tái hiện hợp lý bản nhạc nén so với bản gốc không nén lúc đầu.
Trên lý thuyết mà nói, tai của chúng ta có thể khó nhận ra một âm thanh nào đó ở tần số vượt quá 20 KHz chẳng hạn. Như thế, người ta có thể bỏ đi một phần dữ liệu âm thanh để giúp giảm bớt dữ liệu diễn tả một lần lấy mẫu, ít hơn nhiều so với 16 bit cho 44100 lần/giây của âm thanh gốc.
Bên cạnh đó, những định dạng âm thanh nén đã bỏ bớt dữ liệu còn có thể tạo ra các âm thanh giả nhằm lấp vào các phần đã bị bỏ bớt đi. Nếu bạn thường nghe các âm thanh méo mó, không nhận diện được thì chính là hệ quả của việc này. Các file nhạc được nén với bit rate càng thấp thì sự méo tiếng càng nhiều. Bạn sẽ rất dễ dàng nhận ra sự khác biệt khi nghe hai file nhạc gốc và nhạc nén bị mất mát dữ liệu.
Cụ thể: các file MP3 thường được nén với bit rate là 128 hoặc 192 hoặc 320 kbps/giây. Như vậy, nó chỉ bằng 1/10 so với bit rate của các file gốc không nén định dạng WAV (1411 kbps/giây). Điều này cũng giải thích vì sao dung lượng giữa các file này khá chênh lệch, một bên rất nhẹ và ngược lại.
Mặc dù công nghệ nén âm thanh với việc bỏ bớt dữ liệu ngày nay đã được cải tiến rất nhiều nằm tái hiện lại các âm thanh gần với bản thu nhất có thể. Thế nhưng, điều này lại không có tác dụng thậm chí là một “thảm họa” đối với một số thể loại nhạc cổ điển, nhạc vocal, các tần số âm thanh rất cao, nhạc cụ nhiều. Việc mất mát dữ liệu âm thanh sẽ làm hỏng bản nhạc và chất lượng cho ra không thể nào bù đắp được. Các file nén chỉ phù hợp với thể loại Pop hoặc các bản nhạc bình thường khác mà thôi.
Các loại định dạng “dễ mất dữ liệu” : MP3, AAC, WMA, Vorbis
MP3 – MPEG 1 Audio Layer 3 là định dạng âm thanh “dễ mất dữ liệu” phổ biến nhất hiện nay. Cho dù vấn đề về bằng sáng chế đối với sản phầm này vẫn còn chưa được giải quyết.
Vorbris – Một loại định dạng “dễ mất dữ liệu” miễn phí với mã nguồn mở. Thường được sử dụng cho các game PC như Unreal Tournament 3.
AAC – Advanced Audio Coding, một loại định dạng chuẩn hiện nay được sử dụng cho loại video MPEG 4. Nó được rất nhiều người ưa chuộng nhờ khả năng tương thích với các hệ thống quản lý quyền sử dụng kĩ thuật số (Digital rights management – DRM) chẳng hạn như phần mềm Fairplay của Apple. Sự vượt trội so với định dạng MP3, và đặc biệt là người ta có thể chia sẻ những nội dung trong định dạng này một cách thoải mái mà không cần thủ tục nào cả.
WMA – Windows Media Audio, định dạng âm thanh “ dễ mất dữ liệu” của Microsoft. Định dạng này đầu tiên được phát triển và sử dụng nhằm tránh những vấn đề giấy phép cho các sản phẩm sử dụng định dạng MP3. Tuy nhiên, nhờ những cải tiến liên tục cùng khả năng tương thích với các hệ thống kiểm duyệt quyền quản lý kĩ thuật số (DRM), WMA vẫn rất phổ biến cho đến khi iTunes trở thành nhà vô địch trong thế giới nhạc DRM.
(Sưu tầm nhiều nguồn)