เมื่องาน Barcamp Bangkhen ปีที่แล้ว ทางเราได้มีโอกาสเปิดเซสชั่นพูดเรื่อง High Resolution Audio ให้คนที่เข้ามาฟัง ซึ่งนอกเหนือจากเรื่องพื้นฐานที่เคยเขียนลงบล็อกไปแล้ว ผมได้เกริ่น ๆ ถึงงานวิจัยต่าง ๆ ที่เกี่ยวข้องกับผลของการฟังเพลงแบบความละเอียดสูงเอาไว้ด้วย
RE.V-> เลยถือโอกาสนี้ มาแนะนำงานวิจัยเกี่ยวกับ High Resolution Audio ที่น่าสนใจมาให้เพื่อน ๆ ได้รู้จักกันมากขึ้นครับ
สำหรับคนที่ยังไม่รู้จัก High Resolution Audio ก็สามารถอ่านบทความที่ผมเคยเขียนไว้กันก่อนที่จะไปต่อครับ
ตามที่เราเคยเรียนกันมาในห้องเรียน หูของมนุษย์เราสามารถได้ยินเสียงในช่วง 20 Hz – 20 kHz ซึ่งช่วงความถี่นี้จะลดลงไปตามความเสื่อมของหู แต่ด้วยความที่เสียงเป็นคลื่นทางกล ที่เกิดจากการอัดตัวของอากาศ และระบบประสาทการรับรู้ของมนุษย์เอง เราจึงสามารถรับรู้เสียงได้ในรูปแบบอื่น ๆ เช่น การสั่นสะเทือนเมื่อคลื่นเสียงมากระทบผิว การมองเห็นที่ทำให้การแปลความหมายของเสียงผิด (McGurk effect) นอกจากนี้สภาพแวดล้อมที่เราอยู่อาศัยเอง ก็มีเสียงในช่วงความถี่ที่เกินช่วงการได้ยินด้วย เช่น เสียงเครื่องจักร เสียงร้องของสัตว์ การสั่นพ้องของเสียงในเครื่องดนตรีบางชนิด เป็นต้น
ดร. Oohashi Tsutomu หรือที่รู้จักในนามแฝง Yamashiro Shoji ผู้แต่งเพลงประกอบอนิเมะ Akira
ด้วยเหตุผลดังกล่าว จึงได้มีเหล่านักวิจัยศึกษาการรับรู้และตอบสนองของมนุษย์ต่อเสียงในช่วงความถี่ที่หูไม่สามารถได้ยินได้ ซึ่งงานวิจัยในกลุ่มนี้ที่ถูกหยิบยกเอามาใช้อ้างอิงกันเวลาพูดถึงการรับรู้เสียงความถี่สูงบ่อย ๆ ก็คงจะหนีไม่พ้นงานวิจัยเกี่ยวกับ Hypersonic Effect ของ ดร. Oohashi Tsutomu และคณะ ซึ่งได้ทำการวัดคลื่นอัลฟ่าของสมองขณะฟังเพลงที่บันทึกในรูปแบบความละเอียดสูงในลักษณะต่าง ๆ คือ HCS ที่ตัดเสียงในช่วงความถี่มากกว่า 22 kHz ออกไป และ FRS ที่ไม่มีการตัดเสียงใด ๆ ออกไปเลย ผลที่ได้คือเพลง FRS จะทำให้คลื่นอัลฟ่าค่อย ๆ เพิ่มขึ้นเรื่อย ๆ แต่เพลง HCS จะทำให้คลื่นอัลฟ่าค่อย ๆ ลดลง ซึ่งก็สรุปได้ว่าร่างกายคนเราสามารถตอบสนองต่อเสียงที่มีความถี่สูงกว่าการได้ยินได้ และเรียกปรากฏการณ์นี้ว่า Hypersonic Effect
นอกจากเรื่อง Hypersonic Effect แล้ว ดร. Oohashi และคณะยังได้ตีพิมพ์งานวิจัยเพิ่มเติมเกี่ยวกับการรับรู้ Hypersonic Effect นอกเหนือจากประสาทสัมผัสที่ใช้อากาศเป็นตัวนำ ซึ่งในงานวิจัยก็ได้แนะนำว่าประสาทสัมผัสที่ใช้อากาศเป็นตัวนำนั้นไม่เพียงพอต่อการรับรู้ Hypersonic Effect และต้องพิจารณาระบบชีวภาพอื่น ๆ นอกจากระบบประสาทดังกล่าวในการรับรู้และแปลงสัญญาณการสั่นสะเทือนในช่วงความถี่สูง
Rupert Neve บิดาแห่ง recording console
ในกลุ่มผู้ที่เห็นด้วยกับงานวิจัยนี้ เห็นว่าตัวงานนั้นสามารถอธิบายความรู้สึกที่แตกต่างระหว่างการฟังเพลงที่เล่นสดกับเพลงที่ถูกบันทึกเสียงมา รวมไปถึงความแตกต่างระหว่างเพลงที่อยู่ในรูปแบบไฟล์ lossy และไฟล์ lossless ได้ ซึ่งหนึ่งในบุคคลที่อยู่ในกลุ่มผู้เห็นด้วยนั้นก็คือ Rupert Neve ผู้ที่ถูกยกย่องจากเหล่าศิลปินและวิศวกรเสียงว่าเป็นบิดาแห่ง recording console ซึ่งเป็นอุปกรณ์หลักที่ใช้งานกันในห้องอัดระดับมืออาชีพทั้งหลาย อุปกรณ์เสียงที่เขาออกแบบขึ้นมานั้น จะมีมีความเพี้ยนของสัญญาณที่ต่ำมาก ร่วมกับการตอบสนองความถี่ที่ราบเรียบ ตั้งแต่ช่วงความถี่ที่มนุษย์ได้ยินไปจนถึงช่วงความถี่ 100 kHz เลยทีเดียว
ดร. Milind N. Kunchur
นอกจากเรื่องของความถี่ของเสียงแล้ว คุณสมบัติที่ถูกยกมาเปรียบเทียบอีกอย่างก็คือความละเอียดทางเวลา (Temporal resolution) ของการได้ยิน คุณสมบัติตัวนี้จะเป็นการบอกถึงความสามารถในการแยกแยะความเปลี่ยนแปลงของเสียงในช่วงระยะเวลาหนึ่ง เช่น หากต้องการสังเกตเสียงมีความเปลี่ยนแปลงในช่วงระยะเวลา 5 µs อุปกรณ์ดังกล่าวก็ต้องมีความละเอียดทางเวลาที่เท่ากับ 5 µs หรือน้อยกว่า ถ้าอุปกรณ์ดังกล่าวมีความละเอียดมากกว่า 5 µs ก็จะทำให้ไม่สามารถสังเกตการเปลี่ยนแปลงนั้นได้ ซึ่งปรากฏการนี้ถูกเรียกว่า Temporal smearing
งานวิจัยเรื่องนี้ที่ถูกยกนำมาอ้างอิงบ่อย ๆ ก็หนีไม่พ้นงานวิจัยของดร. Milind N. Kunchur ซึ่งเขาได้เริ่มต้นจากการวิจัยเกี่ยวกับ Time smearing ของการได้ยิน ด้วยการใช้ลำโพงที่มีวางดอกลำโพง 2 ดอกให้เสียงมาถึงหูไม่เท่ากัน ไปจนถึงการหาความละเอียดทางเวลาของการได้ยินของมนุษย์ จนได้ข้อสรุปว่าการได้ยินของมนุษย์มีความละเอียดทางเวลาที่ดีที่สุดอยู่ที่ประมาณ 5 µs นอกจากนี้เขายังได้ให้ความคิดเห็นว่า การเข้ารหัสเสียงดิจิทัลที่อัตราสุ่มสัญญาณ 44.1 kHz ที่มีความละเอียดทางเวลาประมาณ 23 µs (คำนวณจากสูตร T = 1/f) นั้นไม่เพียงพอต่อการเป็นสื่อสำหรับสัญญาณเสียงอคูสติก
จากงานวิจัยดังกล่าว ก็มีผู้ให้การสนับสนุนและนำหลักการไปพัฒนาสินค้าต่าง ๆ ขึ้นมา เช่น ไมโครโฟนจาก Earthworks ที่ออกแบบให้มี impulse response ที่เร็วมาก เพื่อไม่ให้เกิด time smearing ขึ้นมา หรือการเข้ารหัสสัญญาณเสียงแบบ MQA ของ Meridian ที่มีการออกแบบให้มี impulse response ที่เร็วมาก จึงเป็นสาเหตุให้ตัว codec ต้องใช้ข้อมูลจากอุปกรณ์ต้นทางในการเข้ารหัสและอุปกรณ์ปลายทางในการถอดรหัสด้วย
อย่างไรก็ตามงานวิจัยที่ยกมาข้างต้นนั้น ถึงแม้ว่าจะมีผู้เห็นด้วยและสนับสนุน แต่ก็ยังมีคนที่ไม่เห็นด้วยกับงานวิจัยดังกล่าว ทั้งในเรื่องของทฤษฎี การออกแบบการทดลอง การควบคุมตัวแปร ผลลัพธ์การทดลองที่ไม่สามารถทำซ้ำได้ รวมไปถึงตัวผู้วิจัยเอง จนเป็นที่ถกเถียงกันในวงการทั้งฝั่งผู้ใช้และมืออาชีพ ซึ่งถึงแม้ว่าในปีที่แล้วจะมีการตีพิมพ์การวิเคราะห์อภิมานงานวิจัยเกี่ยวกับการรับรู้ High Resolustion Audio ใน Journal of the AES จนได้ข้อสรุปว่า การทดสอบที่เกินระดับของผู้ใช้ทั่วไป ส่งผลต่อการรับรู้รายละเอียดของเสียงที่ถูกบันทึกและระบบการเล่นกลับ ถึงแม้ผลของรายละเอียดดังกล่าวจะเล็กและยากที่จะตรวจจับได้ก็ตาม นอกจากนี้ผู้วิจัยยังได้ให้ข้อเสนอแนะเกี่ยวกับการออกแบบการทดลอง เพื่อให้การทดลองดูน่าเชื่อถือขึ้นอีกด้วย แต่ด้วยความที่งานวิจัยนี้เป็นเพียงการวิเคราะห์จากงานวิจัยซึ่งยังมีข้อกังขาข้างต้นที่ยังไม่สามารถทำให้กระจ่างได้อยู่ ก็ไม่สามารถโน้มน้าวให้คนที่ไม่เห็นด้วยกลับมาเห็นด้วย และยังทำให้ AES ถูกมองว่ากำลังหนุนมาตรฐาน High Resolution Audio อีกด้วย
ส่วนตัวผมเองมองว่า ถึงแม้เรายังจะไม่ได้ข้อสรุปว่ามนุษย์เราสามารถรับรู้เสียงในช่วงความถี่สูงมาก ๆ หรือสามารถแยกแยะความต่างของเสียงในระดับไมโครวินาทีได้ แต่สิ่งที่เราได้รับตอนนี้คือการที่ผู้ผลิตเครื่องเสียงต่าง ๆ สามารถผลักดันอุปกรณ์ที่มีคุณภาพดีในราคาที่ถูกลงมาสู่ผู้ใช้ และการที่ฝั่งผู้ผลิตเพลงต้องมีความพิถีพิถันในการทำเพลงมากขึ้น เพื่อให้ได้เพลงที่มีคุณภาพเสียงที่ดีตามความคาดหวังของผู้ฟัง อย่างไรก็ตามเราในฐานะผู้ใช้ทั่วไปคงต้องใช้วิจารณญาณในการเลือกซื้ออุปกรณ์และเพลงที่ฟัง ในยุคที่มีอุปกรณ์แห่กันออกมาอย่างมากมายและเพลงเก่า ๆ ถูกเอามา remaster ขายใหม่ซ้ำไปซ้ำมาอยู่เรื่อย ๆ ครับ