มาทำความรู้จัก DSEE เทคโนโลยีปรับปรุงคุณภาพเสียงจาก Sony กันเถอะ ตอนที่ 2

ในบทความตอนที่ 1 เราได้รู้จักเทคนิค Spectral Band Replication (SBR) ซึ่งเป็นเทคนิคการสร้างสัญญาณเสียงในย่านความถี่สูง และได้กลายเป็นเทคนิคพื้นฐานในการบีบอัดข้อมูลสัญญาณเสียงกันไปแล้ว

ในบทความ DSEE ตอนที่ 2 นี้ เราจะไปดูรายละเอียดการพัฒนาของ DSEE ในแต่ละรุ่นกันครับ

DSEE

กราฟอธิบายการทำงานของ DSEE ซ้าย : ไม่ได้เปิดใช้งาน ขวา : เปิดใช้งาน

DSEE รุ่นแรกนั้นถูกเปิดตัวในฐานะเทคโนโลยีหนึ่งในกลุ่ม Clear Audio Technology ของ Sony กับเครื่องเล่นเพลงพกพา Walkman NW-A800 ในเดือนมีนาคม 2017 ทาง Sony ได้โฆษณาว่า DSEE สามารถชดเชยย่านเสียงความถี่สูงที่หายไปจากการบีบอัดของไฟล์ MP3 และ ATRAC ให้เสียงกลับมาเป็นธรรมชาติใกล้เคียงกับต้นฉบับที่อยู่บน Audio CD

จากบทสัมภาษณ์คุณ Chinen Tooru ซึ่งเป็นหนึ่งในสมาชิกทีมผู้พัฒนา DSEE HX ได้อธิบายหลักการทำงานของ DSEE เอาไว้ว่า DSEE จะใช้รูปคลื่นสเปกตรัมในย่านความถี่ต่ำมาสร้างรูปคลื่นสเปกตรัมในย่านความถี่สูงที่หายไป ซึ่งมีความคล้ายคลึงกับเทคโนโลยี SBR ที่เขียนถึงไปในบทความตอนที่แล้ว

DSEE HX

ในเดือนตุลาคม ปี 2013 ทาง Sony ได้เปิดตัว Walkman ZX1 ซึ่งเป็น Walkman ที่รองรับมาตรฐาน Hi-Res Audio ของ Sony และมาพร้อมกับ DSEE HX ที่โฆษณาว่าสามารถยกระดับคุณภาพเสียงของเสียงที่ถูกบีบอัดได้ใกล้เคียงกับเสียงความละเอียดสูงซึ่งมีการปรับปรุงจาก DSEE เดิมดังนี้

เพิ่มช่วงความถี่สูงที่สามารถสร้างได้สูงสุดจากในช่วง 20 – 22 kHz เป็น 96 kHz (เทียบเท่า Sampling Rate 192 kHz)
ขยายความละเอียดของสัญญาณเสียงจาก 16 bit เป็น 24 bit
ทีมพัฒนาได้ศึกษารูปแบบของรอยต่อระหว่างเสียงย่านความถี่ต่ำและย่านความถี่สูงในรูปคลื่นสเปกตรัมของเสียงความละเอียดสูง, Audio CD และเสียงที่ถูกบีบอัดจากเพลงหลากหลายแนว เพื่อพัฒนาอัลกอริทึมสำหรับคาดเดารูปคลื่นสเปกตรัมเสียงย่านความถี่สูงที่จะถูกสร้างออกมาให้เหมือนต้นฉบับ

อย่างไรก็ตาม DSEE HX ยังมีข้อจำกัดเรื่องการใช้พลังงานประมวลผลจาก SoC ของ Walkman ที่สูงมาก (อายุการใช้งานแบตเตอรี่ลดลงไปประมาณ 66%) และการที่ DSEE HX จะสลับรูปแบบการสร้างเสียงย่านความถี่สูงตามลักษณะเสียงไปมาภายในเพลงเดียวกันนั้นทำให้การฟังเพลงไม่ลื่นไหล ทีมพัฒนาจึงได้เลือกรูปแบบการสร้างเสียงย่านความถี่สูงที่สามารถใช้งานได้กับลักษณะเสียงหลากหลายเพียงแบบเดียวแทน

DSEE HX ได้ถูกปรับปรุงในปี 2016 พร้อมกับการเปิดตัวของ Walkman WM-1 โดยสามารถขยายความละเอียดของสัญญาณเสียงได้สูงถึง 32 bit และเปิดให้ผู้ใช้เลือกรูปแบบการสร้างรูปคลื่นสเปกตรัมเสียงความถี่สูงเองได้ 5 รูปแบบได้แก่ มาตรฐาน, เสียงร้องหญิง, เสียงร้องชาย, เครื่องเคาะจังหวะ และเครื่องสาย เพื่อให้ DSEE HX สามารถคาดเดาและสร้างเสียงย่านความถี่สูงขึ้นมาได้อย่างแม่นยำและเหมาะสมกับลักษณะของเสียงที่สุด แต่ผู้ใช้ก็ต้องเป็นคนตั้งค่าการทำงาน DSEE HX ให้ตรงตามลักษณะของเสียงในเพลงที่ฟังด้วยตัวเอง

DSEE Extreme

ในช่วงปลายปี 2018 ทาง Sony ได้เปิดตัว DSEE HX รุ่นใหม่ที่มาพร้อมกับเครื่องเล่น DMP-Z1 และ Walkman A50 สิ่งที่ปรับปรุงจาก DSEE HX รุ่นที่แล้วคือการนำปัญญาประดิษฐ์ (AI) มาช่วยคาดเดารูปแบบการสร้างรูปคลื่นสเปกตรัมเสียงความถี่สูงที่แม่นยำขึ้นมาโดยไม่ต้องให้ผู้ใช้เลือกรูปแบบการทำงานที่เหมาะสมกับลักษณะเสียงเอง

ทีมพัฒนาได้ทำการฝึก AI ด้วย Deep Neural Network (DNN) ด้วยข้อมูลจากเพลงความละเอียดสูงหลากหลายแนวจาก Sony Music Entertainment จนได้อัลกอริทึมที่มีประสิทธิภาพที่สุด นอกจากนี้ทีมพัฒนายังได้รับความช่วยเหลือจาก Mixing Engineer และ Master Engineer จาก Sony Music ในการวัดผลการทำงานด้วยการฟัง นอกจากการวัดผลเป็นตัวเลข จนได้ DSEE HX ที่สามารถปรับการทำงานตามลักษณะเสียงที่เล่นเข้ามาในแต่ละช่วงของเพลงได้โดยอัตโนมัติ

เปรียบเทียบการสร้างย่านเสียงความถี่สูงของฉาบ Hi-Hat ระหว่าง DSEE HX เดิมและ DSEE HX ใหม่

นอกจากการสร้าง AI เพื่อคาดเดารูปแบบการสร้างเสียงความถี่สูงแล้ว ทางทีมพัฒนายังสนใจเรื่องของ Dynamic ของเสียง เช่น เสียงช่วง Attack ของเครื่องเคาะ และเรโซแนนซ์ของเสียงร้อง ซึ่งมีส่วนให้ผู้ฟังรู้สึกถึงความสูงของเสียง นอกเหนือจากรู้สึกถึงความกว้างและลึกของเสียง และปรับปรุงให้ DSEE HX สามารถชดเชยเสียงลักษณะดังกล่าวได้อย่างมีประสิทธิภาพ จนได้ DSEE HX ที่ทำงานได้สมบูรณ์แบบจนหาจุดให้พัฒนาต่อไม่ได้อีกแล้ว

อย่างไรก็ตาม DSEE HX รุ่นนี้ต้องการพลังและหน่วยความจำในการประมวลผลที่สูงมาก รวมทั้งการทำ DNN เองก็ต้องอาศัยพลังการประมวลผลจากคลาวด์เข้ามาช่วยด้วย ทำให้ทีมพัฒนาต้องหาวิธีย่อส่วน DSEE HX รุ่นนี้ลงโดยการลดปริมาณการใช้ข้อมูลในการประมวลผลบางขั้นตอนที่ส่งผลต่อคุณภาพเสียงไม่มากนักและปรับปรุง DNN ให้เหมาะสมกับการประมวลผลเสียงมากขึ้น (เพราะ DNN ที่ทีมพัฒนาใช้อ้างอิงนำมาจาก DNN ของการประมวลผลภาพ) ทำให้สามารถนำ DSEE HX รุ่นนี้ลงใน Walkman A-50 โดยยังคงอายุการใช้งานแบตเตอรี่ใกล้เคียงเดิมกับรุ่นที่แล้วเอาไว้ได้สำเร็จ

การขยายความละเอียดของ DSEE HX บน DMP-Z1

ในเวลาต่อมา ทีมพัฒนาหูฟัง WH-1000XM4 ต้องการที่จะนำ DSEE HX รุ่นนี้ไปใส่ในหูฟังที่กำลังพัฒนาในขณะนั้น ทีมพัฒนา DSEE HX ได้ปรับปริมาณข้อมูลที่ใช้ในการประมวลผลจนสามารถนำ DSEE HX ใส่ลงใน SoC Bluetooh ได้ รวมทั้งยังได้พัฒนาความสามารถ Speak-to-Chat ที่ใช้ตรวจจับการพูดคุยด้วยไมโครโฟน 5 ตัวบนหูฟัง ซึ่งความสามารถนี้มีอัลกอริทึมใกล้เคียงกับ DSEE HX รุ่นนี้และถูกเริ่มต้นพัฒนามาด้วยกัน ทำให้เพิ่มประสิทธิภาพการทำงานร่วมกันได้เป็นอย่างดี

DSEE HX รุ่นนี้ได้ถูกเปิดตัวภายใต้ชื่อใหม่อย่างเป็นทางการคือ DSEE Extreme พร้อมกับหูฟัง WH-1000XM4 ในเดือนสิงหาคม 2020 ซึ่ง DSEE Extreme ในหูฟังรุ่นนี้จะทำงานที่ความละเอียด 24 bit 96 kHz ในขณะที่เครื่องเล่น DMP-Z1 สามารถขยายความละเอียดเสียงได้สูงถึง 32 bit 384 kHz (เทียบเท่าความถี่เสียง 192 kHz)

DSEE Ultimate

ในเดือนกุมภาพันธ์ 2020 ทาง Sony ได้เปิดตัวสมาร์ทโฟน Xperia 1 II ที่มาพร้อมกับ DSEE Ultimate รุ่นใหม่ ที่โฆษณาว่าใช้ AI มาช่วยในการประมวลผลเช่นเดียวกับ DSEE แบบ AI ที่ออกมาก่อนหน้า

รายละเอียดการทำงานของ DSEE Ultimate ได้ถูกเปิดเผยออกมามากขึ้น เมื่อ Walkman ZX500 และ A500 ได้รับอัพเดทเพิ่มความสามารถ DSEE Ultimate ในเดือนตุลาคม 2020 โดย DSEE Ultimate ที่อัพเดทเพิ่มเติมมานั้นทำงานที่ความละเอียด 32 bit 192 kHz และนอกจากจะใช้ AI ในการคาดเดารูปแบบคลื่นสเปกตรัมความถี่สูงที่จะสร้างออกมาแล้ว ยังใช้ AI ในการขยายความละเอียดสัญญาณอีกด้วย

ทั้งหมดนี้คือรายละเอียดการพัฒนาของเทคโนโลยี DSEE ในแต่ละรุ่นที่ทาง Sony ได้เปิดเผยรายละเอียดออกมา ในบทความตอนหน้า เราจะมาลงลึกไปถึงเบื้องหลังการทำงานของเทคโนโลยีตัวนี้กันครับ

RE.V –>

Gadget RE.V(iew) Blog;