การรู้จำคำพูด

จากวิกิพีเดีย สารานุกรมเสรี
ไปยังการนำทาง ไปยังการค้นหา
บทความนี้มีเนื้อหาที่สั้นมาก ต้องการเพิ่มเติมเนื้อหาหรือพิจารณารวมเข้ากับบทความอื่นแทน

การรู้จำคำพูด ใช้หลักของการออกเสียงเข้ามาเกี่ยวข้อง โดยการรู้จำของระบบคอมพิวเตอร์นั้นจะต้องใช้ศาสตร์ทางด้านปัญญาประดิษฐ์โดยวิธีการเรียนรู้ของระบบคอมพิวเตอร์จะจำเอารูปแบบเสียง ๆ นั้น มาสร้างเป็นฟังก์ชันที่จะใช้ในการคำนวณของระบบคอมพิวเตอร์เมื่อได้รับเสียงเข้ามาก็จะเอาเสียงไปเทียบกับฟังก์ชันที่ได้สร้างขึ้น

เทคโนโลยีรู้จำเสียงพูด (Automatic Speech Recognition: ASR)

เป็นสาขาย่อยของ วิชาภาษาศาสตร์คอมพิวเตอร์ที่พัฒนาวิธีการและเทคโนโลยีที่ช่วยให้การรับรู้และการแปลภาษาพูดเป็นข้อความโดยคอมพิวเตอร์ ซอฟต์แวร์รู้จำเสียงพูดขั้นพื้นฐานมีคำศัพท์ที่จำกัด องคำและวลีและอาจระบุสิ่งที่พูดอย่างชัดเจน ซึ่งประเภทของระบบรู้จำเสียงพูดสามารถแบ่งได้ เป็น 3ประเภท ดังนี้

1.เทคโนโลยีรู้จำเสียงพูดแบบคำโดด (Isolated speech) คือระบบที่รู้จำคำสั้นๆเพียงไม่กี่คำสั่ง เพื่อให้ระบบบสามารถตอบโต้ได้อย่างรวดเร็ว

2.เทคโนโลยีรู้จำเสียงพูดแบบต่อเนื่อง (Continuous speech) คือระบบรู้จำคำจากเสียงอย่างต่อเนื่อง แล้วทำการพิจารณาตัดเสียงพูด

3.เทคโนโลยีรู้จำที่จำเสียงเพียงบ้างส่วน (Spontaneous speech) คือระบบที่จดจำเสียงที่ตรวจหาคำสำคัญเพียงคำเดียวในประโยคเพื่อหาใจความสำคัญ

Speech Recognition คือระบบโปรแกรมคอมพิวเตอร์ที่สามารถแปลงเสียงพูด (Audio File) เป็นข้อความตัวอักษร (Text) โดยสามารถแจกแจงคำพูดต่างๆ ที่มนุษย์สามารถพูดใส่ไมโครโฟน โทรศัพท์หรืออุปกรณ์อื่นๆ และเข้าใจคำศัพท์ทุกคำอย่างถูกต้องเกือบ 100% โดยเป็นอิสระจากขนาดของกลุ่มคำศัพท์ ความดังของเสียงและลักษณะการออกเสียงของผู้พูด โดยระบบจะรับฟังเสียงพูดและตัดสินใจว่าเสียงที่ได้ยินนั้นเป็นคำๆใด เทคโนโลยีที่เป็นส่วนสำคัญในการทำ ASR เรียกว่า Hidden Markov Model (HMM) เทคโนโลยีชนิดนี้สามารถที่จะเข้าใจคำพูด จากการจำแนกความแตกต่างและการประมาณการถึงความเป็นไปได้ของส่วนประกอบของหน่วยที่เป็นพื้นฐานของเสียงที่อยู่ติดๆกัน โดยอาศัยหลักการที่ว่าเสียงแต่ละเสียงจะมีขอบเขตของสัญญาณและลักษณะเฉพาะที่มีความแตกต่างกัน

โดยระบบรู้จำเสียงพูด มีส่วนประกอบหลัก 5 ส่วนคือ

1) ส่วนรับเสียง (Acoustic Front-end) เป็นส่วนที่ทำหน้าที่เกี่ยวกับการประมวลผลสัญญาณ (signal processing) และสกัดคุณลักษณะ (feature extraction)

2) โมเดลเสียง (Acoustic Model) เป็นส่วนที่จัดเก็บความรู้สำหรับระบบรู้จำเสียงพูด

3) โมเดลภาษา (Language Model) เป็นส่วนที่รวบรวมเงื่อนไขของลำดับคำในภาษา

4) ตัวตรวจจับ (Decoder) เป็นส่วนที่ค้นหาความคล้ายของลำดับคำจากเสียงที่ได้รับ

5) คลังศัพท์ (Lexicon) เป็นส่วนที่จัดเก็บคำศัพท์ทั้งหมด

บทบาทของเทคโนโลยีการรู้จำเสียงพูดที่สำคัญในปัจจุบัน คือ เป็นตัวเชื่อมประสานกับผู้ใช้งาน (User Interface) ซึ่งอำนวยความสะดวกในการติดต่อระหว่างมนุษย์กับคอมพิวเตอร์ ขณะที่มือไม่ว่าง ต้องการความคล่องตัว สายตาไม่ว่าง ไม่ต้องการใช้คีย์บอร์ด ทัศนวิสัยไม่ดี มีข้อจำกัดด้านร่างกาย ฯลฯ

ทั้งนี้ความท้าทายและทิศทางการพัฒนาเทคโนโลยีดังกล่าว มีดังต่อไปนี้

1) ความทนทาน (Robustness) เพื่อให้ได้ความถูกต้องของการรู้จำที่ไม่ลดลง เมื่อข้อมูลที่ส่งมาเกิดความผิดเพี้ยนหรือหายไปเนื่องจากสิ่งรบกวนต่างๆ

2) การเรียนรู้และปรับปรุงตัวเองโดยอัตโนมัติ (Automatic Training and Adaptation) เพื่อให้ระบบสามารถเรียนรู้และปรับปรุงตัวเองให้เข้ากับการทำงานในลักษณะต่างๆ ได้อย่างรวดเร็ว ประหยัด และเรียบง่าย

3) การรู้จำเสียงพูดที่เป็นธรรมชาติ (Spontaneous Speech) เพื่อให้ระบบสามารถรู้จำสำเนียงการพูด (Prosody) จังหวะการพูด อารมณ์ และพฤติกรรมการพูดรูปแบบแบบต่างๆ

4) การสนทนา (Dialogue Models) เพื่อให้ระบบสามารถเข้าใจบทสนทนาของผู้ใช้

5) การสร้างภาษาโต้ตอบ (Natural Language Response Generation) เพื่อให้ระบบ สามารถสร้างภาษาโต้ตอบกับผู้ใช้ โดยภาษาที่สร้างขึ้นต้องสอดคล้องและเหมาะสมกับเรื่องที่กำลังสนทนา

6) การสังเคราะห์และสร้างเสียงพูด (Speech Synthesis and Generation) เพื่อให้ระบบสามารถสังเคราะห์เสียงพูดและสนทนาโต้ตอบกับผู้ใช้

7) ร ะบบหลายภาษา (Multilingual Systems) เพื่อการเข้าถึงข้อมูลข้ามภาษาและการแปลภาษาแบบทันกาลจากเสียงพูด

8) ระบบแบบผสมผสาน (Multimodal Systems) เป็นการนำข้อมูลด้านอื่นที่นอกเหนือจากข้อมูลทางภาษาและเสียงพูด เช่น สีหน้า ฝีปาก ท่าทาง และลายมือ เข้ามาใช้เพื่อเพิ่มความถูกต้องของการรู้จำและความเข้าใจในภาษา

ตัวอย่าง รถเข็นคนพิการควบคุมด้วยระบบรู้จำเสียงพูด

ระบบรู้จำเสียงพูด (Speech Recognition) ใช้ในการควบคุมรถเข็นคนพิการให้เคลื่อนที่ไปในทิศทางต่างๆ โดยกำหนดด้วยคำสั่ง 9 คำสั่ง ประกอบด้วยคำว่า เดินหน้า ถอยหลัง เลี้ยวซ้าย เลี้ยวขวา กึ่งซ้าย กึ่งขวา เร็วขึ้น ช้าลง และหยุด ซึ่งจะเป็นคำสั่งที่ใช้เป็นสัญญาณอินพุตเข้าสู่ระบบ และระบบก็จะประมวลผลตัดสินใจและส่งค่าเอาท์พุต ออกไปควบคุมมอเตอร์เพื่อเคลื่อนรถเข็นคนพิการในทิศทางที่สั่ง

องค์ประกอบหลักๆ ของระบบรู้จำเสียงพูดแบ่งได้เป็น 3 ขั้นตอนดังนี้

1.การเตรียมสัญญาณขั้นต้น (Preprocessing)

เป็นขั้นตอนที่จะทำให้สัญญาณเสียงที่จะนำไปใช้ หรือรับเข้ามานั้น มีความสมบูรณ์มากที่สุด โดยจะทำการกำจัดสัญญาณรบกวน (Noise) และตัดส่วนที่ไม่ใช่สัญญาณเสียง (Unvoice) ออกซึ่งจะเหลือแต่เพียง ช่วงที่เป็นข้อมูลเสียง

2. การหาลักษณะสำคัญของเสียง (Feature Extraction)

เป็นขั้นตอนที่ใช้สำหรับหาองค์ประกอบสำคัญต่างๆ ของเสียงแต่ละเสียงที่รับเข้ามา ให้รู้ว่าคำแต่ละคำนั้นมีลักษณะเด่นอย่างไร

3. การรู้จำเสียงพูด (Speech Recognition)

เป็นขั้นตอนที่ให้ระบบทำการเรียนรู้โดยการนำสัญญาณเสียงเข้าสู่ระบบโครงข่ายประสาทเทียม (Neural Network System) เพื่อระบบจะทำการตัดสินใจ และให้ผลลัพธ์ตามสัญญาณเสียงที่แตกต่างกันได้ถูกต้อง