การแปลด้วยเครื่อง

จากวิกิพีเดีย สารานุกรมเสรี
สามเหลี่ยมของโวกัวส์แสดงระดับสถาปัตยกรรมทางภาษาศาสตร์ในการแปลด้วยเครื่อง

การแปลด้วยเครื่อง (อังกฤษ: MT; machine translation) เป็นศาสตร์ย่อยของภาษาศาสตร์เชิงคำนวณที่เกี่ยวกับการใช้ซอฟต์แวร์คอมพิวเตอร์แปลข้อความหรือคำพูดภาษาธรรมชาติภาษาหนึ่งไปเป็นอีกภาษาหนึ่ง ยกตัวอย่างเช่น การใช้ซอฟต์แวร์คอมพิวเตอร์แปลข้อความภาษาไทย ไปเป็นภาษาอังกฤษ เป็นต้น ในระดับพื้นฐาน การแปลด้วยเครื่องทำได้โดยการแทนที่คำในภาษาหนึ่งด้วยคำในอีกภาษาหนึ่ง (การแปลคำต่อคำ) อย่างไรก็ตามการแปลภาษาโดยใช้การแทนที่คำอย่างง่ายไม่เพียงพอต่อการแปลภาษาให้ถูกต้อง เพราะภาษามีความคลุมเครือ ยกตัวอย่างเช่น คำว่า bank ในภาษาอังกฤษมีความเป็นไปได้ที่จะแปลเป็นคำภาษาไทย ได้ทั้งคำว่า "ธนาคาร" และ "ตลิ่ง" เป็นต้น นอกจากนั้นภาษายังแตกต่างกันในเรื่องสำนวนและไวยากรณ์ ยกตัวอย่างเช่น "il fait froid" ในภาษาฝรั่งเศส แปลว่า "อากาศหนาว" ในภาษาไทย แต่ถ้าหากแปลคำต่อคำจะแปลว่า "มันทำหนาว" เป็นต้น เนื่องจากการแปลด้วยการแทนที่คำอย่างง่ายมีข้อจำกัด จึงมีการใช้เทคนิคการแปลด้วยเครื่องต่างๆ เช่น การเรียนรู้การแปลอัตโนมัติจากคลังข้อความขนาน และการวิเคราะห์ทางภาษาศาสตร์ เป็นต้น

ขั้นตอนในการแปลภาษาสามารถแบ่งออกเป็น 2 ขั้นตอน ได้แก่

  1. การถอดรหัสความหมายจากข้อความในภาษาต้นทาง
  2. การเข้ารหัสความหมายไปเป็นข้อความในภาษาปลายทาง

ขั้นตอนในการแปลดังกล่าว เป็นทั้งขั้นตอนในการแปลด้วยเครื่อง และการแปลความหมายโดยนักแปลด้วย ยกตัวอย่างเช่น ในการแปลภาษาฝรั่งเศสเป็นภาษาไทยโดยนักแปล ขึ้นตอนในการแปลคือ นักแปลถอดรหัสข้อความภาษาฝรั่งเศสให้เป็นความหมายที่นักแปลเข้าใจ จากนั้นนักแปลจึงเข้ารหัสความหมายที่ตนเองเข้าใจไปเป็นข้อความภาษาไทย

เบื้องหลังขั้นตอนที่ดูง่ายและเห็นได้ชัดเจนนี้อาศัยการดำเนินการทางกระบวนการความคิดที่ซับซ้อน เพื่อที่จะถอดรหัสความหมายของข้อความภาษาต้นทาง ต้องใช้ความรู้ที่ลึกซึ้งเกี่ยวกับไวยากรณ์ อรรถศาสตร์ วากยสัมพันธ์ สำนวน ฯลฯ ของภาษาต้นทาง รวมถึงความเข้าใจในวัฒนธรรมของผู้กล่าวด้วย ผู้แปลต้องการความรู้ที่ลึกซึ้งในลักษณะคล้ายกับการถอดรหัส เพื่อเข้ารหัสความหมายให้เป็นข้อความภาษาปลายทาง

ประเภทของการแปลด้วยเครื่อง[แก้]

การแปลด้วยเครื่องสามารถแบ่งเป็นประเภทต่างๆ โดยพิจารณาตามสถาปัตยกรรมทางภาษาศาสตร์ และสถาปัตยกรรมทางการคำนวณ[1] [2]

การเปลี่ยนภาษาต้นทางไปเป็นภาษาปลายทางสามารถทำได้โดยการแปลตรงไปตรงมาในระดับคำ อย่างไรก็ตามเพื่อแก้ปัญหาการแปลไม่ถูกต้อง ที่เกิดจากสาเหตุ เช่น ความแตกต่างกันของภาษาต้นทางและภาษาปลายทาง ฯลฯ ความรู้ด้านภาษาศาสตร์จึงถูกนำมาใช้ในการแปลภาษา ต่างไปจากการแปลตรงไปตรงมา การโอนถ่ายสามารถโอนถ่ายโครงสร้าง เช่น โครงสร้างต้นไม้วากยสัมพันธ์จากภาษาต้นทางที่ได้มาจากการวิเคราะห์ ไปเป็นโครงสร้างต้นไม้วากยสัมพันธ์ของภาษาปลายทาง จากนั้นจึงสร้างข้อความภาษาปลายทางจากโครงสร้างต้นไม้วากยสัมพันธ์ของภาษาปลายทางที่ได้มาจากการโอนถ่าย เป็นต้น โครงสร้างและการจัดการระบบที่ระบบระดับการวิเคราะห์ การสร้างและการโอนถ่าย เช่น การแปลด้วยเครื่องโดยการโอนถ่ายโครงสร้างต้นไม้วากยสัมพันธ์ การแปลด้วยเครื่องแบบตรงไปตรงมาระดับคำ ฯลฯ คือสถาปัตยกรรมทางภาษาศาสตร์ของการแปลอัตโนมัติ

กรณีการแปลภาษาไทยเป็นภาษาอื่นๆ สิ่งที่จะต้องคำนึงถึงคือคำกริยาภาษาไทยมีการนำกริยาหลายตัวมาเรียงลำดับติดต่อกันได้มากกว่า 2 ตัว แต่ไม่เกิน 7 ตัว การวิเคราะห์จึงต้องมีความละเอียดอ่อนเป็นพิเศษ นอกจากนั้น การที่ภาษาไทยไม่มีกลุ่มคำที่เรียกว่า "คำคุณศัพท์" เหมือนในภาษาอังกฤษหรือภาษาฝรั่งเศส มีแต่คำว่า "คำวิเศษณ์" ซึ่งมีพฤติกรรมการใช้งานตรงกับรูปคำคุณศัพท์ในภาษาอังกฤษและภาษาฝรั่งเศส ทำให้การวิเคราะห์กลุ่มคำที่ทำหน้าเป็นคำกริยา verbal phrase มีความซับซ้อนมากยิ่งขึ้น

อ้างอิง[แก้]

  1. Christian Boitet, Youcef Bey, Mutsuko Tomokiyo, Wenjie Cao, and Hervé Blanchon. IWSLT-06: experiments with commercial systems and lessons for subjective evaluations.[ลิงก์เสีย], in presentation slide of the International Workshop on Spoken Language Translation. Kyoto, Japan. 2006.
  2. Sombat Khruathong, Towards a Micro-Systemic Parsing for a Thai-French Machine Translation: Application to the Serial Verbs", Doctoral Thesis, Franche-Comté University, 2006.
  • สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. ผลงานวิจัย สวทช. สู่เชิงพาณิชย์ ปี 2549-2554. ปทุมธานี : สำนักงานฯ, 2554.