การแปลด้วยเครื่อง

จากวิกิพีเดีย สารานุกรมเสรี
(เปลี่ยนทางจาก การแปลภาษาด้วยเครื่อง)
สามเหลี่ยมของโวกัวส์แสดงระดับสถาปัตยกรรมทางภาษาศาสตร์ในการแปลด้วยเครื่อง

การแปลด้วยเครื่อง (อังกฤษ: MT; machine translation) เป็นศาสตร์ย่อยของภาษาศาสตร์เชิงคำนวณที่เกี่ยวกับการใช้ซอฟต์แวร์คอมพิวเตอร์แปลข้อความหรือคำพูดภาษาธรรมชาติภาษาหนึ่งไปเป็นอีกภาษาหนึ่ง ยกตัวอย่างเช่น การใช้ซอฟต์แวร์คอมพิวเตอร์แปลข้อความภาษาไทย ไปเป็นภาษาอังกฤษ เป็นต้น ในระดับพื้นฐาน การแปลด้วยเครื่องทำได้โดยการแทนที่คำในภาษาหนึ่งด้วยคำในอีกภาษาหนึ่ง (การแปลคำต่อคำ) อย่างไรก็ตามการแปลภาษาโดยใช้การแทนที่คำอย่างง่ายไม่เพียงพอต่อการแปลภาษาให้ถูกต้อง เพราะภาษามีความคลุมเครือ ยกตัวอย่างเช่น คำว่า bank ในภาษาอังกฤษมีความเป็นไปได้ที่จะแปลเป็นคำภาษาไทย ได้ทั้งคำว่า "ธนาคาร" และ "ตลิ่ง" เป็นต้น นอกจากนั้นภาษายังแตกต่างกันในเรื่องสำนวนและไวยากรณ์ ยกตัวอย่างเช่น "il fait froid" ในภาษาฝรั่งเศส แปลว่า "อากาศหนาว" ในภาษาไทย แต่ถ้าหากแปลคำต่อคำจะแปลว่า "มันทำหนาว" เป็นต้น เนื่องจากการแปลด้วยการแทนที่คำอย่างง่ายมีข้อจำกัด จึงมีการใช้เทคนิคการแปลด้วยเครื่องต่างๆ เช่น การเรียนรู้การแปลอัตโนมัติจากคลังข้อความขนาน และการวิเคราะห์ทางภาษาศาสตร์ เป็นต้น

ขั้นตอนในการแปลภาษาสามารถแบ่งออกเป็น 2 ขั้นตอน ได้แก่

  1. การถอดรหัสความหมายจากข้อความในภาษาต้นทาง
  2. การเข้ารหัสความหมายไปเป็นข้อความในภาษาปลายทาง

ขั้นตอนในการแปลดังกล่าว เป็นทั้งขั้นตอนในการแปลด้วยเครื่อง และการแปลความหมายโดยนักแปลด้วย ยกตัวอย่างเช่น ในการแปลภาษาฝรั่งเศสเป็นภาษาไทยโดยนักแปล ขึ้นตอนในการแปลคือ นักแปลถอดรหัสข้อความภาษาฝรั่งเศสให้เป็นความหมายที่นักแปลเข้าใจ จากนั้นนักแปลจึงเข้ารหัสความหมายที่ตนเองเข้าใจไปเป็นข้อความภาษาไทย

เบื้องหลังขั้นตอนที่ดูง่ายและเห็นได้ชัดเจนนี้อาศัยการดำเนินการทางกระบวนการความคิดที่ซับซ้อน เพื่อที่จะถอดรหัสความหมายของข้อความภาษาต้นทาง ต้องใช้ความรู้ที่ลึกซึ้งเกี่ยวกับไวยากรณ์ อรรถศาสตร์ วากยสัมพันธ์ สำนวน ฯลฯ ของภาษาต้นทาง รวมถึงความเข้าใจในวัฒนธรรมของผู้กล่าวด้วย ผู้แปลต้องการความรู้ที่ลึกซึ้งในลักษณะคล้ายกับการถอดรหัส เพื่อเข้ารหัสความหมายให้เป็นข้อความภาษาปลายทาง

ประเภทของการแปลด้วยเครื่อง[แก้]

การแปลด้วยเครื่องสามารถแบ่งเป็นประเภทต่างๆ โดยพิจารณาตามสถาปัตยกรรมทางภาษาศาสตร์ และสถาปัตยกรรมทางการคำนวณ[1] [2]

การเปลี่ยนภาษาต้นทางไปเป็นภาษาปลายทางสามารถทำได้โดยการแปลตรงไปตรงมาในระดับคำ อย่างไรก็ตามเพื่อแก้ปัญหาการแปลไม่ถูกต้อง ที่เกิดจากสาเหตุ เช่น ความแตกต่างกันของภาษาต้นทางและภาษาปลายทาง ฯลฯ ความรู้ด้านภาษาศาสตร์จึงถูกนำมาใช้ในการแปลภาษา ต่างไปจากการแปลตรงไปตรงมา การโอนถ่ายสามารถโอนถ่ายโครงสร้าง เช่น โครงสร้างต้นไม้วากยสัมพันธ์จากภาษาต้นทางที่ได้มาจากการวิเคราะห์ ไปเป็นโครงสร้างต้นไม้วากยสัมพันธ์ของภาษาปลายทาง จากนั้นจึงสร้างข้อความภาษาปลายทางจากโครงสร้างต้นไม้วากยสัมพันธ์ของภาษาปลายทางที่ได้มาจากการโอนถ่าย เป็นต้น โครงสร้างและการจัดการระบบที่ระบบระดับการวิเคราะห์ การสร้างและการโอนถ่าย เช่น การแปลด้วยเครื่องโดยการโอนถ่ายโครงสร้างต้นไม้วากยสัมพันธ์ การแปลด้วยเครื่องแบบตรงไปตรงมาระดับคำ ฯลฯ คือสถาปัตยกรรมทางภาษาศาสตร์ของการแปลอัตโนมัติ

กรณีการแปลภาษาไทยเป็นภาษาอื่นๆ สิ่งที่จะต้องคำนึงถึงคือคำกริยาภาษาไทยมีการนำกริยาหลายตัวมาเรียงลำดับติดต่อกันได้มากกว่า 2 ตัว แต่ไม่เกิน 7 ตัว การวิเคราะห์จึงต้องมีความละเอียดอ่อนเป็นพิเศษ นอกจากนั้น การที่ภาษาไทยไม่มีกลุ่มคำที่เรียกว่า "คำคุณศัพท์" เหมือนในภาษาอังกฤษหรือภาษาฝรั่งเศส มีแต่คำว่า "คำวิเศษณ์" ซึ่งมีพฤติกรรมการใช้งานตรงกับรูปคำคุณศัพท์ในภาษาอังกฤษและภาษาฝรั่งเศส ทำให้การวิเคราะห์กลุ่มคำที่ทำหน้าเป็นคำกริยา verbal phrase มีความซับซ้อนมากยิ่งขึ้น

ระบบแปลภาษาไทย - อังกฤษ[แก้]

การแปลด้วยเครื่อง ได้มีการวิจัยและพัฒนานวัตกรรมออกมาหลายชิ้น โดยเฉพาะในประเทศไทย ตัวอย่างผลงานชิ้นหนึ่งคือ "ภาษิต" ซึ่งเป็นระบบแปลภาษาอังกฤษเป็นไทยระบบแรกที่เปิดให้บริการผ่านเครือข่ายอินเทอร์เน็ต ตั้งแต่ปี 2543 ปัจจุบัน ภาษิต ได้เปิดบริการ 24 ชั่วโมง ทางเว็บไซต์ http://www.suparsit.com

ระบบแปลภาษา “ภาษิต” ประกอบด้วย คลังคำศัพท์ กฎไวยากรณ์ของภาษาอังกฤษและภาษาไทย แผนภาพ ความเชื่อมโยงของมโนทัศน์ในเชิงความหมายเมื่อข้อมูลภาษาอังกฤษถูกส่งเข้ามาแปลระบบฯ จะวิเคราะห์ไวยากรณ์ และความหมายภาษาอังกฤษ จากนั้นจะแปลงโครงสร้างของภาษาให้อยู่ในรูปแผนภาพต้นไม้ จากนั้นจะนำคลังคำศัพท์ มาใช้แปลงภาษาอังกฤษเป็นภาษาไทย แผนภาพต้นไม้ก็จะถูกแปลงตามกฎของภาษาไทย จากนั้นแผนภาพต้นไม้ก็จะถูกแปลงกับมาเป็นข้อมูลภาษาไทยที่ถูกต้องทั้งโครงสร้างไวยากรณ์และความหมาย

การพัฒนาระบบแปลภาษา "ภาษิต" เป็นการใช้แนวความคิดของระบบแปลภาษาในรูปแบบกฎ กล่าวคือ ระบบแปลภาษาจะประกอบด้วย คลังคำศัพท์ กฎไวยากรณ์ ของถาษาอังกฤษ และภาษาไทยแผนภาพความเชื่อมโยงของมโนทัศน์ในเชิงความหมาย เมือผู้ใช้บริการส่งข้อมูลภาษาอังกฤษเข้าทำการแปลระบบจะทำหน้าที่วิเคราะห์ไวยากรณ์ และความหมายภาษาอังกฤษ จากนั้นจะแปลงโครงสร้างภาษาให้อยู่ในรูปแบบภาษากลาง ซึ่งจะอยู่ในรูปภาพต้นไม้ ซึ่งตอนนั้นจะมีการนำคลังตำศัพท์มาใช้แปลงภาษาอังกฤษเป็นภาษาไทย จากนั้นระบบจะทำการแปลงภาพต้นไม้ให้ไปสู่ภาษาไทย โดยจะทำการสร้างภาษาไทยที่เป็นไปตามโครงสร้างทั้งเชิงไวยากรณ์และความหมาย

อ้างอิง[แก้]

  1. Christian Boitet, Youcef Bey, Mutsuko Tomokiyo, Wenjie Cao, and Hervé Blanchon. IWSLT-06: experiments with commercial systems and lessons for subjective evaluations., in presentation slide of the International Workshop on Spoken Language Translation. Kyoto, Japan. 2006.
  2. Sombat Khruathong, Towards a Micro-Systemic Parsing for a Thai-French Machine Translation: Application to the Serial Verbs", Doctoral Thesis, Franche-Comté University, 2006.
  • สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. ผลงานวิจัย สวทช. สู่เชิงพาณิชย์ ปี 2549-2554. ปทุมธานี : สำนักงานฯ, 2554.