หน่วยความจำการแปล

จากวิกิพีเดีย สารานุกรมเสรี

หน่วยความจำการแปล คือฐานข้อมูลชนิดหนึ่งที่ใช้สำหรับใช้ในโปรแกรมช่วยแปลภาษา โปรแกรมช่วยแปลภาษาที่ใช้หน่วยความจำการแปลเรียกอีกอย่างหนึ่งว่าโปรแกรมจัดการหน่วยความจำการแปล

โดยทั่วๆ ไปหน่วยความจำการแปลเป็นโปรแกรมที่บูรณาการลักษณะพิเศษบางประการของโปรแกรมช่วยแปลภาษาโดยเฉพาะ โปรแกรมประมวลคำ โปรแกรมจัดการคำศัพท์เฉพาะทาง พจนานุกรมหลายภาษา หรือแม้แต่ผลการแปลของเครื่องแปลภาษาที่ยังไม่ได้แก้ไข

หน่วยความจำการแปลประกอบไปด้วยส่วนของข้อความในภาษาต้นฉบับและส่วนข้อความที่แปลแล้วซึ่งอาจจะมีมากกว่าหนึ่งภาษา ส่วนของข้อความนี้อาจเป็น บล็อก ย่อหน้า ประโยค หรือวลี สำหรับคำนั้นจัดเก็บโดยโปรแกรมจัดการคำศัพท์เฉพาะทางซึ่งอยู่นอกเหนือหน้าที่ของหน่วยความจำการแปล

จาการวิจัยระบุว่าหลายบริษัทเขียนเอกสารหลายภาษาโดยใช้หน่วยความจำการแปล

การใช้งานหน่วยความจำการแปล[แก้]

ในขั้นแรกผู้แปลต้องป้อนข้อความต้นฉบับ(ซึ่งเป็นข้อความที่จะแปล) เข้าในหน่วยความจำการแปล จากนั้นโปรแกรมจึงค้นหาส่วนข้อความที่เคยแปลแล้วในฐานข้อมูลเพื่อแสดงส่วนของข้อความที่แปลแล้วบางส่วนให้แก่ผู้แปลเพื่อตรวจแก้ ผู้แปลสามารถเลือกใช้ข้อความที่แปลโดยหน่วยความจำแปล หรือเลือกไม่ใช้ หรือเลือกที่จะแก้ไขส่วนข้อความที่แปลแล้วบางส่วน ในกรณีสุดท้ายนี้การแก้ไขปรับปรุงจะถูกบันทึกไว้

ในบางระบบหน่วยความจำการแปล ใช้การจับคู่ส่วนของข้อความโดยการเทียบอักษรแบบตรงไปตรงมา ดังนั้นระบบจึงค้นคืนได้เฉพาะส่วนของข้อความที่ตรงกันทุกตัวอักษร ในขณะที่ระบบอื่นๆ ใช้ขั้นตอนวิธีการจับคู่แบบคลุมเครือเพื่อค้นคืนส่วนของข้อความที่คล้ายกัน ในกรณีที่หน่วยความจำการแปลค้นคืนส่วนข้อความที่คล้ายกันแต่ไม่เหมือนกัน ระบบจะบอกผู้แปลโดยแสดงตัวบ่งชี้ที่ต่างจากการค้นคืนส่วนของข้อความที่เหมือนกัน

ความยืดหยุ่นและความทนทานของขั้นตอนวิธีส่งผลกระทบอย่างมากต่อประสิทธิภาพของหน่วยความจำการแปล อย่างไรก็ตามในการใช้งานแบบรูปแบบ ค่าระลึกของการจับคู่ตรงไปตรงมาตามตัวอักษรสูงพอที่เป็นเหตุผลให้ใช้การจับคู่แบบแน่ชัดในหน่วยความจำการแปลได้

ส่วนของข้อความที่ไม่สามารถจับคู่ได้กับส่วนของข้อความที่เคยแปลแล้วในหน่วยความจำแปล ผู้แปลจะต้องแปลส่วนของข้อความนั้นเอง โดยส่วนของข้อความต้นฉบับและส่วนยของข้อความที่แปลแล้วนี้จะถุกจัดเก็บในฐานข้อมูล เพื่อใช้แปลในอนาคต

หน่วยความจำแปลทำงานได้ดีที่สุดสำหรับข้อความที่มีส่วนของข้อความซ้ำกันมาก เช่น คู่มือทางเทคนิค เป็นต้น หน่วยความจำการแปลยังมีประโยชน์หากมีการแก้ไขบางส่วนของข้อความต้นฉบับ ตัวอย่างเช่น การเปลี่ยนแปลงผลิตภัณฑ์เพียงเล็กน้อย ซึ่งอาจต้องแก้ไขคู่มือทางเทคนิคด้วย แต่เดิมทีหน่วยความจำการแปลไม่ได้ถูกมองเป็นสิ่งที่มีประโยชน์ทั้งข้อความที่ใช้ภาษาเขียนตรงไปตรงมาและข้อความที่เล่นสำนวน ด้วยเหตุผลง่ายๆ คือมีส่วนของข้อความที่ซ้ำกันน้อยมาก อย่างไรก็ตามมีผู้พบว่าหน่วยความจำแปลมีประโยชน์แม้ข้อความจะซ้ำกันไม่มาก เพราะว่าฐานข้อมูลมีประโยชน์ในการสืบค้นดูคำในบริบทเพื่อใช้ตัดสินใจใช้คำศัพท์ที่เหมาะสม

การใช้หน่วยความจำการแปลอย่างสม่ำเสมอกับข้อความที่เหมาะสมในระยะเวลาหนึ่งสามารถช่วยลดงานของผู้แปลได้

ประโยชน์หลัก[แก้]

โปรแกรมจัดการหน่วยความจำการแปลเหมาะที่สุดสำหรับการแปลเอกสารทางเทคนิคและเอกสารที่มีคำศัพท์เฉพาะทาง ประโยชน์ของโปรแกรมจัดการหน่วยความจำการแปลดังกล่าวได้แก่

  • การทำให้แน่ใจได้ว่าเอกสารที่แปลแล้วจะมีความสอดคล้องกัน ซึ่งรวมถึงการใช้คำจำกัดความ การใช้วลีและการใช้คำศัพท์เฉพาะทางที่เป็นอันหนึ่งอันเดียวกัน ซึ่งเป็นเรื่องสำคัญมากสำหรับโครงการที่มีผู้แปลหลายคน
  • การเร่งความเร็วการแปลโดยรวม เนื่องจากหน่วยความจำช่วยแปล "จำ" การแปลก่อนหน้าไว้ ผู้แปลจึงแปลส่วนของข้อความที่เหมือนกันเพียงครั้งเดียว
  • การลดค่าใช้จ่ายในโครงการแปลในระยะยาว ตัวอย่างเช่น ข้อความของคู่มือการใช้งาน คำเตือนต่างๆ หรือชุดของเอกสารที่แปลครั้งเดียวแต่สามารถนำไปใช้ได้หลายครั้ง
  • สำหรับโครงการแปลขนาดใหญ่ การใช้หน่วยความจำการแปลอาจจะช่วยประหยัด(เงินและเวลา)ตั้งแต่การแปลครั้งแรกของโครงการ อย่างไรก็ตามปกติแล้วจะเห็นความประหยัดได้ในการแปลต่อจากโครงการที่มีการแปลมาก่อนโดยไม่ได้ใช้หน่วยความจำแปล

อุปสรรคหลัก[แก้]

ปัญหาหลักที่ทำให้การใช้งานหน่วยความจำแปลไม่แพร่หลายได้แก่

  • แนวความคิดของ "หน่วยความจำการแปล" คือการนำการแปลของประโยค "กลับมาใช้ใหม่" อย่างไรก็ตามตามหลักการแปลผู้แปลควรแปล "สาร" ของข้อความ ไม่ใช่แปลทีละประโยค
  • โปรแกรมจัดการหน่วยความจำแปลเข้ากันไม่ได้กับกระบวนการแปลหรือการแปลงตามท้องถิ่นที่มีอยู่แล้ว ในการใช้หน่วยความจำการแปลให้เป็นประโยชน์ ต้องออกแบบกระบวนการแปลใหม่
  • โปรแกรมจัดการหน่วยความจำแปลใช้กับรูปแบบเอกสารบางรูปแบบไม่ได้
  • การใช้โปรแกรมจัดการหน่วยความจำแปลจำเป็นต้องใช้เวลาในการเรียนรู้ และโปรแกรมต้องมีการปรับแต่งเพื่อให้มีประสิทธิภาพสูงสุด
  • ในกรณีที่การบวนการแปลใช้การจัดจ้างคนภายนอกหรือแปลโดยนักแปลอิสระที่ทำงานนอกสถานที่ ผู้แปลนอกสถานที่ต้องการเครื่องมือพิเศษในการทำใช้งานข้อความที่สร้างโดยโปรแกรมจัดการหน่วยความจำแปล
  • โปรแกรมจัดการหน่วยความจำการแปลรุ่นเต็ม อาจมีราคาตั้งแต่ 500 ถึง 2500 ดอลลาร์สหรัฐ สำหรับผู้ใช้หนึ่งคน​ ซึ่งถือเป็นการลงทุนอย่างหนึ่ง (อย่างไรก็ตามมีโปรแกรมราคาถูกกว่าราคาดังกล่าว) อย่างไรก็ตามนักพัฒนาได้ผลิตโปรแกรมรุ่นฟรีหรือรุ่นประหยัดที่ลดความสามารถบางอย่างของโปรแกรมลง แต่ก็ยังพอที่ผู้แปลแต่ละคนจะใช้ทำงานในโครงการที่สร้างขึ้นโดยเครื่องมือรุ่นเต็ม (หมายเหตุ: มีโปรแกรมจัดการหน่วยความจำแปลที่เป็นฟรีแวร์และแชร์แวร์ แต่โปรแกรมดังกล่าวมีส่วนแบ่งในตลาดน้อย)
  • การนำการแปลที่มีมาก่อนของผู้ใช้เข้าสู่ฐานข้อมูลของหน่วยความจำการแปล การฝึกอบรม และการใช้โปรแกรมเสริม นับเป็นการลงทุน
  • การบำรุงรักษาหน่วยความจำการแปลยังทำด้วยมือเป็นส่วนมาก ความล้มเหลวในการบำรุงรักษาอาจส่งผลให้คุณภาพและความสามารถในการใช้งานการจับคู่ส่วนของข้อความในหน่วยความจำการแปลลดลงอย่างชัดเจน
  • อย่างที่ได้กล่าวในข้างต้น หน่วยความจำการแปลอาจะไม่เหมาะกับข้อความที่ไม่มีส่วนที่ซ้ำกัน หรือในการแก้ไขแต่ละครั้งทุกส่วนถูกเปลี่ยนแปลงหมด โดยทั่วไปข้อความทางเทคนิคมักเหมาะกับการใช้หน่วยความจำการแปล ในขณะที่ข้อความทางการตลาดหรือข้อความที่เล่นสำนวนเหมาะกับหน่วยความจำการแปลน้อยกว่า
  • อาจไม่สามารถรับประกันคุณภาพของข้อความในหน่วยความแปลได้ ถ้าหากว่าแปลส่วนข้อความผิด ส่วนของข้อความแปลที่ผิดนั้นอาจถูกนำกลับมาใช้ใหม่ได้ โดยการแปลข้อความต้นฉบับที่เหมือนหรือคล้ายกัน ด้วยเหตุดังกล่าวความผิดพลาดจึงมีอยู่อย่างถาวร

หน้าที่ของหน่วยความจำการแปล[แก้]

ข้อความต่อไปนี้เป็นการสรุปหน้าที่หลักของหน่วยความจำการแปลซึ่งอธิบายไว้ที่ Design and function of translation memory เก็บถาวร 2006-05-09 ที่ เวย์แบ็กแมชชีน.

หน้าที่แบบไม่เชื่อมตรง[แก้]

การนำเข้า[แก้]

หน้าที่นี้ใช้เพื่อนำข้อความต้นฉบับและข้อความแปลจากไฟล์ข้อความเข้าสู่หน่วยความจำการแปล การนำเข้าสามารถทำได้กับไฟล์ข้อความธรรมดาจากภายนอกที่มีข้อความต้นฉบับและข้อความแปลอยู่ ในบางครั้งผู้ใช้ต้องช่วยจัดการกับข้อความที่จะนำเข้าด้วย นอกจากนั้นยังมีรูปแบบข้อมูลอื่นๆ ที่ใช้ในการนำเข้า เช่น รูปแบบเฉพาะที่ใช้เป็นหลักในหน่วยความจำการแปลแต่ละหน่วยความจำเป็นต้น

การวิเคราะห์[แก้]

การบวนการวิเคราะห์แบ่งออกเป็นขั้นๆ ดังต่อไปนี้

การแจงโครงสร้างของข้อความ
การวิเคราะห์เครื่องหมายวรรคตอนมีความสำคัญในการแยกแยะส่วนต่างๆ ของข้อความ เช่น การแยกแยะการจบประโยคออกจากตัวย่อ (ในภาษาอังกฤษใช้เครื่องหมาย . บอกการจบประโยคหรือบ่งบอกว่าเป็นตัวย่อหรืออื่นๆ) นอกจากเครื่องหมายวรรคตอนแล้ว
การแจงโครงสร้างทางภาษาศาสตร์
การลดรูปเป็นรูปพื้นฐานใช้ในการเตรียมรายการของคำและข้อความสำหรับการค้นคืนศัพท์เฉพาะทางอัตโนมัติจากคลังศัพท์เฉพาะทาง ในทางกลับกันการแจงโครงสร้างข้อความเชิงวากยสัมพันธ์อาจใช้ในการค้นหาศัพท์เฉพาะทางที่ประกอบไปด้วยหลายคำหรือค้นหาส่วนของข้อความที่เล่นสำนวนจากข้อความต้นฉบับ โดยการแจงโครงสร้างข้อความใช้จัดลำดับของคำที่เล่นสำนวนให้เป็นมาตรฐาน ซึ่งคำที่นำมาจัดลำดำใหม่นี้สามารถรวมกันเป็นวลี
การแบ่งส่วนข้อความ
การแบ่งส่วนของข้อความทำให้ได้ขอบเขตของหน่วยการแปล การแบ่งส่วนใช้การการแจงโครงสร้างแบบคร่าวๆ ซึ่งทำงานกับข้อความครั้งละภาษา การแบ่งส่วนข้อความใช้ในการหาส่วนของความที่ตรงกัน ถ้าหากผู้แปลแก้ไขการแบ่งให้ถูกต้องเอง ในการแปลเอกสารรุ่นต่อไปจะไม่พบข้อความที่ผู้แปลแบ่งส่วนเอง เนื่องจากโปรแกรมยังคงแบ่งส่วนข้อความตามแบบเดิมที่ผิดอยู่ ในการแปลผู้แปลมักจะแปลข้อความครั้งละประโยค อย่างไรก็ตามการแปลประโยคใดอาจจะขึ้นกับการแปลประโยคแวดล้อมด้วย
การหาส่วนของข้อความที่ตรงกัน
การหาส่วนของข้อความที่ตรงกันคือการหาส่วนของความที่ตรงกันระหว่างข้อความต้นฉบับและข้อความแปล โปรแกรมหาส่วนของข้อความที่ตรงกันควรมีความสามารถในการส่งข้อมูลกลับไปให้โปรแกรมการแบ่งข้อความเพื่อแก้ไขการแบ่งส่วนข้อความที่ไม่ถูกต้อง และขั้นตอนวิธีหาส่วนข้อความที่ตรงกันที่ดีควรมีความสามารถในการแก้ไขการแบ่งส่วนข้อความที่ไม่ถูกต้อง
การสกัดศัพท์เฉพาะทาง
การสกัดศัพท์เฉพาะทางมีข้อมูลนำเข้าคือพจนานุกรมที่มีอยู่ก่อน มากไปกว่าในการสกัดศัพท์ที่ไม่รู้จักมาก่อน โปรแกรมสกัดศัพท์สามารถการแจงโครงสร้างซึ่งใช้สถิติจากข้อความ

การส่งออก[แก้]

การส่งออกคือการสร้างเป็นไฟล์ข้อความภายนอกจากหน่วยความจำการแปล

หน้าที่แบบเชื่อมตรง[แก้]

ในระหว่างการแปล ประโยชน์หลักของหน่วยคำจำการแปลคือการใช้ค้นคืนส่วนของข้อความที่ตรงกัน ดังนั้นผู้แปลสามารถเลือกใช้ส่วนของความที่ตรงกันที่เหมาะสมที่สุด จากที่ค้นคืนได้จากหน่วยความจำการแปล หน่วยความจำการแปลควรแสดงทั้งส่วนของข้อความต้นฉบับและส่วนของข้อความแปลให้แก่ผู้แปล อีกทั้งควรชี้ส่วนที่เหมือนและแตกต่างกัน

การค้นคืน[แก้]

ในการค้นคืน หน่วยความจำการแปลจะจับคู่ส่วนของข้อความที่ตรงกันซึ่งอาจจะมีหลายส่วนข้อความ

การจับคู่แบบตรงไปตรงมา
เมื่อพูดตึงการจับคู่แบบตรงไปตรงมา ส่วนของข้อความต้นฉบับจะถูกเปรียบกับส่วนของข้อความต้นฉบับอื่นที่เก็บไว้ในหน่วยความจำการแปลโดยการเปรียบเทียบตัวอักษรต่อตัวอักษร ในการแปลประโยค หากจับคู่แบบตรงไปตรงมาได้หมายความว่าเคยแปลประโยคที่เหมือนกันมาก่อนแล้ว การจับคู่แบบตรงไปตรงมายังสามารถเรียกอีกอย่างว่า คู่ที่เหมือนกันร้อยละร้อย
การจับคู่บริบทแบบตรงไปตรงมา
การจับคู่บริบทแบบตรงไปตรงมาคือการจับคู่ส่วนของข้อความที่ปรากฏขึ้นในบริบทที่เหมือนกัน ได้แก่ ปรากฏในตำแหน่งเดียวกันของย่อหน้า บริบทมักจะระบุโดยประโยคแวดล้อมและคุณลักษณะ เช่น ชื่อไฟล์ของเอกสาร วันที่ และการกำหนดสิทธิในการใช้งาน
การจับคู่แบบกำกวม
การจับคู่แบบกำกวมคือการจับคู่ส่วนของข้อความที่ไม่ได้เหมือนกันร้อยละร้อย บางระบบกำหนดค่าความคล้ายว่าส่วนของข้อความต้องเหมือนกันร้อยละเท่าไหร่จึงจะเป็นคู่เหมือนกัน ค่าความคล้ายในการจับคู่แบบกำกวมนี้ไม่สามารถนำมาเปรียบเทียบกันได้ระหว่างระบบ ยกเว้นเสียแต่ว่าจะกำหนดวิธีที่แน่นอนในการคิดค่าความคล้าย

การปรับปรุงให้เป็นปัจจุบัน[แก้]

การปรับปรุงหน่วยความจำการแปลให้เป็นปัจจุบันจะทำเมื่อผู้แปลยอมรับการแปลที่เกิดขึ้น เมื่อการปรับปรุงขึ้น ก็จะมีความถามขึ้นว่าจะทำอย่างไรกับข้อมูลเดิมในฐานข้อมูลได้บ้าง หน่วยความจำการแปลสามารถปรับปรุงแก้ไข โดยการเปลี่ยนหรือลบรายการในหน่วยความจำการแปลได้

การแปลอัตโนมัติ[แก้]

หน่วยความจำการแปลสามารถค้นคืนและแทนที่ข้อความเดิมโดยข้อความที่แปลแล้วโดยไม่ต้องใช้ความช่วยเหลือจากผู้แปล

การใช้เครือข่าย[แก้]

การใช้เครือข่ายเชื่อมต่อระหว่างผู้แปลในระหว่างการแปลทำให้การแปลของผู้แปลคนหนึ่งปรากฏต่อผู้แปลคนอื่นๆ ด้วย มากไปกว่านั้นผู้แปลหลายคนยังสามารถแบ่งปันหน่วยความจำการแปลแก่กันก่อนที่จะถึงการแปลขั้นสุดท้าย ทำให้สามารถตรวจพบความผิดพลาดจากการแปลของผู้แปลคนเดียวและแก้ไขได้ง่าย

ดูเพิ่ม[แก้]