ข้ามไปเนื้อหา

คลังต้นไม้

จากวิกิพีเดีย สารานุกรมเสรี

คลังต้นไม้ (treebank) คือคลังข้อความที่ในแต่ละประโยคได้กำกับโครงสร้างวากยสัมพันธ์ โครงสร้างวากยสัมพันธ์มักจะแทนด้วยโครงสร้างต้นไม้ ซึ่งเป็นที่มาของคำว่าคลังต้น คลังต้นไม้สามารถใช้ในการศึกษาปรากฏการณ์ทางวากยสัมพันธ์ในภาษาศาสตร์เชิงคำนวณ หรือใช้ฝึกสอนและทดสอบโปรแกรมแจงประโยค

คลังต้นไม้มักจะสร้างบนคลังประโยคที่ได้กำกับชนิดของคำไว้แล้ว ในลักษณะเดียวกันคลังต้นไม้ก็สามารถใช้เป็นฐานในการกำกับข้อมูลทางความหมายหรือข้อมูลทางภาษาศาสตร์อื่นๆ

คลังต้นไม้สามารถสร้างนักภาษาศาสตร์โดยไม่ใช้เครื่องช่วยกำกับ หรืออาจจะสร้างแบบกึ่งอัตโนมัติโดยใช้โปรแกรมแจงประโยคช่วยกำกับและนักภาษาศาสตร์จึงทำการตรวจสอบและแก้ไขผลที่ได้จากการแจงประโยคก็ได้

คลังต้นไม้สามารถสร้างโดยมีพื้นฐานบนทฤษฎีที่แตกต่างกัน เช่น (BulTreeBank ใช้ทฤษฎี HPSG) แต่ส่วนมากแล้วการสร้างคลังต้นไม้มักจะพยายามให้ขึ้นอยู่กับทฤษฎีน้อยที่สุด (ใช้ได้กับหลายๆ ทฤษฎี) อย่างไรก็ตามคลังต้นไม้ก็ถูกแบ่งออกเป็น 2 กลุ่มใหญ่ๆ ได้แก่คลังต้นไม้แบบโครงสร้างวลี (ตัวอย่างเช่น คลังต้นไม้เพ็นน์ เก็บถาวร 2013-11-09 ที่ เวย์แบ็กแมชชีน) และ คลังต้นไม้แบบโครงสร้างดีเพนเดนซี (ตัวอย่างเช่น คลังต้นไม้ดีเพนเดนซีปราก).

โครงสร้างวากยสัมพันธ์ในคลังต้นไม้สามารถแทนได้หลายรูปแบบ ยกตัวอย่างเช่น การครอบวงเล็บอย่างง่ายบนไฟล์ข้อความ ดังเช่นในตัวอย่างต่อไปนี้ของคลังต้นไม้เพ็นน์ เก็บถาวร 2013-11-09 ที่ เวย์แบ็กแมชชีน:

(S (NP (NNP John))
   (VP (VBZ loves)
       (NP (NNP Mary)))
   (. .))

อ้างอิง[แก้]

แหล่งข้อมูลอื่น[แก้]