คลังข้อความ

จากวิกิพีเดีย สารานุกรมเสรี
ไบยังการนำทาง ไปยังการค้นหา

ในภาษาศาสตร์ คลังข้อความ (อังกฤษ: text corpus) คือข้อความปริมาณมากที่ได้จัดเก็บตามลำดับโครงสร้าง (ปัจจุบันนี้มักจะจัดเก็บและประมวลผลในรูปแบบอิเล็กทรอนิกส์) คลังข้อความสามารถจัดเก็บข้อความของภาษาเดียว (คลังข้อความภาษาเดียว) หรือจัดเก็บข้อความหลายภาษา (คลังข้อความหลายภาษา) คลังข้อความหลายภาษามักจะจัดอยู่ในรูปแบบพิเศษ สามารถมองเห็นส่วนของข้อความที่มีความหมายตรงกันได้ คลังข้อความชนิดนี้เรียกว่า "คล้งข้อความขนานระบุส่วนตรงกัน" ดังตัวอย่างด้านล่าง

เพื่อที่จะทำให้คลังข้อความมีประโยชน์ยิ่งขึ้นสำหรับการวิจัยทางภาษาศาสตร์ จึงมักมี "การกำกับ" ข้อมูลทางภาษาศาสตร์เพิ่มเติมลงในคลังข้อความ ตัวอย่างเช่น การกำกับชนิดของคำ ในการกำกับชนิดของคำทุกคำในคลังข้อความจะมีข้อมูลเพิ่มว่าเป็นคำชนิดใด เช่น นาม กริยา วิเศษณ์ หรืออื่นๆ โดยแทรกเข้าในคลังข้อความในรูปแบบข้อความธรรมดา ตัวอย่างอื่นๆ เช่น การกำกับข้อมูลวายกสัมพันธ์ลงในคลังข้อความอย่างเช่นที่ทำในคลังต้นไม้