การให้น้ำหนักคำ

จากวิกิพีเดีย สารานุกรมเสรี
Jump to navigation Jump to search

การให้น้ำหนักคำ (อังกฤษ: term weighting) หรือการกำหนดน้ำหนักคำ[1] เป็นวิธีการให้น้ำหนักสำหรับคำที่มีความสำคัญหรือใช้เป็นตัวแทนของเอกสารที่ควรจะปรากฏอยู่เป็นจำนวนมากในเนื้อหาของเอกสารเฉพาะฉบับนั้น และปรากฏอยู่น้อยในชุดของเอกสารที่เหลือทั้งหมด แต่ถ้าคำนั้นปรากฏเป็นจำนวนมากในทุก ๆ เอกสาร แสดงว่าคำดังกล่าวไม่สามารถเป็นตัวแทนของเอกสารใด ๆ ได้ ซึ่งคำเหล่านั้นเรียกว่าคำหยุด (อังกฤษ: stop word) เช่น a, and, the เป็นต้น ดังนั้นการให้น้ำหนักคำ ๆ หนึ่งในเอกสารฉบับหนึ่งจะพิจารณาจากความถี่ของคำ (อังกฤษ: Term Frequency) ที่ปรากฏในเอกสารนั้นและจำนวนของเอกสารทั้งหมดที่มีคำ ๆ นั้นปรากฏอยู่ วิธีการให้น้ำหนักของคำวิธีหนึ่งคือ TF IDF (อังกฤษ: Term Frequency. Inverted Document Frequency)

อ้างอิง[แก้]

  1. Salton, G. and C. Buckley. 1988. Term-weighting approaches in automatic text retrieval. Information Processing and Management. 24(5): 513-523.