แบบจำลองปริภูมิเวกเตอร์

จากวิกิพีเดีย สารานุกรมเสรี

แบบจำลองปริภูมิเวกเตอร์ (อังกฤษ: Vector Space Model: VSM) [1] และการให้น้ำหนักคำ (อังกฤษ: Term Weighting) เป็นหนึ่งในวิธีการแทนเอกสารที่ไม่มีโครงสร้าง (อังกฤษ: Unstructured Text Document) ด้วยแบบจำลองเวกเตอร์สเปซ โดยกำหนดให้เอกสารแต่ละฉบับเปรียบเสมือนเวกเตอร์ของคำ ขนาดของเวกเตอร์ขึ้นอยู่กับจำนวนของคำที่ปรากฏอยู่ในเอกสารฉบับนั้น กำหนดให้ Wik คือน้ำหนักของคำ K ที่ปรากฏในเอกสารฉบับที่ i เวกเตอร์สำหรับเอกสาร Di เขียนแทนด้วย Di = (Wi1, Wi2,…, Wit) ซึ่ง t คือจำนวนของคำที่ไม่ซ้ำกัน ในชุดของเอกสารทั้งหมด ดังนั้นในช่องว่าง (อังกฤษ: Space) ของเอกสารชุดหนึ่งจะมีมิติเท่ากับ t -มิติ เช่นเวกเตอร์ของเอกสารใน 3 มิติ แสดงได้ดังภาพที่ 1

ภาพที่ 1 เวกเตอร์ของเอกสารใน 3 มิติ

อ้างอิง[แก้]

  1. Raghavan, V.V. and S.K.M. Wong. 1986. A critical analysis of vector space model for information retrieval. Journal of the American Society for Information Science. 37(5): 279-87.