ผลต่างระหว่างรุ่นของ "แบบจำลองปริภูมิเวกเตอร์"
เนื้อหาที่ลบ เนื้อหาที่เพิ่ม
Jinapattanah (คุย | ส่วนร่วม) หน้าใหม่: ===การแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ=== การแทนเอกสารด้วยแบ... |
Jinapattanah (คุย | ส่วนร่วม) |
||
บรรทัด 1: | บรรทัด 1: | ||
===การแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ=== |
===การแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ=== |
||
การแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ (Vector Space Model: VSM) <Ref> Normal 0 false false false MicrosoftInternetExplorer4 |
การแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ ({{lang-en|Vector Space Model}}: VSM) <Ref> Normal 0 false false false MicrosoftInternetExplorer4 |
||
Raghavan, V.V. and S.K.M. Wong. 1986. A critical analysis of vector space model for information retrieval. Journal of the American Society for Information Science. 37(5): 279-87.</Ref> และการให้[[น้ำหนักคำ]] (Term Weighting) เป็นหนึ่งในวิธีการแทนเอกสารที่ไม่มีโครงสร้าง (Unstructured Text Document) ด้วยแบบจำลอง[[เวกเตอร์สเปซ]] โดยกำหนดให้เอกสารแต่ละฉบับเปรียบเสมือนเวกเตอร์ของคำ ขนาดของ[[เวกเตอร์]]ขึ้นอยู่กับจำนวนของคำที่ปรากฏอยู่ในเอกสารฉบับนั้น กำหนดให้ ''W''<sub>''ik''</sub> คือน้ำหนักของคำ ''K'' ที่ปรากฏในเอกสารฉบับที่ ''i'' เวกเตอร์สำหรับเอกสาร ''D''<sub>''i''</sub> เขียนแทนด้วย ''D''<sub>''i''</sub> = (''W''<sub>''i1''</sub>, W<sub>''i2''</sub>,…, ''W''<sub>''it''</sub>) ซึ่ง t คือจำนวนของคำที่ไม่ซ้ำกัน ในชุดของเอกสารทั้งหมด ดังนั้นในช่องว่าง (Space) ของเอกสารชุดหนึ่งจะมีมิติเท่ากับ ''t'' -มิติ เช่นเวกเตอร์ของเอกสารใน 3 มิติ แสดงได้ดังภาพที่ 1 [[File:Vector3D.JPG|thumb|ภาพที่ 1 เวกเตอร์ของเอกสารใน 3 มิติ]] |
Raghavan, V.V. and S.K.M. Wong. 1986. A critical analysis of vector space model for information retrieval. Journal of the American Society for Information Science. 37(5): 279-87.</Ref> และการให้[[น้ำหนักคำ]] ({{lang-en|Term Weighting}}) เป็นหนึ่งในวิธีการแทนเอกสารที่ไม่มีโครงสร้าง ({{lang-en|Unstructured Text Document}}) ด้วยแบบจำลอง[[เวกเตอร์สเปซ]] โดยกำหนดให้เอกสารแต่ละฉบับเปรียบเสมือนเวกเตอร์ของคำ ขนาดของ[[เวกเตอร์]]ขึ้นอยู่กับจำนวนของคำที่ปรากฏอยู่ในเอกสารฉบับนั้น กำหนดให้ ''W''<sub>''ik''</sub> คือน้ำหนักของคำ ''K'' ที่ปรากฏในเอกสารฉบับที่ ''i'' เวกเตอร์สำหรับเอกสาร ''D''<sub>''i''</sub> เขียนแทนด้วย ''D''<sub>''i''</sub> = (''W''<sub>''i1''</sub>, W<sub>''i2''</sub>,…, ''W''<sub>''it''</sub>) ซึ่ง t คือจำนวนของคำที่ไม่ซ้ำกัน ในชุดของเอกสารทั้งหมด ดังนั้นในช่องว่าง ({{lang-en|Space}}) ของเอกสารชุดหนึ่งจะมีมิติเท่ากับ ''t'' -มิติ เช่นเวกเตอร์ของเอกสารใน 3 มิติ แสดงได้ดังภาพที่ 1 [[File:Vector3D.JPG|thumb|ภาพที่ 1 เวกเตอร์ของเอกสารใน 3 มิติ]] |
||
[[ผู้ใช้:Jinapattanah|Jinapattanah]] 18:49, 15 มกราคม 2555 (ICT) |
[[ผู้ใช้:Jinapattanah|Jinapattanah]] 18:49, 15 มกราคม 2555 (ICT) |
รุ่นแก้ไขเมื่อ 18:57, 15 มกราคม 2555
การแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ
การแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ (อังกฤษ: Vector Space Model: VSM) [1] และการให้น้ำหนักคำ (อังกฤษ: Term Weighting) เป็นหนึ่งในวิธีการแทนเอกสารที่ไม่มีโครงสร้าง (อังกฤษ: Unstructured Text Document) ด้วยแบบจำลองเวกเตอร์สเปซ โดยกำหนดให้เอกสารแต่ละฉบับเปรียบเสมือนเวกเตอร์ของคำ ขนาดของเวกเตอร์ขึ้นอยู่กับจำนวนของคำที่ปรากฏอยู่ในเอกสารฉบับนั้น กำหนดให้ Wik คือน้ำหนักของคำ K ที่ปรากฏในเอกสารฉบับที่ i เวกเตอร์สำหรับเอกสาร Di เขียนแทนด้วย Di = (Wi1, Wi2,…, Wit) ซึ่ง t คือจำนวนของคำที่ไม่ซ้ำกัน ในชุดของเอกสารทั้งหมด ดังนั้นในช่องว่าง (อังกฤษ: Space) ของเอกสารชุดหนึ่งจะมีมิติเท่ากับ t -มิติ เช่นเวกเตอร์ของเอกสารใน 3 มิติ แสดงได้ดังภาพที่ 1
Jinapattanah 18:49, 15 มกราคม 2555 (ICT)
อ้างอิง
- ↑ Normal 0 false false false MicrosoftInternetExplorer4 Raghavan, V.V. and S.K.M. Wong. 1986. A critical analysis of vector space model for information retrieval. Journal of the American Society for Information Science. 37(5): 279-87.