การทำเหมืองข้อความ

จากวิกิพีเดีย สารานุกรมเสรี

การทำเหมืองข้อความ (อังกฤษ: text mining) หรืออาจจะเรียกว่า "การค้นหาความรู้ในฐานข้อมูลเอกสาร" (Knowledge Discovery in Document Databases) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อความจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อความ คือ กระบวนการที่กระทำกับข้อความ (โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อความนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง หลักคณิตศาสตร์ หลักการประมวลเอกสาร (Document Processing) หลักการประมวลผลข้อความ (Text Processing) และหลักการประมวลผลภาษาธรรมชาติ (Natural Language Processing)

ความรู้ที่ได้จากการทำเหมืองข้อความ[แก้]

การสรุปเอกสารข้อความ (Document Summarization)
เป็นการลดความซับซ้อนและขนาดของเอกสารข้อความโดยไม่ทำให้ความหมายหรือสาระสำคัญของข้อมูลเอกสารสูญเสียไป
การแบ่งประเภทเอกสารข้อความ (Document classification)
จัดแบ่งประเภทของกลุ่มเอกสารข้อความออกเป็นคลาส โดยการใช้ชุดข้อมูลตัวอย่างของเอกสารข้อความที่เรียกว่า Training Set สำหรับสร้าง Classifier Model และทดสอบ Classifier Model ด้วย Test Set ขั้นตอนวิธี ได้แก่ Supervised Learning Neural Networks, C4.5 Decision Tree
การแบ่งกลุ่มเอกสารข้อความ (Document clustering)
จัดแบ่งเอกสารข้อความออกเป็นกลุ่ม โดยใช้การวัดความคล้ายคลึงและความแตกต่างของคุณลักษณะของเอกสารข้อความ เพื่อนำไปใช้ประโยชน์ในด้านการข่าว ข้อมูลเอกสารจะถูกแปลงให้เป็นชุดข้อมูลตัวเลขโดยวิธีการ DF IDF โดยอาศัยวิธีการแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ (อังกฤษ: Vector Space Model) และการให้น้ำหนักคำ (อังกฤษ: Term Weighting)จากนั้นถึงใช้ขั้นตอนวิธีการแบ่งกลุ่มข้อมูล ได้แก่ K-Mean, Unsupervised Learning Neural Networks, Hierarchical Clustering

ขั้นตอนการทำเหมืองข้อความ[แก้]

  1. ทำความเข้าใจปัญหา
  2. ทำความเข้าใจข้อมูล
  3. เตรียมข้อมูล (Text Corpus: Training set, Test set)
  4. สร้างแบบจำลอง จากขั้นตอนวิธี
  5. ประเมิน
  6. นำไปใช้งาน

ดูเพิ่ม[แก้]

แหล่งข้อมูลอื่น[แก้]