การทำเหมืองข้อความ

การทำเหมืองข้อความ (อังกฤษ: text mining) หรืออาจจะเรียกว่า "การค้นหาความรู้ในฐานข้อมูลเอกสาร" (Knowledge Discovery in Document Databases) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อความจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อความ คือ กระบวนการที่กระทำกับข้อความ (โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อความนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง หลักคณิตศาสตร์ หลักการประมวลเอกสาร (Document Processing) หลักการประมวลผลข้อความ (Text Processing) และหลักการประมวลผลภาษาธรรมชาติ (Natural Language Processing)

ความรู้ที่ได้จากการทำเหมืองข้อความ[แก้]

การสรุปเอกสารข้อความ (Document Summarization): เป็นการลดความซับซ้อนและขนาดของเอกสารข้อความโดยไม่ทำให้ความหมายหรือสาระสำคัญของข้อมูลเอกสารสูญเสียไป

การแบ่งประเภทเอกสารข้อความ (Document classification): จัดแบ่งประเภทของกลุ่มเอกสารข้อความออกเป็นคลาส โดยการใช้ชุดข้อมูลตัวอย่างของเอกสารข้อความที่เรียกว่า Training Set สำหรับสร้าง Classifier Model และทดสอบ Classifier Model ด้วย Test Set ขั้นตอนวิธี ได้แก่ Supervised Learning Neural Networks, C4.5 Decision Tree

การแบ่งกลุ่มเอกสารข้อความ (Document clustering): จัดแบ่งเอกสารข้อความออกเป็นกลุ่ม โดยใช้การวัดความคล้ายคลึงและความแตกต่างของคุณลักษณะของเอกสารข้อความ เพื่อนำไปใช้ประโยชน์ในด้านการข่าว ข้อมูลเอกสารจะถูกแปลงให้เป็นชุดข้อมูลตัวเลขโดยวิธีการ TF IDF โดยอาศัยวิธีการแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ (อังกฤษ: Vector Space Model) และการให้น้ำหนักคำ (อังกฤษ: Term Weighting)จากนั้นถึงใช้ขั้นตอนวิธีการแบ่งกลุ่มข้อมูล ได้แก่ K-Mean, Unsupervised Learning Neural Networks, Hierarchical Clustering

ขั้นตอนการทำเหมืองข้อความ[แก้]

ทำความเข้าใจปัญหา
ทำความเข้าใจข้อมูล
เตรียมข้อมูล (Text Corpus: Training set, Test set)
สร้างแบบจำลอง จากขั้นตอนวิธี
ประเมิน
นำไปใช้งาน

ดูเพิ่ม[แก้]

แหล่งข้อมูลอื่น[แก้]

KDnuggets - a portal for Data Mining, Knowledge Discovery, Genomic Mining, Web Mining
Data Mining whitepapers, webcasts and case studies
Open Directory Project - Data Mining websites
Knowledge Discovery from Large Database Research Group (KDL) เก็บถาวร 2006-06-19 ที่ เวย์แบ็กแมชชีน, มหาวิทยาลัยเกษตรศาสตร์
Knowledge Information & Data Management Laboratory (KIND) เก็บถาวร 2006-06-10 ที่ เวย์แบ็กแมชชีน, สถาบันเทคโนโลยีนานาชาติสิรินธร มหาวิทยาลัยธรรมศาสตร์
Data Mining & Data Exploration Laboratory (DME) เก็บถาวร 2005-02-06 ที่ เวย์แบ็กแมชชีน, สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง
เทคนิคการจำแนกประเภทเอกสาร (Document Classification) (ไทย)