ผู้ใช้:Motarkratom/Silhouette (clustering)

จากวิกิพีเดีย สารานุกรมเสรี

Silhouette หมายถึงวิธีการตีความและการตรวจสอบความสอดคล้องภายใน กลุ่มข้อมูล (cluster) เทคนิคนี้แสดงภาพกราฟิก (ที่รวบรัด กระชับ) ว่าแต่ละวัตถุได้รับการจำแนก แยกแยะ/จัดประเภทได้ดีเพียงใด [1]

ค่า Silhouette เป็นตัววัดความคล้ายคลึงของวัตถุ (object) กับคลัสเตอร์ของตัวเอง (ที่เกาะกลุ่มกัน) เมื่อเทียบกับคลัสเตอร์อื่นๆ (ที่แยกออกจากกัน) ค่า Silhouette มีช่วงตั้งแต่ − 1 ถึง +1 โดยที่ค่าสูง (high value) แสดงว่าวัตถุนั้นถูกจับคู่กับคลัสเตอร์ของตัวเองได้อย่างดี และจับคู่ได้ไม่ดีกับคลัสเตอร์ที่อยู่ใกล้เคียง ( neighboring clusters) ถ้าวัตถุส่วนใหญ่มีค่า Silhouette สูง แล้ว การกำหนดค่าการทำคลัสเตอร์ก็มีความเหมาะสม หากหลายจุดมีค่า Silhouette ที่ต่ำหรือมีค่าเป็นลบ แล้ว การกำหนดค่าการทำคลัสเตอร์ดังกล่าวอาจมีคลัสเตอร์จำนวนมากเกินไปหรือน้อยเกินไป

Silhouetteสามารถคำนวณได้ด้วยการวัด ระยะทาง เช่น ระยะทางแบบยุคลิด หรือ ระยะทางแมนแบบฮัตตัน

บทนิยาม[แก้]

แผนภูมิแสดงค่าของ Silhouette ของสัตว์สามประเภทจากชุดข้อมูลของสวนสัตว์ที่จัดทำด้วย Orange data mining ด้านล่างของแผนภูมิแสดงค่า (แต้ม) Silhouette ที่ระบุว่าปลาโลมาและปลา porpoise อยู่นอกกลุ่มของสัตว์เลี้ยงลูกด้วยนม

สมมติว่า ข้อมูลถูกจัดกลุ่มโดยใช้เทคนิคใดเทคนิคหนึ่ง เช่น k-mean ซึ่งแบ่งชุดข้อมูลดังกล่าวออกเป็น กลุ่ม

สำหรับ จุดข้อมูล ใดๆ ในคลัสเตอร์ ( ในทางคณิตศาสตร์เขียนแทนด้วย สัญลักษณ์ ), กำหนดให้

เป็นระยะห่างเฉลี่ยระหว่าง จุดข้อมูล และจุดข้อมูลอื่นๆ ทั้งหมดในคลัสเตอร์เดียวกัน โดยที่ คือจำนวนแต้ม (ค่า Silhouette) ที่จุดข้อมูลเป็นส่วนหนึ่งของคลัสเตอร์ , และ คือระยะห่างระหว่างจุดข้อมูล และ ในคลัสเตอร์ (ทั้งนี้ เราหารด้วย เพราะเราไม่นำระยะทางของ เข้ารวมผลรวมดังกล่าว เนื่องจาก เป็นระยะทางระหว่างจากจุด และ ) เราสามารถตีความ ได้ในลักษณะที่เป็นตัววัดซึ่งบ่งบอกว่าการกำหนด ไปให้กับคลัสเตอร์ได้ดีเพียงใด (ยิ่ง มีค่าน้อยแสดงว่าการกำหนดดังกล่าวจะยิ่งดี)

จากนั้น เรากำหนดให้ ค่าเฉลี่ยความต่าง (mean dissimilarity) ของจุด ไปยังบางคลัสเตอร์ เป็นค่าเฉลี่ยของระยะทางจาก ไปยังทุกจุดใน (เมื่อ )

สำหรับแต่ละจุดข้อมูล เรากำหนดให้

เป็นค่าระยะทางเฉลี่ยที่เล็กที่สุด ( ในสูตรของ หมายถึง minimum) ​​ของ ไปยังทุกๆ จุดในคลัสเตอร์อื่นๆ ซึ่ง ไม่ได้เป็นสมาชิกอยู่ในคลัสเตอร์ นั่น ทั้งนี้ เราจะเรียก คลัสเตอร์ที่มีค่าเฉลี่ยความต่างน้อยที่สุด (smallest mean dissimilarity) ว่า "neighboring cluster" ของ เพราะเป็นคลัสเตอร์ที่เหมาะสมที่สุดที่อยู่ถัดไปสำหรับจุด

ต่อไป เรากำหนดค่า Silhouette ของจุดข้อมูล ให้อยู่ในรูปของ

, เมื่อ

และ

, เมื่อ

ซึ่งสามารถเขียนใหม่ให้อยู่ในรูปของ

ซึ่งจากการกำหนดข้างต้น จะเห็นได้ชัดว่า

ทั้งนี้ สังเกตได้ว่า ค่าของ ไม่ได้กำหนดไว้อย่างชัดเจนสำหรับคลัสเตอร์ที่มีขนาดเท่ากับ 1 ซึ่งในกรณีนี้ เราให้ โดยถือเป็นการเลือกกลางๆ ในแง่ที่ว่าค่าดังกล่าวอยู่ที่จุดกึ่งกลางของ -1 และ 1 ซึ่งจริงๆ เราสามารถเลือกเป็นค่าใดก็ได้ [1]

สำหรับ ให้ใกล้เคียงกับ 1 ซึ่งเราต้องการให้ น้อยกว่า มากๆ ( ) เนื่องจาก เป็นตัววัดความไม่เหมือนกันของ ที่อยู่ในคลัสเตอร์ของตัวเอง ซึ่งค่า น้อยๆ หมายความว่าเข้ากันได้ดี นอกจากนี้ ค่าของ ซึ่งมีค่ามากๆ หมายความว่า เข้ากันไม่ได้กับคลัสเตอร์ที่อยู่ใกล้เคียง ดังนั้น ค่า ที่ใกล้ๆ กับ 1 หมายความว่า ข้อมูลดังกล่าวมีการจัดกลุ่มอย่างเหมาะสม ด้วยหลักการเดียวกัน ถ้า ใกล้เคียงกับ -1 แล้ว เราจะเห็นว่า จะเหมาะสมกว่าหากจัดกลุ่มในคลัสเตอร์ใกล้เคียง หากค่าของ ใกล้ๆ กับศูนย์ หมายความว่า จุดข้อมูลนั้นอยู่บนเส้นขอบของสองคลัสเตอร์ (natural clusters)

ความหมายของ สำหรับทุกจุดของคลัสเตอร์คือการวัดว่าจุดทั้งหมดในคลัสเตอร์หนาแน่นแค่ไหน ดังนั้นค่าเฉลี่ย สำหรับข้อมูลทั้งหลายของชุดข้อมูลทั้งหมดเป็นการวัดว่าข้อมูลได้รับการจัดกลุ่มอย่างเหมาะสมเพียงใด หากมีคลัสเตอร์มากเกินไปหรือน้อยเกินไป ซึ่งอาจเกิดขึ้นได้เมื่อมีเลือกค่า ที่ไม่ดี สำหรับอัลกอริธึมการจัดกลุ่ม (เช่น: k-means ) คลัสเตอร์บางกลุ่มมักจะแสดงค่า Silhouette ที่แคบกว่าส่วนที่เหลือ ดังนั้น กราฟและความหมายของ Silhouette อาจใช้บ่งบอกถึงจำนวนของคลัสเตอร์ภายในชุดข้อมูล นอกจากนี้ยังสามารถเพิ่มโอกาสที่ Silhouette จะถูกขยายให้มากที่สุดที่ระบุถึงจำนวนคลัสเตอร์ที่ถูกต้องด้วยการปรับขนาดข้อมูลใหม่โดยใช้ feature weights ที่มีลักษณะเฉพาะเจาะจงสำหรับแต่ละคลัสเตอร์ [2]

Kaufman และคณะฯ เสนอ silhouette coefficient สำหรับค่าสูงสุดของค่าเฉลี่ย สำหรับข้อมูลทั้งหมดของข้อมูลทั้งชุดในรูปของ [3]

เมื่อ หมายถึงค่าเฉลี่ย สำหรับข้อมูลทั้งหมดของข้อมูลทั้งชุดที่ใช้สำหรับจำนวนของ คลัสเตอร์

See also[แก้]

References[แก้]

 

  1. 1.0 1.1 Peter J. Rousseeuw (1987). "Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis". Computational and Applied Mathematics. 20: 53–65. doi:10.1016/0377-0427(87)90125-7.
  2. R.C. de Amorim, C. Hennig (2015). "Recovering the number of clusters in data sets with noise features using feature rescaling factors". Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039.
  3. Leonard Kaufman; Peter J. Rousseeuw (1990). Finding groups in data : An introduction to cluster analysis. Hoboken, NJ: Wiley-Interscience. p. 87. doi:10.1002/9780470316801. ISBN 9780471878766.