ข้ามไปเนื้อหา

ควอร์ไทล์

จากวิกิพีเดีย สารานุกรมเสรี

ในทางสถิติศาสตร์ ควอร์ไทล์ (อังกฤษ: quartile) เป็นชนิดของควอนไทล์ ซึ่งแบ่งจำนวนข้อมูลออกเป็น 4 ส่วน ประมาณเท่า ๆ กัน ข้อมูลต้องเรียงจากน้อยไปมากเพื่อคำนวณหาควอร์ไทล์ ควอร์ไทล์คือรูปแบบหนึ่งของสถิติเชิงอันดับ มีควอร์ไทล์ 3 ตัวที่แบ่งข้อมูลเป็นสี่ส่วนดังนี้

  • ควอร์ไทล์ที่ 1 (Q1) เป็นตัวเลขตรงกลางระหว่างจำนวนที่น้อยที่สุด (ค่าต่ำสุด อังกฤษ: minimum) และมัธยฐานของชุดข้อมูล อาจเรียกควอร์ไทล์นี้ได้ว่าควอร์ไทล์ล่าง (lower quartile) หรือ ควอนไทล์เชิงประจักษ์ที่ 25 (25th empirical quantile) เพราะ 25% ของข้อมูลทั้งหมดอยู่ไต้จุดนี้
  • ควอร์ไทล์ที่ 2 (Q2) เป็นมัธยฐานของชุดข้อมูล ดังนั้น 50% ของข้อมูลอยู่ใต้จุดนี้
  • ควอร์ไทล์ที่ 3 (Q3) เป็นตัวเลขตรงกลางระหว่างมัธยฐานและจำนวนที่มากที่สุด (ค่าสูงสุด อังกฤษ: maximum) ของชุดข้อมูล อาจเรียกควอร์ไทล์นี้ได้ว่าควอร์ไทล์บน (upper quartile) หรือ ควอนไทล์เชิงประจักษ์ที่ 75 (75th empirical quantile) เพราะ 75% ของข้อมูลทั้งหมดอยู่ไต้จุดนี้[1]

รวมถึงค่ามากสุด และค่าน้อยสุดของข้อมูล (ซี่งก็เป็นควอร์ไทล์ด้วย) ทั้ง 3 ควอร์ไทล์ที่ได้กล่าวไว้ข้างบนบอกการสรุปตัวเลข 5 ตัวของข้อมูล การสรุปนี้เป็นสิ่งสำคัญในสถิติศาสตร์ เพราะสามารถบ่งบอกข้อมูลได้ทั้งจุดศูนย์กลาง และการกระจาย การรู้ควอร์ไทล์ที่ 1 และควอร์ไทล์ที่ 3 บ่งบอกข้อมูลให้ทราบว่าข้อมูลมีการกระจายตัวมากแค่ไหน และชุดข้อมูลจะเบ้ไปทางไหนทางหนึ่ง เพราะว่าควอร์ไทล์นั้นแบ่งจำนวนข้อมูลเท่า ๆ กัน พิสัยระหว่างควอร์ไทล์ข้าง ๆ โดยปกติจะไม่เท่ากัน (ต.ย. โดยปกติ Q3-Q2Q2-Q1) พิสัยระหว่างควอร์ไทล์(IQR) ถูกนิยามไว้ว่าผลต่างระหว่างเปอร์เซนต์ไทล์ที่ 75 และ 25 หรือ Q3-Q1 ขณะที่ค่าต่ำสุดและค่าสูงสุดก็บอกการกระจายข้อมูล ควอร์ไทล์ที่ 1 และควอร์ไทล์ที่ 3 สามารถให้ข้อมูลที่ละเอียดขึ้นกับตำแหน่งของข้อมูลนั้น ๆ การมีอยู่ของค่าผิดปกติในข้อมูล และผลต่างของการกระจายระหว่างข้อมูลตรงกลาง 50% กับข้อมูลรอบนอก[2]

นิยาม

[แก้]
แผนภาพกล่อง (โดยมีควอร์ไทล์ และพิสัยระหว่างควอร์ไทล์) และ ฟังก์ชันความหนาแน่นของความน่าจะเป็น (pdf) ของประชากรปกติ N (0,1σ2)
สัญลักษณ์ ชื่อ นิยาม
Q1
แยก 25% ของข้อมูลที่น้อยกว่าจาก 75% ที่มากกว่า
Q2
แบ่งข้อมูลเป็นครึ่ง ๆ
Q3
แยก 25% ของข้อมูลที่มากกว่าจาก 75% ที่น้อยกว่า

วิธีการคำนวณ

[แก้]

การกระจายข้อมูลแบบไม่ต่อเนื่อง

[แก้]

สำหรับการกระจายข้อมูลแบบไม่ต่อเนื่อง ไม่มีวิธีหาควอร์ไทล์ที่ตายตัว[3]

วิธีที่ 1

[แก้]
  1. ใช้มัธยฐานในการเแบ่งข้อมูลที่เรียงแล้วเป็นครึ่ง ๆ
    • ถ้าข้อมูลที่เรียงแล้วจำนวนข้อมูลเป็นจำนวนคี่ ไม่นับมัธยฐาน (ค่าที่อยู่ตรงกลางในข้อมูลที่เรียงแล้ว) ทุกข้าง
    • ถ้าข้อมูลที่เรียงแล้วจำนวนข้อมูลเป็นจำนวนคู่ ให้แบ่งข้อมูลเป็นครึ่งเท่า ๆ กัน
  2. มัธยฐานของข้อมูลครึ่งล่างคือควอร์ไทล์ล่าง มัธยฐานของข้อมูลครึ่งบนคือควอร์ไทล์บน

วิธีนี้ถูกใช้โดย เครื่องคิดเลขแผนภาพกล่อง TI-83 และฟังก์ชัน "1-Var Stats" อีกทั้งสสวท. ก็นำวิธีนี้ไปใช้ในการสอนแผนภาพกล่อง

วิธีที่ 2

[แก้]
  1. ใช้มัธยฐานในการเแบ่งข้อมูลที่เรียงแล้วเป็นครึ่ง ๆ
    • ถ้าข้อมูลที่เรียงแล้วจำนวนข้อมูลเป็นจำนวนคี่ นับมัธยฐาน (ค่าที่อยู่ตรงกลางในข้อมูลที่เรียงแล้ว) ทุกข้าง
    • ถ้าข้อมูลที่เรียงแล้วจำนวนข้อมูลเป็นจำนวนคู่ ให้แบ่งข้อมูลเป็นครึ่งเท่า ๆ กัน
  2. มัธยฐานของข้อมูลครึ่งล่างคือควอร์ไทล์ล่าง มัธยฐานของข้อมูลครึ่งบนคือควอร์ไทล์บน

ค่าที่หาจากวิธีนี้สามารถเรียกได้ว่า "Tukey's hinge" ดูเพิ่มที่มิดฮินจ์

วิธีที่ 3

[แก้]
  1. ถ้าจำนวนข้อมูลที่มีเป็นจำนวนคู่ แล้ววิธีที่สามก็ทำเหมือนทั้งสองวิธีก่อนหน้า
  2. ถ้าจำนวนข้อมูลที่มีเป็นจำนวนคี่ (4n + 1) แล้วควอร์ไทล์ล่างคือ 25% ของค่าจำนวนที่n บวก 75% ของค่าจำนวนที่ (n+1) และ ควอร์ไทล์บนคือ 75% ของค่าจำนวนที่ (3n+1) บวก 25% ของค่าจำนวนที่ (3n+2)
  3. ถ้าจำนวนข้อมูลที่มีเป็นจำนวนคี่ (4n + 3) แล้วควอร์ไทล์ล่างคือ 75% ของค่าจำนวนที่ (n+1) บวก 25% ของค่าจำนวนที่ (n+2) และ ควอร์ไทล์บนคือ 25% ของค่าจำนวนที่ (3n+2) บวก 75% ของค่าจำนวนที่ (3n+3)

วิธีที่ 4

[แก้]

ถ้าเรามีชุดข้อมูลที่เรียงแล้ว เราสามารถคำนวณเพื่อหาควอนไทล์เชิงประจักษ์ที่ ได้ถ้า อยู่ในควอนไทล์ที่ ถ้าเรากำหนดให้ส่วนจำนวนเต็มของ โดย แล้วฟังก์ชันควอนไทล์เชิงประจักษ์คือ

เมื่อ และ [1]

เพื่อที่จะหาควอร์ไทล์ที่ 1, 2, 3 ของชุดข้อมูล เราก็หา , และ ตามลำดับ

ตัวอย่างที่ 1

[แก้]

ข้อมูลที่เรียงแล้ว: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

วิธีที่ 1 วิธีที่ 2 วิธีที่ 3 วิธีที่ 4
Q1 15 25.5 20.25 15
Q2 40 40 40 40
Q3 43 42.5 42.75 43

ตัวอย่างที่ 2

[แก้]

ข้อมูลที่เรียงแล้ว: 7, 12, 36, 39, 40, 41

จะสังเกตว่า ถ้าจำนวนข้อมูลเป็นจำนวนคู่ ทั้ง 3 วิธีแรกจะให้ผลที่เหมือนกัน

วิธีที่ 1 วิธีที่ 2 วิธีที่ 3 วิธีที่ 4
Q1 15 15 15 13
Q2 37.5 37.5 37.5 37.5
Q3 40 40 40 40.25

อ้างอิง

[แก้]
  1. 1.0 1.1 A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946–. London: Springer. 2005. pp. 234–238. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (ลิงก์)
  2. Knoch, Jessica (February 23, 2018). "How are Quartiles Used in Statistics?". Magoosh Statistics Blog. สืบค้นเมื่อ December 11, 2019.
  3. Hyndman, Rob J; Fan, Yanan (November 1996). "Sample quantiles in statistical packages". American Statistician. 50 (4): 361–365. doi:10.2307/2684934. JSTOR 2684934.