ค่าเบี่ยงเบนมาตรฐาน

จากวิกิพีเดีย สารานุกรมเสรี
(เปลี่ยนทางจาก ส่วนเบี่ยงเบนมาตรฐาน)

ค่าเบี่ยงเบนมาตรฐาน หรือ ส่วนเบี่ยงเบนมาตรฐาน หรือ ความเบี่ยงเบนมาตรฐาน (อังกฤษ: standard deviation: s.d.) ในทางสถิติศาสตร์และความน่าจะเป็น เป็นการวัดการกระจายแบบหนึ่งของกลุ่มข้อมูล สามารถนำไปใช้กับการแจกแจงความน่าจะเป็น ตัวแปรสุ่ม ประชากร หรือมัลติเซต ค่าเบี่ยงเบนมาตรฐานมักเขียนแทนด้วยอักษรกรีกซิกมาตัวเล็ก (σ) นิยามขึ้นจากส่วนเบี่ยงเบนแบบ root mean square (RMS) กับค่าเฉลี่ย หรือนิยามขึ้นจากรากที่สองของความแปรปรวน

ค่าเบี่ยงเบนมาตรฐานคิดค้นโดย ฟรานซิส กาลตัน (Francis Galton) ในช่วงปลายคริสต์ทศวรรษ 1860 [1] เป็นการวัดการกระจายทางสถิติที่เป็นปกติทั่วไป ใช้สำหรับเปรียบเทียบว่าค่าต่างๆ ในเซตข้อมูลกระจายตัวออกไปมากน้อยเท่าใด หากข้อมูลส่วนใหญ่อยู่ใกล้ค่าเฉลี่ยมาก ค่าเบี่ยงเบนมาตรฐานก็จะมีค่าน้อย ในทางกลับกัน ถ้าข้อมูลแต่ละจุดอยู่ห่างไกลจากค่าเฉลี่ยเป็นส่วนมาก ค่าเบี่ยงเบนมาตรฐานก็จะมีค่ามาก และเมื่อข้อมูลทุกตัวมีค่าเท่ากันหมด ค่าเบี่ยงเบนมาตรฐานจะมีค่าเท่ากับศูนย์ นั่นคือไม่มีการกระจายตัว คุณสมบัติที่เป็นประโยชน์อย่างหนึ่งก็คือ ค่าเบี่ยงเบนมาตรฐานใช้หน่วยอันเดียวกันกับข้อมูล แต่กับความแปรปรวนนั้นไม่ใช่

เมื่อตัวอย่างของข้อมูลกลุ่มหนึ่งถูกเลือกมาจากประชากรทั้งหมด ค่าเบี่ยงเบนมาตรฐานของประชากรสามารถประมาณค่าได้จากค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างนั้น

นิยาม[แก้]

ค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่ม X มีการนิยามไว้ดังนี้

\begin{array}{lcl}
\sigma & = &\sqrt{\operatorname{E}((X - \operatorname{E}(X))^2)} =  \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2}  \\
 & = & \sqrt{\operatorname{Var}(X)}
\end{array}

เมื่อ E(X) หมายถึงค่าคาดหมายของ X (เป็นอีกความหมายหนึ่งของมัชฌิม) และ Var(X) หมายถึงความแปรปรวนของ X

แต่ก็ไม่ใช่ว่าตัวแปรสุ่มทุกตัวจะมีค่าเบี่ยงเบนมาตรฐาน ถ้าหากค่าคาดหมายไม่มีอยู่จริงหรือไม่นิยาม ตัวอย่างเช่น ค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่มภายใต้การแจกแจงโคชี (Cauchy distribution) จะไม่นิยาม เพราะว่า E(X) ก็ไม่นิยามเช่นกัน

ถ้าตัวแปรสุ่ม X มีพื้นฐานอยู่บนเซตข้อมูล x_1, ..., x_N ซึ่งสมาชิกเป็นจำนวนจริงและมีความน่าจะเป็นเท่ากัน ดังนั้นค่าเบี่ยงเบนมาตรฐานสามารถคำนวณได้จากสูตรข้างล่างนี้ อันดับแรกต้องคำนวณหาค่าเฉลี่ยของ X เสียก่อน ค่าเฉลี่ยเขียนแทนด้วย \overline{x} ซึ่งนิยามด้วยผลรวม (summation) ดังนี้

\overline{x} = \frac{1}{N}\sum_{i=1}^N x_i = \frac{x_1+x_2+\cdots+x_N}{N}

เมื่อ N คือจำนวนสมาชิกของเซตข้อมูล จากนั้นจึงสามารถคำนวณค่าเบี่ยงเบนมาตรฐานได้จาก

\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}

ในทางปฏิบัติ การคำนวณค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่มชนิดไม่ต่อเนื่องข้างต้น สามารถสรุปได้ดังนี้

  1. สำหรับแต่ละค่าของ x_i ให้คำนวณผลต่างของ x_i - \overline{x}
  2. นำผลต่างแต่ละตัวมายกกำลังสอง
  3. บวกผลลัพธ์ทั้งหมดเข้าด้วยกันแล้วหารด้วย N ค่าที่ได้นี้คือความแปรปรวน \sigma^2
  4. คำนวณหารากที่สองที่เป็นบวกของความแปรปรวน จะได้ค่าเบี่ยงเบนมาตรฐาน

นอกจากนั้นสูตรดังกล่าวสามารถดัดแปลงให้เป็นอีกรูปแบบหนึ่งได้ดังนี้

\sigma = \sqrt{\frac{1}{N} \left(\sum_{i=1}^N x_i^2 - N\overline{x}^2\right)}

ซึ่งความเท่ากันของทั้งสองสูตร สามารถพิสูจน์ได้ด้วยความรู้ทางพีชคณิต

\begin{align}
\sum_{i=1}^N (x_i - \overline{x})^2 & = {} \sum_{i=1}^N (x_i^2 - 2 x_i\overline{x} + \overline{x}^2) \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - \left(2 \overline{x} \sum_{i=1}^N x_i\right) + N\overline{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - 2 \overline{x} (N\overline{x}) + N\overline{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - 2N\overline{x}^2 + N\overline{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - N\overline{x}^2
\end{align}

การประมาณค่าเบี่ยงเบนมาตรฐานของประชากร[แก้]

ในความเป็นจริง การคำนวณหาค่าเบี่ยงเบนมาตรฐานของประชากรทั่วทั้งหมดนั้น อาจไม่สามารถทำให้เกิดขึ้นจริงได้ เว้นแต่ในกรณีเฉพาะเช่นการทดสอบมาตรฐาน (standardized test) ซึ่งทุกสมาชิกของประชากรจะถือว่าเป็นกลุ่มตัวอย่างทั้งหมด แต่ในกรณีส่วนใหญ่ ค่าเบี่ยงเบนมาตรฐานจะถูกคาดคะเนจากจากส่วนเบี่ยงเบนของตัวอย่างกลุ่มหนึ่งที่มาจากประชากร การวัดที่มักถูกใช้เป็นปกติทั่วไปคือ ค่าเบี่ยงเบนมาตรฐานของตัวอย่าง (sample standard deviation) ซึ่งนิยามโดย

s = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \overline{x})^2}

เมื่อ \{ x_1, x_2, ..., x_N \} คือตัวอย่างและ \overline{x} คือค่าเฉลี่ยของตัวอย่าง ตัวส่วน N − 1 คือองศาเสรี (degrees of freedom) ของเวกเตอร์ (x_1-\overline{x}, ..., x_N-\overline{x})

เหตุผลของการนิยามเช่นนี้คือ s^2 เป็นตัวประมาณค่าไม่เอนเอียง (unbiased estimator) สำหรับความแปรปรวน \sigma^2 บนประชากรที่เป็นพื้นฐาน ถ้าหากความแปรปรวนนั้นมีค่า และค่าต่างๆ ของตัวอย่างได้รับการสุ่มออกมาโดยอิสระต่อกัน อย่างไรก็ตาม s ไม่ใช่ตัวประมาณค่าไม่เอนเอียงของ σ แต่เป็นการประเมินค่าที่ต่ำกว่าค่าเบี่ยงเบนมาตรฐานของประชากร และถึงแม้ว่าตัวประมาณค่าไม่เอนเอียงของ σ จะสามารถทราบได้เมื่อตัวแปรสุ่มมีการแจกแจงปกติ แต่สูตรดังกล่าวจะซับซ้อนขึ้นและมีการปรับแต่งตัวเลข ยิ่งกว่านั้นความไม่เอนเอียงก็ไม่ได้เป็นที่ต้องการเสมอไป

ตัวประมาณค่าอีกแบบหนึ่งบางครั้งก็ถูกใช้เหมือนสูตรเดิม

\sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}

รูปแบบนี้จะทำให้เกิดค่าคลาดเคลื่อนประเภท mean squared error น้อยกว่าตัวประมาณค่าไม่เอนเอียง และเป็นการประมาณความควรจะเป็นสูงสุด (maximum likelihood) เมื่อการกระจายของประชากรนั้นเป็นการแจกแจงปกติ

ค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่มชนิดต่อเนื่อง[แก้]

การแจกแจงต่อเนื่อง (continuous distribution) มักจะเป็นการให้สูตรมาเพื่อคำนวณหาค่าเบี่ยงเบนมาตรฐานเป็นฟังก์ชันของพารามิเตอร์ของการแจกแจง ในกรณีทั่วไปค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่มชนิดต่อเนื่อง X โดยมี p(x) เป็นฟังก์ชันความหนาแน่นของความน่าจะเป็น (probability density function) สามารถคำนวณได้จาก

\sigma = \sqrt{\int (x-\mu)^2 \, p(x) \, dx}

เมื่อ

\mu = \int x \, p(x) \, dx

คุณสมบัติของค่าเบี่ยงเบนมาตรฐาน[แก้]

  • \operatorname{Stdev}(X + c) = \operatorname{Stdev}(X)
  • \operatorname{Stdev}(cX) = c \ \operatorname{Stdev}(X)
  • \operatorname{Stdev}(X + Y) = \sqrt{\operatorname{Var}(X) + \operatorname{Var}(Y) + 2 \operatorname{Covar}(X, Y)}

เมื่อ c เป็นค่าคงตัว และ Covar(X, Y) คือความแปรปรวนร่วมเกี่ยว (covariance) ของตัวแปรสุ่ม X และ Y

อ้างอิง[แก้]

แหล่งข้อมูลอื่น[แก้]