ไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์

ไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์ (Kullback–Leibler divergence) หรือเรียกย่อว่า ไดเวอร์เจนซ์เคแอล (KL divergence) เป็นมาตรวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็น 2 ครั้ง

ค่านี้มีการใช้งานในทฤษฎีความน่าจะเป็น และ ทฤษฎีสารสนเทศ และมีชื่อเรียกอื่นอีกหลายชื่อ เช่น

ไดเวอร์เจนซ์ข้อมูล (information divergence)
ไดเวอร์เจนซ์ไอ (I divergence)^[1]
อัตราการขยายข้อมูล (information gain)
เอนโทรปีสัมพัทธ์ (relative entropy)

นอกจากนี้ยังมีชื่อเรียกว่า ระยะทางคัลแบ็ก–ไลบ์เลอร์ ด้วย อย่างไรก็ตาม หน่วยวัดนี้ไม่เป็นไปตามนิยามความหมายของระยะทาง ดังนั้นจึงไม่ใช่ระยะทางจริงในแง่คณิตศาสตร์

ในการใช้งานจริง มักจะทำการคำนวณไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์สำหรับการแจกแจงความน่าจะเป็น "ที่แท้จริง" $P$ และการแจกแจงความน่าจะเป็นอื่นๆ $Q$ ตัวอย่างเช่นให้ $P$ เป็นข้อมูล, ค่าที่สังเกตได้, การแจกแจงความน่าจะเป็นที่คำนวณได้อย่างแม่นยำ ฯลฯ ส่วน $Q$ เป็นค่าทางทฤษฎี ค่าแบบจำลอง ค่าที่ทำนายของ $P$ เป็นต้น

แนวคิดนี้ถูกใช้ครั้งแรกในปี 1951 โดย โซโลมอน คัลแบ็ก (Solomon Kullback) และ ริชาร์ด ไลบ์เลอร์ (Richard Leibler) เพื่อพิจารณาความแตกต่างระหว่างการแจกแจง 2 แบบ แนวคิดนี้แตกต่างจาก ไดเวอร์เจนซ์ ในการวิเคราะห์เวกเตอร์

ไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์ไม่เพียงแต่ถูกนิยามสำหรับการแจกแจงแบบไม่ต่อเนื่องเท่านั้น แต่ยังรวมถึงการแจกแจงแบบต่อเนื่องด้วย และไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์สำหรับการแจกแจงแบบต่อเนื่องจะไม่เปลี่ยนค่าไปเนื่องจากการแปลงตัวแปร ดังนั้นจึงอาจกล่าวได้ว่าเป็นมูลฐานมากกว่าปริมาณอื่นๆ ในทฤษฎีสารสนเทศ เช่น เอนโทรปีของข้อมูล ซึ่งไม่ได้นิยามไว้ในส่วนที่เกี่ยวกับความน่าจะเป็นแบบไม่ต่อเนื่อง และยังเปลี่ยนแปลงไปเมื่อมีการแปลงตัวแปร

คำนิยาม

ให้ $P$ และ $Q$ มีการแจกแจงแบบไม่ต่อเนื่องค่าไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์สำหรับ $P$ และ $Q$ จะนิยามได้ดังนี้

D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\log {\frac {P(i)}{Q(i)}}=\mathbb {E} _{P}\left[\log {\frac {P(i)}{Q(i)}}\right]

โดยที่ $P (i)$ และ $Q (i)$ คือความน่าจะเป็นที่ค่าของตัวแปรสุ่มตามการแจกแจงความน่าจะเป็น $P$ และ $Q$ จะเป็น $i$ ตามลำดับ

ส่วนในกรณีที่ $P$ และ $Q$ เป็นการแจกแจงความน่าจะเป็นแบบต่อเนื่อง จะนิยามดังนี้

D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\log {\frac {p(x)}{q(x)}}\;dx=\mathbb {E} _{P}\left[\log {\frac {p(x)}{q(x)}}\right]

ในที่นี้ $p$ และ $q$ เป็นฟังก์ชันความหนาแน่นของความน่าจะเป็นของ $P$ และ $Q$ ตามลำดับ

หรือโดยทั่วไปแล้ว ในกรณีที่ $P$ กับ $Q$ เป็น หน่วยวัดความน่าจะเป็นบนเซตที่วัดได้ $X$ และ $P$ กับ $Q$ มี ความต่อเนื่องสัมบูรณ์ต่อมาตรวัด $μ$ จะสามารถนิยามได้ว่า

D_{\mathrm {KL} }(P\|Q)=\int _{X}{\frac {dP}{d\mu }}\log {\frac {dP/d\mu }{dQ/d\mu }}\;d\mu

โดนในที่นี้ $d P / d μ$ และ $d Q / d μ$ เป็นค่าอนุพันธ์ราดอน–นีโกดิม (Radon–Nikodym derivative)

อ้างอิง

↑ Csiszar, I (February 1975). "I-Divergence Geometry of Probability Distributions and Minimization Problems". Ann. Probab. 3 (1): 146–158. doi:10.1214/aop/1176996454.

[Csiszar-1] Csiszar, I (February 1975). "I-Divergence Geometry of Probability Distributions and Minimization Problems". Ann. Probab. 3 (1): 146–158. doi:10.1214/aop/1176996454.

[1]