ข้ามไปเนื้อหา

การเคลื่อนลงตามความชันแบบเฟ้นสุ่ม

จากวิกิพีเดีย สารานุกรมเสรี
ตัวอย่างกราฟที่แสดงการลดลงของค่าฟังก์ชันเป้าหมายโดยใช้มินิแบตช์ในวิธีการเคลื่อนลงตามความชันแบบเฟ้นสุ่ม

การเคลื่อนลงตามความชันแบบเฟ้นสุ่ม (stochastic gradient descent) เป็น ขั้นตอนวิธีแบบสุ่มสำหรับปัญหาการหาค่าเหมาะที่สุดโดยการทำซ้ำอย่างต่อเนื่อง วิธีนี้ปรับปรุงมาจากวิธีการเคลื่อนลงตามความชันแบบดั้งเดิม ซึ่งเป็นวิธีการเรียนรู้โดยอาศัยชุดข้อมูลทั้งหมด การจะใช้วิธีนี้ได้ฟังก์ชันเป้าหมายจำเป็นต้องอยู่ในรูปที่หาอนุพันธ์ได้

แนวคิด

[แก้]

พิจารณาปัญหาการทำให้ค่าฟังก์ชันเป้าหมายในรูปแบบของผลรวมด้านล่างมีค่าน้อยที่สุด

เป้าหมายของเราคือการหาค่าพารามิเตอร์ ที่ทำให้ Q(w) มีค่าน้อยที่สุด โดยวิธีดั้งเดิมแล้ว จะใช้เป็นข้อมูลฝึกตัวที่ i

ในสถิติศาสตร์ดั้งเดิม ปัญหาการลดผลรวมจะปรากฏในปัญหาค่ากำลังสองน้อยสุด ปัญหาการประมาณภาวะน่าจะเป็นสูงสุด เป็นต้น ในกรณีทั่วไป ตัวประมาณค่าที่ลดผลรวมให้เหลือน้อยที่สุดเรียกว่าค่าประมาณ M อย่างไรก็ตาม สำหรับปัญหาการประมาณภาวะน่าจะเป็นสูงสุด เป็นที่ทราบกันมานานแล้วว่าแม้แต่เมื่อต้องการแก้ปัญหาเฉพาะจุดก็มีข้อจำกัดเข้มงวดมากแล้ว ดังในตัวอย่างของโทมัส เฟอร์กูสัน[1] ดังนั้น นักทฤษฎีสถิติสมัยใหม่จึงมักพิจารณาจุดนิ่ง (จุดที่อนุพันธ์กลายเป็นศูนย์) ของฟังก์ชันภาวะน่าจะเป็นสูงสุด

ปัญหาการทำให้ผลรวมต่ำสุดยังปรากฏในปัญหาการทำให้ความเสี่ยงต่ำที่สุดเชิงประจักษ์ ด้วย ถ้าให้ค่า เป็นค่าข้อมูลฝึกตัวที่ i แล้ว Q(w) คือค่าการสูญเสียเชิงประจักษ์

เมื่อทำให้ค่าฟังก์ชัน Q ข้างต้นเหลือน้อยที่สุด วิธีการเคลื่อนลงตามความชันแบบดั้งเดิม (การเรียนรู้แบบกลุ่ม) จะทำซ้ำการวนซ้ำดังนี้

โดย เรียกว่าเป็นขนาดขั้นบันได ใน การเรียนรู้ของเครื่อง เรียกอีกอย่างว่า อัตราการเรียนรู้

หากการแจกแจงความน่าจะเป็นเป็น เป็นการแจกแจงแบบเลขชี้กำลังที่มีพารามิเตอร์ตัวเดียว บางครั้งผลรวมของความชันสามารถคำนวณได้ด้วยการคำนวณเพียงเล็กน้อย แต่ก็มีกรณีที่จำเป็นต้องคำนวณความชันทีละตัวแล้วจึงคำนวณผลรวมจำนวนมาก ในกรณีเช่นนี้ ปริมาณการคำนวณต่อการวนซ้ำแต่ละครั้งสามารถลดลงได้โดยการคำนวณแค่เพียงส่วนหนึ่งของผลรวม แทนที่จะคำนวณผลรวมทั้งหมด วิธีนี้มีประสิทธิภาพสำหรับปัญหาการเรียนรู้ของเครื่องขนาดใหญ่มาก[2]

อ้างอิง

[แก้]
  1. Ferguson, Thomas S. (1982). "An inconsistent maximum likelihood estimate". Journal of the American Statistical Association. 77 (380): 831–834. doi:10.1080/01621459.1982.10477894. JSTOR 2287314.
  2. Bottou, Léon; Bousquet, Olivier (2008). The Tradeoffs of Large Scale Learning. Advances in Neural Information Processing Systems. Vol. 20. pp. 161–168.