แบบจำลองภาษาขนาดใหญ่
แบบจำลองภาษาขนาดใหญ่ (large language model, LLM) เป็นแบบจำลองภาษาที่ประกอบขึ้นจากโครงข่ายประสาทเทียมที่มีพารามิเตอร์จำนวนมาก (หลายสิบล้านถึงพันล้าน) ที่ สามารถทำการเรียนรู้แบบสอนตัวเอง หรือทำการเรียนรู้แบบกึ่งมีผู้สอน โดยใช้ข้อความที่ไม่มีฉลากกำกับจำนวนมาก[1]
แบบจำลองภาษาขนาดใหญ่เริ่มปรากฏขึ้นประมาณปี 2018 และได้แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในงานที่หลากหลาย เป็นตัวเปลี่ยนจุดสนใจของการวิจัยการประมวลภาษาธรรมชาติไปจากกระบวนทัศน์ก่อนหน้าที่มักใช้การเรียนรู้แบบมีผู้สอนสำหรับงานเฉพาะ แม้ว่าการประยุกต์ใช้แบบจำลองภาษาขนาดใหญ่จะประสบผลสำเร็จอย่างน่าทึ่ง การพัฒนาแบบจำลองภาษาขนาดใหญ่ยังอยู่ในช่วงเริ่มต้น และนักวิจัยจำนวนมากกำลังมีส่วนร่วมในการปรับปรุงแบบจำลองภาษาขนาดใหญ่[2]
แม้ว่าจะไม่มีคำจำกัดความที่เป็นทางการของคำว่าแบบจำลองภาษาขนาดใหญ่ แต่ก็มักจะหมายถึงแบบจำลองการเรียนรู้เชิงลึก ที่มีพารามิเตอร์นับล้านถึงพันล้านหรือมากกว่านั้นซึ่งได้รับการฝึกล่วงหน้าโดยคลังข้อความขนาดใหญ่ แบบจำลองภาษาขนาดใหญ่เป็นแบบจำลองการใช้งานทั่วไปที่มีความเป็นเลิศในงานต่าง ๆ มากมาย ซึ่งแตกต่างจากแบบจำลองที่ได้รับการฝึกสำหรับงานเฉพาะด้าน เช่น การวิเคราะห์ความรู้สึก, การรู้จำเอนทิตีที่มีชื่อ และ การให้เหตุผลทางคณิตศาสตร์[3] ความสามารถและขอบเขตของแบบจำลองภาษาขนาดใหญ่นั้นนอกจากจะมาจากความก้าวหน้าในการออกแบบแล้ว ยังได้มาจากปริมาณทรัพยากร (ข้อมูล ขนาดพารามิเตอร์ พลังการคำนวณ) [4] ปรากฎว่าแบบจำลองภาษาประสาทที่มีพารามิเตอร์จำนวนมากสามารถจับไวยากรณ์และความหมายของภาษามนุษย์ได้มาก เมื่อได้รับการฝึกฝนมาอย่างดีในงานง่าย ๆ อย่างการทำนายคำถัดไปในประโยค นอกจากนี้ แบบจำลองภาษาขนาดใหญ่ยังแสดงความรู้ทั่วไปเกี่ยวกับโลกและสามารถ "จดจำ" ข้อเท็จจริงจำนวนมากในระหว่างการฝึก
จากการวิเคราะห์อภิมานปี 2023 ซึ่งถือว่ามีความน่าเชื่อถือสูง มีนักวิจัยทั่วโลกที่ให้ความสนใจกับความคิดสร้างสรรค์ของแบบจำลองภาษาขนาดใหญ่ เราสามารถใช้แบบจำลองภาษาขนาดใหญ่เพื่อทำงานที่แบบจำลองภาษาขนาดเล็กไม่สามารถทำได้ นักวิชาการบางคนมองว่านี่เป็นความสร้างสรรค์ อย่างไรก็ตาม ก็มีคนโต้แย้งว่านี่เป็นผลจากการเลือกตัวชี้วัด ไม่ใช่ความสร้างสรรค์แต่อย่างใด ข้อโต้แย้งระบุว่าข้อได้เปรียบเชิงสร้างสรรค์ของแบบจำลองภาษาขนาดใหญ่อาจไม่สามารถมองเห็นได้หากเลือกตัวชี้วัดที่แตกต่างไป[5]
อ้างอิง
[แก้]- ↑ Goled, Shraddha (May 7, 2021). "Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ". Analytics India Magazine. สืบค้นเมื่อ 2023-05-13.
- ↑ "Responsible AI - Week 3". Coursera (ภาษาญี่ปุ่น). สืบค้นเมื่อ 2023-07-23.
- ↑ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H. (31 August 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research (ภาษาอังกฤษ). ISSN 2835-8856.
- ↑ Bowman, Samuel R. "Eight Things to Know about Large Language Models" (PDF).
{{cite journal}}
: Cite journal ต้องการ|journal=
(help) - ↑ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (2023). "Are Emergent Abilities of Large Language Models a Mirage?". doi:10.48550/ARXIV.2304.15004.
{{cite journal}}
: Cite journal ต้องการ|journal=
(help)