การสร้างที่เสริมด้วยการดึงข้อมูล
การสร้างที่เสริมด้วยการดึงข้อมูล (อังกฤษ: Retrieval-augmented generation หรือ RAG) เป็นเทคนิคที่ช่วยให้แบบจำลองภาษาขนาดใหญ่ สามารถค้นหาและนำข้อมูลใหม่จากแหล่งข้อมูลภายนอกมาร่วมประมวลผลได้[1] ด้วยเทคนิค RAG แบบจำลองภาษาจะทำการอ้างอิงชุดเอกสารที่ระบุไว้เป็นอันดับแรก ก่อนที่จะตอบคำถามของผู้ใช้ โดยเอกสารเหล่านี้จะช่วยเสริมข้อมูลนอกเหนือจากข้อมูลเดิมที่ใช้ฝึกฝนแบบจำลอง[2] กระบวนการนี้ช่วยให้แบบจำลองภาษาใช้ข้อมูลเฉพาะทางหรือข้อมูลที่เป็นปัจจุบันซึ่งไม่มีอยู่ในฐานข้อมูลการฝึกฝนเดิมได้[2] ตัวอย่างเช่น เทคนิคนี้ช่วยให้แชตบอตที่ทำงานบนฐานของแบบจำลองภาษาขนาดใหญ่สามารถเข้าถึงข้อมูลภายในองค์กร หรือสร้างคำตอบโดยอ้างอิงจากแหล่งข้อมูลที่มีความน่าเชื่อถือได้
การสร้างที่เสริมด้วยการดึงข้อมูลช่วยเพิ่มประสิทธิภาพให้กับแบบจำลองภาษาขนาดใหญ่ โดยการผนวกรวมการค้นหาข้อมูลเข้ามาก่อนที่จะทำการสร้างคำตอบ แตกต่างจากแบบจำลองภาษาขนาดใหญ่ทั่วไปที่ต้องพึ่งพาเพียงข้อมูลการฝึกฝนแบบคงที่ เทคนิค RAG จะดึงข้อความที่เกี่ยวข้องจากฐานข้อมูล เอกสารที่อัปโหลด หรือแหล่งข้อมูลบนเว็บมาใช้งาน[1] ตามรายงานของเว็บไซต์อาร์สเทคนิกา ระบุว่า 'โดยพื้นฐานแล้ว RAG เป็นวิธีการปรับปรุงประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ ด้วยการผสานกระบวนการทำงานของแบบจำลองเข้ากับการค้นหาบนเว็บหรือกระบวนการค้นหาเอกสารอื่น ๆ เพื่อช่วยให้แบบจำลองยึดโยงอยู่กับข้อเท็จจริง' วิธีการนี้ช่วยลดอาการประสาทหลอนของปัญญาประดิษฐ์[3] ซึ่งเคยเป็นสาเหตุให้แชตบอตอธิบายถึงนโยบายที่ไม่มีอยู่จริง หรือแนะนำคดีความทางกฎหมายที่ไม่มีอยู่จริงให้กับทนายความที่กำลังค้นหาข้อมูลอ้างอิงเพื่อสนับสนุนข้อโต้แย้งของตน[4]
นอกจากนี้ RAG ยังช่วยลดความจำเป็นในการฝึกฝนแบบจำลองภาษาขนาดใหญ่ใหม่ด้วยข้อมูลชุดใหม่ ซึ่งช่วยประหยัดทั้งต้นทุนด้านทรัพยากรการประมวลผลและต้นทุนทางการเงิน[1] นอกเหนือจากการเพิ่มประสิทธิภาพแล้ว RAG ยังช่วยให้แบบจำลองภาษาสามารถแนบแหล่งที่มาลงในคำตอบ เพื่อให้ผู้ใช้สามารถตรวจสอบแหล่งอ้างอิงดังกล่าวได้ สิ่งนี้ช่วยเพิ่มความโปร่งใสให้มากยิ่งขึ้น เนื่องจากผู้ใช้สามารถตรวจสอบเทียบเคียงเนื้อหาที่ค้นหามา เพื่อให้มั่นใจถึงความถูกต้องและความเกี่ยวข้องของข้อมูล
คำว่า RAG ถูกนำมาใช้ครั้งแรกในงานวิจัยเมื่อปี พ.ศ. 2563
ข้อจำกัดของการสร้างที่เสริมด้วยการดึงข้อมูลและแบบจำลองภาษาขนาดใหญ่
[แก้]แบบจำลองภาษาขนาดใหญ่สามารถให้ข้อมูลที่ไม่ถูกต้องได้ ตัวอย่างเช่น เมื่อกูเกิลสาธิตการใช้งานเครื่องมือแบบจำลองภาษา "กูเกิลบาร์ด" (ซึ่งต่อมาได้เปลี่ยนชื่อเป็น เจมิไน) เป็นครั้งแรก แบบจำลองดังกล่าวได้ให้ข้อมูลที่ผิดพลาดเกี่ยวกับกล้องโทรทรรศน์อวกาศเจมส์ เวบบ์ ซึ่งข้อผิดพลาดนี้มีส่วนทำให้มูลค่าหุ้นของบริษัทลดลงถึง $1 แสนล้านดอลลาร์สหรัฐ[4] แม้ว่าจะมีการนำเทคนิคการสร้างที่เสริมด้วยการดึงข้อมูลมาใช้เพื่อป้องกันข้อผิดพลาดเหล่านี้ แต่ก็ไม่สามารถแก้ไขปัญหาได้ทั้งหมด ตัวอย่างเช่น แบบจำลองภาษาขนาดใหญ่ยังคงสามารถสร้างข้อมูลบิดเบือนได้แม้ว่าจะดึงข้อมูลมาจากแหล่งอ้างอิงที่ถูกต้องตามข้อเท็จจริงก็ตาม หากแบบจำลองตีความบริบทผิดพลาด นิตยสารเอ็มไอทีเทคโนโลยีรีวิวได้ยกตัวอย่างคำตอบที่สร้างโดยปัญญาประดิษฐ์ซึ่งระบุว่า "สหรัฐอเมริกามีประธานาธิบดีที่เป็นชาวมุสลิมหนึ่งคน คือ บารัค ฮุสเซน โอบามา" โดยแบบจำลองได้ดึงข้อมูลนี้มาจากหนังสือวิชาการที่มีการตั้งชื่อเรื่องในเชิงโวหารว่า บารัค ฮุสเซน โอบามา: ประธานาธิบดีมุสลิมคนแรกของอเมริกาหรือ? แบบจำลองภาษาขนาดใหญ่ไม่ได้ "รู้" หรือ "เข้าใจ" ถึงบริบทของชื่อหนังสือดังกล่าว จึงนำไปสู่การสร้างข้อความที่เป็นเท็จ[2]
แบบจำลองภาษาขนาดใหญ่ที่ใช้เทคนิค RAG ได้รับการตั้งโปรแกรมให้ให้ความสำคัญกับข้อมูลใหม่เป็นอันดับแรก เทคนิคนี้เรียกอีกอย่างหนึ่งว่า "การอัดข้อมูลลงในคำสั่ง" หากไม่มีการใช้เทคนิคนี้ ข้อมูลนำเข้า ของแบบจำลองภาษาจะถูกสร้างขึ้นโดยผู้ใช้งานเพียงอย่างเดียว แต่เมื่อใช้วิธีการอัดข้อมูลลงในคำสั่ง บริบทที่เกี่ยวข้องเพิ่มเติมจะถูกนำไปรวมกับข้อมูลนำเข้าดังกล่าวเพื่อใช้เป็นแนวทางในการสร้างคำตอบของแบบจำลอง แนวทางนี้จะช่วยป้อนข้อมูลสำคัญให้แก่แบบจำลองภาษาตั้งแต่ช่วงต้นของคำสั่ง ซึ่งเป็นการกระตุ้นให้แบบจำลองให้ความสำคัญกับข้อมูลที่เพิ่งจัดหามาให้ มากกว่าความรู้เดิมที่เคยใช้ฝึกฝนแบบจำลอง[5]
กระบวนการ
[แก้]การสร้างที่เสริมด้วยการดึงข้อมูลช่วยเพิ่มประสิทธิภาพให้กับแบบจำลองภาษาขนาดใหญ่ ด้วยการผนวกรวมกลไกการค้นหาข้อมูล ซึ่งช่วยให้แบบจำลองสามารถเข้าถึงและใช้ประโยชน์จากข้อมูลเพิ่มเติมนอกเหนือจากชุดข้อมูลการฝึกฝนดั้งเดิมได้ อาร์สเทคนิการะบุว่า "เมื่อมีข้อมูลใหม่เข้ามา แทนที่จะต้องทำการฝึกฝนแบบจำลองใหม่ สิ่งที่ต้องทำมีเพียงการเสริมฐานความรู้ภายนอกของแบบจำลองด้วยข้อมูลที่อัปเดตแล้วเท่านั้น" ("การเสริมข้อมูล" หรือ อังกฤษ: Augmentation)[4] ไอบีเอ็มกล่าวว่า "ในระยะการสร้างคำตอบ แบบจำลองภาษาขนาดใหญ่จะดึงข้อมูลจากคำสั่งที่ได้รับการเสริมข้อมูลแล้ว รวมไปถึงดึงจากชุดข้อมูลการฝึกฝนภายในตัวแบบจำลองเอง เพื่อสังเคราะห์" ออกมาเป็นคำตอบ[1]
ขั้นตอนสำคัญของการสร้างที่เสริมด้วยการดึงข้อมูล
[แก้]
โดยทั่วไปแล้ว ข้อมูลที่จะนำมาใช้อ้างอิงจะถูกแปลงให้อยู่ในรูปของการฝังคำของแบบจำลองภาษาขนาดใหญ่ ซึ่งเป็นการแสดงตัวแทนข้อมูลในรูปแบบตัวเลขที่อยู่ภายในปริภูมิเวกเตอร์ขนาดใหญ่ เทคนิค RAG สามารถนำไปใช้งานได้กับทั้งข้อมูลที่ไม่มีโครงสร้าง ซึ่งมักจะเป็นข้อความทั่วไป, ข้อมูลกึ่งโครงสร้าง และข้อมูลที่มีโครงสร้าง เช่น กราฟความรู้ จากนั้น การฝังคำเหล่านี้จะถูกนำไปจัดเก็บไว้ในฐานข้อมูลเวกเตอร์ เพื่อรองรับกระบวนการค้นหาเอกสารต่อไป
เมื่อได้รับคำถามหรือคำสั่งจากผู้ใช้ ระบบการค้นหาเอกสารจะถูกเรียกใช้งานเป็นอันดับแรก เพื่อคัดเลือกเอกสารที่มีความเกี่ยวข้องมากที่สุดสำหรับนำไปใช้เสริมข้อมูลให้กับคำถามดังกล่าว[2] การเปรียบเทียบความเกี่ยวข้องนี้สามารถทำได้โดยใช้วิธีการที่หลากหลาย ซึ่งส่วนหนึ่งจะขึ้นอยู่กับประเภทของการทำดัชนีที่นำมาใช้[1]
แบบจำลองจะป้อนข้อมูลที่ค้นหามาซึ่งมีความเกี่ยวข้องนี้เข้าสู่แบบจำลองภาษาขนาดใหญ่ ผ่านกระบวนการวิศวกรรมข้อความพร้อมรับจากคำถามต้นฉบับของผู้ใช้ ในการนำไปใช้งานรูปแบบใหม่ ๆ (ข้อมูลเมื่อ 2023[update]) ยังสามารถผนวกรวมโมดูลการเสริมข้อมูลเฉพาะทางที่มีความสามารถต่าง ๆ เข้าไว้ด้วยกัน เช่น การขยายคำถามให้ครอบคลุมหลายขอบเขตเนื้อหา รวมถึงการใช้หน่วยความจำและการพัฒนาตนเอง เพื่อเรียนรู้จากการค้นหาในอดีต
ในท้ายที่สุด แบบจำลองภาษาขนาดใหญ่สามารถสร้างผลลัพธ์โดยอิงจากทั้งคำถามและเอกสารที่ค้นหามาได้[2][6] แบบจำลองบางรุ่นยังได้ผนวกรวมขั้นตอนเพิ่มเติมเพื่อปรับปรุงคุณภาพของผลลัพธ์ให้ดียิ่งขึ้น เช่น การจัดอันดับข้อมูลที่ค้นหามาใหม่, การคัดเลือกบริบท และการปรับละเอียด
การปรับปรุงกระบวนการ
[แก้]การปรับปรุงกระบวนการพื้นฐานข้างต้นสามารถนำไปประยุกต์ใช้ได้ในขั้นตอนต่าง ๆ ของกระบวนการทำงานของ RAG
ตัวเข้ารหัส
[แก้]วิธีการเหล่านี้มุ่งเน้นไปที่การเข้ารหัสข้อความให้อยู่ในรูปของเวกเตอร์แบบหนาแน่น หรือเวกเตอร์แบบเบาบาง เวกเตอร์แบบเบาบางซึ่งทำหน้าที่เข้ารหัสเอกลักษณ์ของคำ โดยทั่วไปจะมีความยาวเท่ากับขนาดของพจนานุกรมและประกอบด้วยค่าศูนย์เป็นส่วนใหญ่ ในขณะที่เวกเตอร์แบบหนาแน่นซึ่งทำหน้าที่เข้ารหัสความหมาย จะมีขนาดที่กะทัดรัดกว่าและมีค่าศูนย์น้อยกว่า การปรับปรุงหลายประการสามารถช่วยเพิ่มประสิทธิภาพให้กับวิธีการคำนวณความคล้ายคลึง ภายในคลังเวกเตอร์ หรือฐานข้อมูลได้[7]
- ประสิทธิภาพจะเพิ่มขึ้นจากการปรับปรุงวิธีการคำนวณความคล้ายคลึงกันของเวกเตอร์ การคูณแบบจุด ช่วยเพิ่มประสิทธิภาพในการให้คะแนนความคล้ายคลึง ในขณะที่การค้นหาเพื่อนบ้านใกล้ที่สุดแบบประมาณ ช่วยปรับปรุงประสิทธิภาพการค้นหาได้ดีกว่าการค้นหาเพื่อนบ้านใกล้ที่สุด K ตัว[8]
- ความแม่นยำอาจได้รับการปรับปรุงให้ดีขึ้นด้วยเทคนิคอันตรกิริยาล่าช้า ซึ่งช่วยให้ระบบสามารถเปรียบเทียบคำต่าง ๆ ได้อย่างแม่นยำยิ่งขึ้นหลังจากการค้นหา เทคนิคนี้ช่วยปรับแต่งการจัดอันดับเอกสารและเพิ่มความเกี่ยวข้องในการค้นหาให้ดียิ่งขึ้น[9]
- อาจใช้แนววิธีการเวกเตอร์แบบไฮบริด เพื่อรวมการแสดงตัวแทนข้อมูลด้วยเวกเตอร์แบบหนาแน่น เข้ากับเวกเตอร์วันฮอตแบบเบาบาง โดยใช้ประโยชน์จากประสิทธิภาพในการประมวลผลของการคูณแบบจุดของเวกเตอร์แบบเบาบาง ซึ่งทำงานได้ดีกว่าเมื่อเทียบกับการดำเนินการกับเวกเตอร์แบบหนาแน่น[7]
- เทคนิคการค้นหาอื่น ๆ มุ่งเน้นไปที่การปรับปรุงความแม่นยำโดยการปรับแต่งวิธีการคัดเลือกเอกสาร วิธีการค้นหาบางวิธีได้ผสานรวมการแสดงตัวแทนข้อมูลแบบเบาบาง เช่น สเพลด เข้ากับกลยุทธ์การขยายคำถาม เพื่อเพิ่มความแม่นยำและค่าความระลึกในการค้นหา[10]
วิธีการที่เน้นตัวค้นหา
[แก้]วิธีการเหล่านี้มีจุดมุ่งหมายเพื่อยกระดับคุณภาพของการค้นหาเอกสารในฐานข้อมูลเวกเตอร์:
- การฝึกฝนตัวค้นหาล่วงหน้า: ดำเนินการโดยใช้งานแบบทดสอบโคลซย้อนกลับ ซึ่งเป็นเทคนิคที่ช่วยให้แบบจำลองเรียนรู้รูปแบบการค้นหาผ่านการทำนายข้อความที่ถูกปิดบังไว้ภายในเอกสาร[11]
- การปรับค่าเหมาะที่สุดของตัวค้นหาแบบมีผู้สอน: เป็นการปรับความน่าจะเป็นในการค้นหาให้สอดคล้องกับการแจกแจงภาวะน่าจะเป็นของแบบจำลองตัวสร้าง กระบวนการนี้เกี่ยวข้องกับการดึงเวกเตอร์อันดับสูงสุด k ลำดับ สำหรับคำสั่งที่กำหนด จากนั้นจึงคำนวณคะแนนค่าความสับสนของคำตอบที่สร้างขึ้น และทำการลดความเบี่ยงเบนไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์ ระหว่างสิ่งที่ตัวค้นหาคัดเลือกมากับภาวะน่าจะเป็นของแบบจำลองให้เหลือน้อยที่สุด เพื่อปรับแต่งกระบวนการค้นหาให้แม่นยำยิ่งขึ้น[12]
- เทคนิคการจัดอันดับใหม่: สามารถปรับแต่งประสิทธิภาพของตัวค้นหาให้ดีขึ้นได้โดยการให้ลำดับความสำคัญกับเอกสารที่ค้นหามาซึ่งมีความเกี่ยวข้องมากที่สุดในระหว่างกระบวนการฝึกฝน[13]
แบบจำลองภาษา
[แก้]ด้วยการออกแบบแบบจำลองภาษาใหม่โดยคำนึงถึงกลไกของตัวค้นหาเป็นหลัก โครงข่ายที่มีขนาดเล็กลงถึง 25 เท่าจึงสามารถทำค่าความสับสนได้เทียบเท่ากับแบบจำลองที่มีขนาดใหญ่กว่ามาก[14] อย่างไรก็ตาม เนื่องจากเป็นการฝึกฝนใหม่ตั้งแต่ต้น วิธีการเรโทรนี้จึงมีต้นทุนในการฝึกฝนประมวลผลที่สูง ซึ่งเป็นสิ่งที่โครงสร้าง RAG แบบดั้งเดิมสามารถหลีกเลี่ยงได้ สมมติฐานของวิธีการนี้คือ การป้อนความรู้เฉพาะทางให้ในระหว่างการฝึกฝนจะช่วยให้เรโทรลดความจำเป็นในการทำความเข้าใจข้อมูลเฉพาะทางลง และสามารถทุ่มเททรัพยากรค่าน้ำหนักที่มีอยู่อย่างจำกัดไปกับการประมวลผลอรรถศาสตร์ทางภาษาได้อย่างเต็มที่ แบบจำลองภาษาที่ได้รับการออกแบบใหม่ดังกล่าวได้แสดงไว้ดังภาพประกอบ
มีรายงานว่าแบบจำลองเรโทรไม่สามารถทำซ้ำผลลัพธ์ได้ จึงได้มีการปรับปรุงแก้ไขเพื่อแก้ปัญหาดังกล่าว เวอร์ชันที่มีความสามารถในการทำซ้ำได้ดีขึ้นนี้มีชื่อเรียกว่า เรโทรพลัสพลัส ซึ่งได้ผนวกรวมเทคนิคการทำ RAG ภายในบริบทเข้าไว้ด้วย[15]
การแบ่งส่วนข้อมูล
[แก้]การแบ่งส่วนข้อมูลเกี่ยวข้องกับกลยุทธ์ต่าง ๆ ในการแบ่งย่อยข้อมูลเพื่อนำไปสร้างเป็นเวกเตอร์ ทั้งนี้ก็เพื่อให้ระบบค้นหาสามารถค้นหารายละเอียดที่อยู่ภายในข้อมูลเหล่านั้นได้
กลยุทธ์การแบ่งส่วนข้อมูล 3 ประเภท ได้แก่:[ต้องการอ้างอิง]
- การแบ่งส่วนข้อมูลตามความยาวที่กำหนดตายตัวพร้อมการซ้อนทับกัน: วิธีการนี้มีความรวดเร็วและสามารถดำเนินการได้ง่าย การซ้อนทับกันของส่วนข้อมูลที่อยู่ติดกันจะช่วยรักษาบริบททางความหมายระหว่างส่วนข้อมูลเหล่านั้นไว้ได้
- การแบ่งส่วนข้อมูลตามหลักวากยสัมพันธ์: วิธีการนี้สามารถแบ่งเอกสารออกเป็นประโยคย่อย ๆ ได้ โดยการใช้ไลบรารี เช่น สเปซี หรือ เอ็นแอลทีเค ก็สามารถช่วยในกระบวนการนี้ได้เช่นกัน
- การแบ่งส่วนข้อมูลตามรูปแบบไฟล์: ไฟล์บางประเภทมีโครงสร้างการแบ่งส่วนตามธรรมชาติในตัวมันเอง ซึ่งวิธีที่ดีที่สุดคือการคงโครงสร้างเหล่านั้นไว้ ตัวอย่างเช่น ไฟล์ซอร์สโค้ด จะเกิดประสิทธิภาพสูงสุดเมื่อถูกแบ่งส่วนและแปลงเป็นเวกเตอร์โดยคงสภาพของฟังก์ชันหรือคลาสไว้ทั้งชุด สำหรับไฟล์เอชทีเอ็มแอลควรปล่อยให้องค์ประกอบอย่าง <table> หรือ <img> ที่เข้ารหัสแบบเบส 64 คงอยู่ตามเดิมโดยไม่ถูกตัดแยกออกจากกัน ควรนำหลักการพิจารณาในลักษณะเดียวกันนี้ไปใช้กับไฟล์พีดีเอฟด้วย ไลบรารีต่าง ๆ เช่น อันสตรักเจอร์ด หรือ แลงเชน สามารถช่วยอำนวยความสะดวกในการดำเนินการด้วยวิธีนี้ได้
การค้นหาแบบไฮบริด
[แก้]บางครั้งการค้นหาในฐานข้อมูลเวกเตอร์อาจตกหล่นข้อเท็จจริงสำคัญที่จำเป็นต่อการตอบคำถามของผู้ใช้ วิธีหนึ่งในการบรรเทาปัญหานี้คือการใช้วิธีการค้นหาข้อความแบบดั้งเดิม จากนั้นจึงนำผลลัพธ์ที่ได้ไปรวมกับส่วนข้อมูลข้อความที่เชื่อมโยงกับเวกเตอร์ที่ค้นหามาจากการค้นหาแบบเวกเตอร์ แล้วจึงป้อนข้อความแบบไฮบริดที่รวมกันแล้วนี้เข้าสู่แบบจำลองภาษาเพื่อใช้ในขั้นตอนการสร้างคำตอบ[ต้องการอ้างอิง][citation needed]
การประเมินและเกณฑ์มาตรฐาน
[แก้]ระบบ RAG มักได้รับการประเมินโดยใช้เกณฑ์มาตรฐานที่ออกแบบมาเพื่อทดสอบความสามารถในการค้นหา, ความแม่นยำของการค้นหาและคุณภาพของการสร้างคำตอบ ชุดข้อมูลที่เป็นที่นิยม ได้แก่ บีไออาร์ ซึ่งเป็นชุดงานด้านการค้นหาข้อมูลที่ครอบคลุมหลายขอบเขตเนื้อหา รวมถึง เนเชอรัล เควสชันส์ หรือ กูเกิล คิวเอ สำหรับการตอบคำถามแบบขอบเขตกว้าง[ต้องการอ้างอิง][citation needed]
ความท้าทาย
[แก้]เทคนิค RAG ไม่ได้ช่วยป้องกันการเกิดอาการประสาทหลอนในแบบจำลองภาษาขนาดใหญ่ โดยข้อมูลจากอาร์สเทคนิการะบุว่า "เทคนิคนี้ไม่ใช่ทางแก้ปัญหาโดยตรง เนื่องจากแบบจำลองภาษาขนาดใหญ่ยังคงสามารถสร้างข้อมูลที่ประสาทหลอนขึ้นมาเองโดยอ้างอิงจากแหล่งข้อมูลที่ดึงมาในระหว่างการตอบคำถามได้"[4]
แม้ว่าเทคนิค RAG จะช่วยเพิ่มความแม่นยำให้กับแบบจำลองภาษาขนาดใหญ่ แต่ก็ไม่ได้ทำให้ความท้าทายต่าง ๆ หมดไป ข้อจำกัดประการหนึ่งคือ แม้ RAG จะช่วยลดความจำเป็นในการฝึกฝนแบบจำลองใหม่บ่อยครั้งลงได้ แต่ก็ไม่ได้ทำให้ความจำเป็นนี้หมดไปโดยสิ้นเชิง นอกจากนี้ แบบจำลองภาษาขนาดใหญ่ยังอาจประสบปัญหาในการรับรู้ว่าเมื่อใดที่ตนเองขาดข้อมูลเพียงพอที่จะให้คำตอบที่น่าเชื่อถือ หากไม่ได้รับการฝึกฝนเฉพาะทาง แบบจำลองอาจสร้างคำตอบขึ้นมาแม้ในกรณีที่ควรจะระบุถึงความไม่แน่นอนของข้อมูลก็ตาม ข้อมูลจากไอบีเอ็ม ระบุว่า ปัญหานี้สามารถเกิดขึ้นได้เมื่อแบบจำลองขาดความสามารถในการประเมินข้อจำกัดด้านความรู้ของตนเอง[1]
การวางยาพิษการสร้างที่เสริมด้วยการดึงข้อมูล
[แก้]ระบบ RAG อาจทำการค้นหาข้อมูลจากแหล่งที่ถูกต้องตามข้อเท็จจริงแต่ชี้นำให้เข้าใจผิด ซึ่งนำไปสู่ความผิดพลาดในการตีความได้ ในบางกรณี แบบจำลองภาษาขนาดใหญ่อาจดึงข้อความจากแหล่งข้อมูลมาโดยไม่ได้พิจารณาบริบทแวดล้อม ส่งผลให้ได้ข้อสรุปที่ไม่ถูกต้อง นอกจากนี้ เมื่อต้องเผชิญกับข้อมูลที่ขัดแย้งกัน แบบจำลอง RAG อาจประสบปัญหาในการตัดสินว่าแหล่งข้อมูลใดมีความแม่นยำ ผลลัพธ์ที่เลวร้ายที่สุดของข้อจำกัดนี้คือ แบบจำลองอาจนำรายละเอียดจากหลายแหล่งข้อมูลมาผสมปนเปกัน จนเกิดเป็นคำตอบที่นำข้อมูลเก่าที่ล้าสมัยมาควบรวมกับข้อมูลที่อัปเดตแล้วในลักษณะที่ทำให้เข้าใจผิด ข้อมูลจากนิตยสารเอ็มไอทีเทคโนโลยีรีวิวระบุว่า ปัญหาเหล่านี้เกิดขึ้นเนื่องจากระบบ RAG อาจตีความข้อมูลที่ค้นหามาผิดพลาดได้[2]
อ้างอิง
[แก้]- 1 2 3 4 5 6 "What is retrieval-augmented generation?". IBM. 22 August 2023. สืบค้นเมื่อ 7 March 2025. อ้างอิงผิดพลาด: ป้ายระบุ
<ref>ไม่สมเหตุสมผล มีนิยามชื่อ "IBM-2023" หลายครั้งด้วยเนื้อหาต่างกัน - 1 2 3 4 5 6 "Why Google's AI Overviews gets things wrong". MIT Technology Review. 31 May 2024. สืบค้นเมื่อ 7 March 2025. อ้างอิงผิดพลาด: ป้ายระบุ
<ref>ไม่สมเหตุสมผล มีนิยามชื่อ "MIT Technology Review-2024" หลายครั้งด้วยเนื้อหาต่างกัน - ↑ อ้างอิงผิดพลาด: ป้ายระบุ
<ref>ไม่ถูกต้อง ไม่มีการกำหนดข้อความสำหรับอ้างอิงชื่อLewis-2020 - 1 2 3 4 "Can a technology called RAG keep AI models from making stuff up?". Ars Technica. 6 June 2024. สืบค้นเมื่อ 7 March 2025. อ้างอิงผิดพลาด: ป้ายระบุ
<ref>ไม่สมเหตุสมผล มีนิยามชื่อ "Ars Technica-2024" หลายครั้งด้วยเนื้อหาต่างกัน - ↑ "Mitigating LLM hallucinations in text summarisation". BBC. 20 June 2024. สืบค้นเมื่อ 7 March 2025.
- ↑ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 9459–9474. arXiv:2005.11401.
- 1 2 Luan, Yi; Eisenstein, Jacob; Toutanova, Kristina; Collins, Michael (26 April 2021). "Sparse, Dense, and Attentional Representations for Text Retrieval". Transactions of the Association for Computational Linguistics. 9: 329–345. arXiv:2005.00181. doi:10.1162/tacl_a_00369. สืบค้นเมื่อ 15 March 2025. อ้างอิงผิดพลาด: ป้ายระบุ
<ref>ไม่สมเหตุสมผล มีนิยามชื่อ "Luan-2021" หลายครั้งด้วยเนื้อหาต่างกัน - ↑ "Information retrieval". Microsoft. 10 January 2025. สืบค้นเมื่อ 15 March 2025.
- ↑ Khattab, Omar; Zaharia, Matei (2020). "ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT". Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. pp. 39–48. doi:10.1145/3397271.3401075. ISBN 978-1-4503-8016-4.
- ↑ Wang, Yup; Conroy, John M.; Molino, Neil; Yang, Julia; Green, Mike (2024). "Laboratory for Analytic Sciences in TREC 2024 Retrieval Augmented Generation Track". NIST TREC 2024. สืบค้นเมื่อ 15 March 2025.
- ↑ Lee, Kenton; Chang, Ming-Wei; Toutanova, Kristina (2019). ""Latent Retrieval for Weakly Supervised Open Domain Question Answering"" (PDF).
- ↑ Shi, Weijia; Min, Sewon; Yasunaga, Michihiro; Seo, Minjoon; James, Rich; Lewis, Mike; Zettlemoyer, Luke; Yih, Wen-tau (June 2024). "REPLUG: Retrieval-Augmented Black-Box Language Models". Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). pp. 8371–8384. doi:10.18653/v1/2024.naacl-long.463. สืบค้นเมื่อ 16 March 2025.
- ↑ Ram, Ori; Levine, Yoav; Dalmedigos, Itay; Muhlgay, Dor; Shashua, Amnon; Leyton-Brown, Kevin; Shoham, Yoav (2023). "In-Context Retrieval-Augmented Language Models". Transactions of the Association for Computational Linguistics. 11: 1316–1331. arXiv:2302.00083. doi:10.1162/tacl_a_00605. สืบค้นเมื่อ 16 March 2025.
- ↑ Borgeaud, Sebastian; Mensch, Arthur (2021). "Improving language models by retrieving from trillions of tokens" (PDF).Borgeaud, Sebastian; Mensch, Arthur (2021). "Improving language models by retrieving from trillions of tokens" (PDF).
- ↑ Wang, Boxin; Ping, Wei; Xu, Peng; McAfee, Lawrence; Liu, Zihan; Shoeybi, Mohammad; Dong, Yi; Kuchaiev, Oleksii; Li, Bo (2023). "Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study". Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. pp. 7763–7786. doi:10.18653/v1/2023.emnlp-main.482.Wang, Boxin; Ping, Wei; Xu, Peng; McAfee, Lawrence; Liu, Zihan; Shoeybi, Mohammad; Dong, Yi; Kuchaiev, Oleksii; Li, Bo; Xiao, Chaowei; Anandkumar, Anima; Catanzaro, Bryan (2023). "Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study". Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. pp. 7763–7786. doi:10.18653/v1/2023.emnlp-main.482.