แบบจำลองรากฐาน

แบบจำลองรากฐาน (foundation model) เป็นแบบจำลองปัญญาประดิษฐ์ขนาดใหญ่ที่ได้รับการฝึกโดยใช้ข้อมูลจำนวนมหาศาลผ่านการเรียนรู้แบบสอนตัวเองหรือการเรียนรู้แบบกึ่งมีผู้สอน^[1]^[2] และสามารถนำไปใช้ในงานต่าง ๆ แยกตามกรณีการใช้งานได้ แบบจำลองรากฐานได้ปฏิวัติวิธีการสร้างระบบปัญญาประดิษฐ์รวมถึงการขับเคลื่อนจักรกลสนทนายอดนิยม และปัญญาประดิษฐ์อื่น ๆ ที่ต้องต่อประสานกับผู้ใช้ ศูนย์วิจัยแบบจำลองรากฐาน (CRFM) ที่สถาบันปัญญาประดิษฐ์ที่เน้นมนุษย์เป็นศูนย์กลางของสแตนฟอร์ด (HAI) เป็นผู้ริเริ่มและเผยแผ่การใช้ชื่อเรียกนี้^[1]

ตัวอย่างเบื้องต้นของแบบจำลองรากฐานคือแบบจำลองภาษาขนาดใหญ่ที่ผ่านการฝึกล่วงหน้า (LLM) รวมถึง BERT ของกูเกิลและแบบจำลองรากฐาน GPT ในยุคแรก ๆ ต่าง ๆ (โดยเฉพาะซีรีส์ "GPT-n" ของ OpenAI)^[3]^[4]

คำนิยาม

ศูนย์วิจัยแบบจำลองรากฐาน (CRFM) ที่สถาบันปัญญาประดิษฐ์ที่เน้นมนุษย์เป็นศูนย์กลางของสแตนฟอร์ด (HAI) ได้ประกาศใช้คำว่า "แบบจำลองรากฐาน" (foundation model) ในเดือนสิงหาคม 2021 โดยอธิบายว่าเป็น "แบบจำลองที่ได้รับการฝึกด้วยข้อมูลขอบเขตกว้างขวางและนำไปปรับเพื่อใช้ในงานต่าง ๆ ได้หลากหลาย"^[5] ความหมายไม่จำเป็นต้องจำกัดอยู่แค่การใช้งานในด้านภาษาเหมือนอย่างคำว่าแบบจำลองภาษาขนาดใหญ่^[6]

งานเฉพาะที่ใช้แบบจำลองที่ได้จากการนำแบบจำลองรากฐานมาปรับ (เช่น ด้วยการปรับละเอียด) อาจเรียกว่า "ภารกิจปลายน้ำ" (downstream task)

ประวัติศาสตร์

ในเดือนธันวาคม 2023 กูเกิลได้ประกาศแบบจำลองรากฐานตัวใหม่ เจมินี โดยระบุว่าเจมินีเป็นแบบจำลองรากฐานที่เหมาะสมสำหรับงานทั่วไป ดีกว่าความคิดเห็นของผู้เชี่ยวชาญ และยังสามารถวิเคราะห์วรรณกรรมทางวิทยาศาสตร์ได้^[7]

อ้างอิง

↑ ^1.0 ^1.1 "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI. สืบค้นเมื่อ 11 June 2022.
↑ Goldman, Sharon (2022-09-13). "Foundation models: 2022's AI paradigm shift". VentureBeat (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-10-24.
↑ Rogers, Anna; Kovaleva, Olga. "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL].
↑ Steinberg, Ethan; Jung, Ken; Fries, Jason A.; Corbin, Conor K.; Pfohl, Stephen R.; Shah, Nigam H. (January 2021). "Language models are an effective representation learning technique for electronic health record data". Journal of Biomedical Informatics. 113: 103637. doi:10.1016/j.jbi.2020.103637. ISSN 1532-0480. PMC 7863633. PMID 33290879.
↑ Bommasani, Rishi (2022-07-12). "On the Opportunities and Risks of Foundation Models". arXiv:2108.07258 [cs.LG].
↑ "Reflections on Foundation Models". Stanford HAI. 18 October 2021. สืบค้นเมื่อ 22 May 2023.
↑ "Gemini - Google DeepMind". deepmind.google (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-12-09.

[CRFM-1] 1.0 ^1.1 "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI. สืบค้นเมื่อ 11 June 2022.

[2] Goldman, Sharon (2022-09-13). "Foundation models: 2022's AI paradigm shift". VentureBeat (ภาษาอังกฤษแบบอเมริกัน). สืบค้นเมื่อ 2022-10-24.

[3] Rogers, Anna; Kovaleva, Olga. "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL].

[4] Steinberg, Ethan; Jung, Ken; Fries, Jason A.; Corbin, Conor K.; Pfohl, Stephen R.; Shah, Nigam H. (January 2021). "Language models are an effective representation learning technique for electronic health record data". Journal of Biomedical Informatics. 113: 103637. doi:10.1016/j.jbi.2020.103637. ISSN 1532-0480. PMC 7863633. PMID 33290879.

[Bommasani_20210818-5] Bommasani, Rishi (2022-07-12). "On the Opportunities and Risks of Foundation Models". arXiv:2108.07258 [cs.LG].

[6] "Reflections on Foundation Models". Stanford HAI. 18 October 2021. สืบค้นเมื่อ 22 May 2023.

[7] "Gemini - Google DeepMind". deepmind.google (ภาษาอังกฤษ). สืบค้นเมื่อ 2023-12-09.

[1]

[2]

[3]

[4]

[5]

[6]

[7]