- ในอดีต LLM มักถูกฝึกด้วยข้อมูลจากอินเทอร์เน็ตเป็นหลัก และทุกวันนี้ส่วนใหญ่ก็ยังเป็นเช่นนั้น แต่ความจริงข้อนี้กำลัง "เป็นจริงน้อยลง" เรื่อย ๆ
- แนวคิดเรื่อง "เครื่องจำลองอินเทอร์เน็ต" ไม่ได้มีประโยชน์นักในการคาดการณ์การทำงานของ GPT-5 ขึ้นไป
- โมเดลรุ่นใหม่ได้ก้าวข้ามคำนิยามนี้ไปแล้ว และการเปลี่ยนแปลงนี้เพิ่งเริ่มต้นเท่านั้น
กำแพงข้อมูล (Data Wall)
- บทความวิจัย GPT-3 ของ OpenAI ในปี 2020 เคยอธิบายชุดข้อมูลฝึกไว้อย่างละเอียด แต่ตอนนี้มันกลายเป็นของจากยุคก่อนแล้ว
- ตั้งแต่ปี 2022 เป็นต้นมา การฝึก LLM เริ่มใช้ฟีดแบ็กที่ปรับให้เหมาะกับผู้ใช้ และ OpenAI รวมถึงบริษัทอื่น ๆ ก็พูดถึงข้อมูลฝึกน้อยลง
- เราไม่รู้ว่า GPT-4, Sora หรือ GPT-5 ถูกฝึกด้วยอะไรบ้าง แต่ ไม่ใช่แค่ข้อมูลจากอินเทอร์เน็ตอย่างเดียว แน่นอน
- ผู้ฝึก LLM เพิ่งชนเข้ากับสิ่งที่เรียกว่า "กำแพงข้อมูล"
- OpenAI มีข้อมูลบนเว็บแทบทั้งหมดอยู่แล้ว ดังนั้นการสร้าง LLM ที่ดีกว่าจึงต้องอาศัยการได้มาหรือการสร้างข้อมูลที่ไม่เป็นสาธารณะ
- สำหรับแล็บที่มีเงิน คำตอบคือการจัดหาข้อมูลที่ไม่เปิดเผยสู่สาธารณะและสร้างข้อมูลขึ้นมาเอง
- ในช่วงแรก จุดเน้นอยู่ที่การทำให้ข้อมูลฝึกเดิมมีประโยชน์มากขึ้น หรือเพิ่มข้อมูลส่วนตัวที่มีอยู่แล้วเข้าไปในพูลข้อมูลฝึก
- ตัวอย่างเช่น
- การใส่คำอธิบายกำกับและการกรอง: นักวิจัยสร้างคำอธิบายกำกับให้ข้อมูลฝึก เพื่อให้โฟกัสกับข้อมูลคุณภาพสูงและสร้างโมเดลที่ดีขึ้นได้
- RLHF: แล็บให้มนุษย์ประเมินผลลัพธ์ของโมเดล แล้วใช้ข้อมูลนี้ปรับจูนโมเดลและส่งเสริมพฤติกรรมที่มีประโยชน์
- ข้อมูลการใช้งาน: ว่ากันว่า ChatGPT สร้างข้อมูลได้ราว 1 หมื่นล้านโทเคนต่อวัน
- การได้มาซึ่งข้อมูล: อีเมล บันทึกแชต คู่มือเฉพาะองค์กร JIRA tickets การบันทึกสายโทรศัพท์ รายงานภายใน สัญญา และข้อมูลอีกมากมายไม่ได้อยู่บนอินเทอร์เน็ต และผู้ฝึกโมเดลสามารถนำสิ่งเหล่านี้เข้าไปเป็นข้อมูลฝึกได้
- แต่เทคนิคเหล่านี้ก็ยังไม่ได้แก้ปัญหาที่ว่า "LLM เปราะบางเมื่อถูกบังคับให้สร้างผลลัพธ์ที่ต่างจากข้อมูลเดิม" ได้อย่างสมบูรณ์
- LLM ยังมีปัญหากับงานประเภทต่อไปนี้ (เพราะมีข้อความบนออนไลน์ที่แสดงสิ่งเหล่านี้ไม่มากนัก)
- การแสดงความสงสัยหรือความไม่แน่นอนต่อคำตอบ
- การรักษาบทสนทนายาว ๆ โดยไม่วนซ้ำหรือใช้วลีเดิมซ้ำ ๆ
- การวางแผนระดับสูงให้ LLM agent นำไปทำตาม
- การให้เหตุผลกับโค้ดเบสขนาดใหญ่แบบ legacy เหมือนวิศวกรอาวุโส
- การทำตามพรอมป์ตที่ยาวมากหรือซับซ้อนมากได้อย่างเสถียร
- สถาปัตยกรรมที่ดีขึ้นและจำนวนพารามิเตอร์ที่มากขึ้นอาจช่วยแก้ข้อจำกัดเหล่านี้ได้ แต่ OpenAI, Meta, Google, Microsoft และบริษัทอื่น ๆ ก็กำลังทุ่มเงินจำนวนมากเพื่ออุดช่องว่างนี้ด้วยวิธีที่ง่ายกว่า นั่นคือ สร้างตัวอย่างใหม่ขึ้นมาฝึก
ตอนนี้ LLM กำลังถูกฝึกด้วยข้อมูลแบบปรับแต่งเฉพาะ
- รายงานทางเทคนิคของ Phi-3 จาก Microsoft (เผยแพร่ในเดือนเมษายน) เป็นตัวอย่างล่าสุดของการเพิ่มขึ้นของข้อมูลแบบปรับแต่งเฉพาะ
- phi-3-mini มีพารามิเตอร์เพียง 3.8 พันล้านตัว แต่แสดงประสิทธิภาพที่แข่งขันกับโมเดล Mixtral ที่ใหญ่และหนักกว่ามากได้
- ส่วนหนึ่งของการพัฒนานี้อธิบายได้จากการนำข้อมูลสังเคราะห์คุณภาพสูงที่สร้างโดย LLM ขนาดใหญ่กว่าเข้ามาไว้ในข้อมูลฝึก
- ข้อมูลสังเคราะห์สามารถช่วยอุดช่องว่างของข้อมูลต้นทางจากอินเทอร์เน็ต และเพิ่มประสิทธิภาพของโมเดลเมื่อเทียบกับขนาดของมัน
- ข้อมูลสังเคราะห์เป็นหัวข้อที่กำลังได้รับความสนใจในงานวิจัย LLM ตอนนี้
- ยังไม่ชัดเจนว่าเราจะฝึก LLM ด้วยผลลัพธ์ของตัวมันเองได้ไกลแค่ไหน (อาจเกิดสถานการณ์คล้ายงูโครงข่ายประสาทขนาดยักษ์กินหางตัวเอง)
- แต่อย่างน้อย ข้อมูลสังเคราะห์ก็น่าจะช่วยอุดช่องว่างที่เกิดจากการที่ LLM ทำงานแบบ "เครื่องจำลองอินเทอร์เน็ต" ได้
- เช่น หากมีตัวอย่างฝึกที่แสดงความไม่แน่นอนไม่พอ หรือข้อมูลมีความลำเอียงเพราะไม่เป็นตัวแทนที่ดี ก็สามารถสร้างตัวอย่างที่ดีกว่าได้
- อย่างไรก็ตาม การสร้างข้อมูลสังเคราะห์ชั้นยอดด้วย LLM เป็นปัญหาที่ยาก และน่าจะมีข้อจำกัดอยู่
- ดังนั้นแหล่งข้อมูลมหาศาลสุดท้ายที่อยู่นอกอินเทอร์เน็ตอย่าง "มนุษย์" จึงเข้ามามีบทบาท
ถ้ามีงบปีละ 1 พันล้านดอลลาร์ ($1B) จะสร้างข้อมูลได้มากแค่ไหน?
- ถ้าจ่ายเงิน คนก็ยินดีสร้างข้อมูลให้
- Scale.ai เรียกตัวเองว่าเป็น "โรงงานผลิตข้อมูลสำหรับ AI" และให้บริการที่แล็บต่าง ๆ จ่ายเงินให้คนมาสร้างข้อมูล
- มีรายงานว่าบริษัท AI ต่าง ๆ จ่ายเงินให้บริการของ Scale รวมกันมากกว่า 1 พันล้านดอลลาร์ต่อปีอยู่แล้ว
- เงินส่วนหนึ่งใช้ไปกับการใส่คำอธิบายกำกับและประเมินข้อมูลที่มาจากเว็บหรือจาก LLM แต่ก็มีการสร้างข้อมูลฝึกใหม่ขึ้นมาตั้งแต่ต้นด้วย
- Scale มุ่งเน้นไปที่ผู้ปฏิบัติงานเฉพาะทางสูง เช่น นักวิชาการระดับปริญญาเอก ทนายความ นักบัญชี กวี นักเขียน และผู้ที่เชี่ยวชาญภาษาเฉพาะ
- คนเหล่านี้ฝึกและทดสอบโมเดลให้บริษัทอย่าง OpenAI, Cohere, Anthropic และ Google โดยได้รับค่าจ้างรายชั่วโมงที่สูงกว่า
- บริษัทอย่าง OpenAI สามารถจ่ายให้ผู้เชี่ยวชาญสร้างข้อมูลใหม่ที่ยอดเยี่ยมเพื่อเติมช่องว่างของข้อมูลจากอินเทอร์เน็ต แล้วนำข้อมูลนั้นไปใช้ฝึกโมเดลต่อภายหลัง
- ชุดข้อมูลอย่าง "ตัวอย่าง 50,000 แบบของการแสดงความไม่แน่นอนอย่างรอบคอบเมื่อ Ph.D. ไม่รู้คำตอบ" อาจมีคุณค่ามากกว่าต้นทุนการผลิตอย่างมาก
- เดิมที LLM ถูกเข้าใจว่าเรียนรู้จากอินเทอร์เน็ต และจุดอ่อนในระยะแรกจำนวนมากก็มีที่มาจากเนื้อหาปะปนสารพัดบนเว็บ
- แต่เมื่อขนาดและอิทธิพลของข้อมูลฝึกแบบปรับแต่งเฉพาะเพิ่มขึ้น เราก็คาดได้ว่า LLM จะก้าวข้ามการเป็น "เครื่องจำลองอินเทอร์เน็ต" ไปอย่างมาก
- โดยเฉพาะในสิ่งที่ไม่มีอยู่บนอินเทอร์เน็ต แต่สามารถพิสูจน์ให้เห็นได้ผ่านการสร้างข้อมูลแบบปรับแต่งเฉพาะมูลค่ากว่า 1 พันล้านดอลลาร์
- กล่าวคือ รถไฟขบวนนี้จะยังคงแล่นต่อไปอีกระยะหนึ่ง
ความเห็นของ GN⁺
- ความสำคัญของข้อมูล: การยกระดับประสิทธิภาพของ LLM ต้องอาศัยข้อมูลจากแหล่งที่หลากหลาย ข้อมูลอินเทอร์เน็ตเพียงอย่างเดียวมีข้อจำกัด
- ปัญหาเรื่องต้นทุน: การสร้างข้อมูลแบบปรับแต่งเฉพาะมีค่าใช้จ่ายสูงมาก ซึ่งอาจเป็นภาระใหญ่สำหรับแล็บหรือบริษัทขนาดเล็ก
- ข้อจำกัดของข้อมูลสังเคราะห์: ข้อมูลสังเคราะห์มีประโยชน์ แต่ก็อาจแตกต่างจากข้อมูลที่มนุษย์สร้างจริง ทำให้ความสมจริงของโมเดลมีข้อจำกัดได้
- แนวโน้มอนาคต: คาดว่าการพัฒนา LLM โดยอาศัยข้อมูลแบบปรับแต่งเฉพาะและข้อมูลสังเคราะห์จะดำเนินต่อไป และอาจนำไปสู่นวัตกรรมในหลากหลายสาขา
- สถานการณ์การแข่งขัน: บริษัทหลักอย่าง OpenAI, Google และ Microsoft กำลังลงทุนในการสร้างข้อมูลแบบปรับแต่งเฉพาะ ทำให้การแข่งขันน่าจะเข้มข้นขึ้น
2 ความคิดเห็น
สิ่งที่เรียกว่า Data wall ท้ายที่สุดจะเป็นปัญหาเมื่อมี Compute เพียงพอ แต่เมื่อมองในแง่ประสิทธิภาพการใช้พลังงานและการจัดหาพลังงาน ขีดจำกัดของการเพิ่ม Compute หรือก็คือปัญหาเรื่องปริมาณไฟฟ้า จะยิ่งกลายเป็นเรื่องสำคัญมากกว่า
ความเห็นจาก Hacker News