LLM ไม่ได้ "เรียนรู้จากอินเทอร์เน็ต" อีกต่อไปแล้ว

(allenpike.com)

20 คะแนน โดย GN⁺ 2024-06-03 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ในอดีต LLM มักถูกฝึกด้วยข้อมูลจากอินเทอร์เน็ตเป็นหลัก และทุกวันนี้ส่วนใหญ่ก็ยังเป็นเช่นนั้น แต่ความจริงข้อนี้กำลัง "เป็นจริงน้อยลง" เรื่อย ๆ
แนวคิดเรื่อง "เครื่องจำลองอินเทอร์เน็ต" ไม่ได้มีประโยชน์นักในการคาดการณ์การทำงานของ GPT-5 ขึ้นไป
- โมเดลรุ่นใหม่ได้ก้าวข้ามคำนิยามนี้ไปแล้ว และการเปลี่ยนแปลงนี้เพิ่งเริ่มต้นเท่านั้น

กำแพงข้อมูล (Data Wall)

บทความวิจัย GPT-3 ของ OpenAI ในปี 2020 เคยอธิบายชุดข้อมูลฝึกไว้อย่างละเอียด แต่ตอนนี้มันกลายเป็นของจากยุคก่อนแล้ว
- ตั้งแต่ปี 2022 เป็นต้นมา การฝึก LLM เริ่มใช้ฟีดแบ็กที่ปรับให้เหมาะกับผู้ใช้ และ OpenAI รวมถึงบริษัทอื่น ๆ ก็พูดถึงข้อมูลฝึกน้อยลง
- เราไม่รู้ว่า GPT-4, Sora หรือ GPT-5 ถูกฝึกด้วยอะไรบ้าง แต่ ไม่ใช่แค่ข้อมูลจากอินเทอร์เน็ตอย่างเดียว แน่นอน
ผู้ฝึก LLM เพิ่งชนเข้ากับสิ่งที่เรียกว่า "กำแพงข้อมูล"
- OpenAI มีข้อมูลบนเว็บแทบทั้งหมดอยู่แล้ว ดังนั้นการสร้าง LLM ที่ดีกว่าจึงต้องอาศัยการได้มาหรือการสร้างข้อมูลที่ไม่เป็นสาธารณะ
สำหรับแล็บที่มีเงิน คำตอบคือการจัดหาข้อมูลที่ไม่เปิดเผยสู่สาธารณะและสร้างข้อมูลขึ้นมาเอง
- ในช่วงแรก จุดเน้นอยู่ที่การทำให้ข้อมูลฝึกเดิมมีประโยชน์มากขึ้น หรือเพิ่มข้อมูลส่วนตัวที่มีอยู่แล้วเข้าไปในพูลข้อมูลฝึก
- ตัวอย่างเช่น
  1. การใส่คำอธิบายกำกับและการกรอง: นักวิจัยสร้างคำอธิบายกำกับให้ข้อมูลฝึก เพื่อให้โฟกัสกับข้อมูลคุณภาพสูงและสร้างโมเดลที่ดีขึ้นได้
  2. RLHF: แล็บให้มนุษย์ประเมินผลลัพธ์ของโมเดล แล้วใช้ข้อมูลนี้ปรับจูนโมเดลและส่งเสริมพฤติกรรมที่มีประโยชน์
  3. ข้อมูลการใช้งาน: ว่ากันว่า ChatGPT สร้างข้อมูลได้ราว 1 หมื่นล้านโทเคนต่อวัน
  4. การได้มาซึ่งข้อมูล: อีเมล บันทึกแชต คู่มือเฉพาะองค์กร JIRA tickets การบันทึกสายโทรศัพท์ รายงานภายใน สัญญา และข้อมูลอีกมากมายไม่ได้อยู่บนอินเทอร์เน็ต และผู้ฝึกโมเดลสามารถนำสิ่งเหล่านี้เข้าไปเป็นข้อมูลฝึกได้
  โฆษณา
แต่เทคนิคเหล่านี้ก็ยังไม่ได้แก้ปัญหาที่ว่า "LLM เปราะบางเมื่อถูกบังคับให้สร้างผลลัพธ์ที่ต่างจากข้อมูลเดิม" ได้อย่างสมบูรณ์
- LLM ยังมีปัญหากับงานประเภทต่อไปนี้ (เพราะมีข้อความบนออนไลน์ที่แสดงสิ่งเหล่านี้ไม่มากนัก)
  1. การแสดงความสงสัยหรือความไม่แน่นอนต่อคำตอบ
  2. การรักษาบทสนทนายาว ๆ โดยไม่วนซ้ำหรือใช้วลีเดิมซ้ำ ๆ
  3. การวางแผนระดับสูงให้ LLM agent นำไปทำตาม
  4. การให้เหตุผลกับโค้ดเบสขนาดใหญ่แบบ legacy เหมือนวิศวกรอาวุโส
  5. การทำตามพรอมป์ตที่ยาวมากหรือซับซ้อนมากได้อย่างเสถียร
สถาปัตยกรรมที่ดีขึ้นและจำนวนพารามิเตอร์ที่มากขึ้นอาจช่วยแก้ข้อจำกัดเหล่านี้ได้ แต่ OpenAI, Meta, Google, Microsoft และบริษัทอื่น ๆ ก็กำลังทุ่มเงินจำนวนมากเพื่ออุดช่องว่างนี้ด้วยวิธีที่ง่ายกว่า นั่นคือ สร้างตัวอย่างใหม่ขึ้นมาฝึก

ตอนนี้ LLM กำลังถูกฝึกด้วยข้อมูลแบบปรับแต่งเฉพาะ

รายงานทางเทคนิคของ Phi-3 จาก Microsoft (เผยแพร่ในเดือนเมษายน) เป็นตัวอย่างล่าสุดของการเพิ่มขึ้นของข้อมูลแบบปรับแต่งเฉพาะ
- phi-3-mini มีพารามิเตอร์เพียง 3.8 พันล้านตัว แต่แสดงประสิทธิภาพที่แข่งขันกับโมเดล Mixtral ที่ใหญ่และหนักกว่ามากได้
- ส่วนหนึ่งของการพัฒนานี้อธิบายได้จากการนำข้อมูลสังเคราะห์คุณภาพสูงที่สร้างโดย LLM ขนาดใหญ่กว่าเข้ามาไว้ในข้อมูลฝึก
- ข้อมูลสังเคราะห์สามารถช่วยอุดช่องว่างของข้อมูลต้นทางจากอินเทอร์เน็ต และเพิ่มประสิทธิภาพของโมเดลเมื่อเทียบกับขนาดของมัน
โฆษณา
ข้อมูลสังเคราะห์เป็นหัวข้อที่กำลังได้รับความสนใจในงานวิจัย LLM ตอนนี้
- ยังไม่ชัดเจนว่าเราจะฝึก LLM ด้วยผลลัพธ์ของตัวมันเองได้ไกลแค่ไหน (อาจเกิดสถานการณ์คล้ายงูโครงข่ายประสาทขนาดยักษ์กินหางตัวเอง)
- แต่อย่างน้อย ข้อมูลสังเคราะห์ก็น่าจะช่วยอุดช่องว่างที่เกิดจากการที่ LLM ทำงานแบบ "เครื่องจำลองอินเทอร์เน็ต" ได้
  - เช่น หากมีตัวอย่างฝึกที่แสดงความไม่แน่นอนไม่พอ หรือข้อมูลมีความลำเอียงเพราะไม่เป็นตัวแทนที่ดี ก็สามารถสร้างตัวอย่างที่ดีกว่าได้
อย่างไรก็ตาม การสร้างข้อมูลสังเคราะห์ชั้นยอดด้วย LLM เป็นปัญหาที่ยาก และน่าจะมีข้อจำกัดอยู่
- ดังนั้นแหล่งข้อมูลมหาศาลสุดท้ายที่อยู่นอกอินเทอร์เน็ตอย่าง "มนุษย์" จึงเข้ามามีบทบาท

ถ้ามีงบปีละ 1 พันล้านดอลลาร์ ($1B) จะสร้างข้อมูลได้มากแค่ไหน?

ถ้าจ่ายเงิน คนก็ยินดีสร้างข้อมูลให้
- Scale.ai เรียกตัวเองว่าเป็น "โรงงานผลิตข้อมูลสำหรับ AI" และให้บริการที่แล็บต่าง ๆ จ่ายเงินให้คนมาสร้างข้อมูล
- มีรายงานว่าบริษัท AI ต่าง ๆ จ่ายเงินให้บริการของ Scale รวมกันมากกว่า 1 พันล้านดอลลาร์ต่อปีอยู่แล้ว
- เงินส่วนหนึ่งใช้ไปกับการใส่คำอธิบายกำกับและประเมินข้อมูลที่มาจากเว็บหรือจาก LLM แต่ก็มีการสร้างข้อมูลฝึกใหม่ขึ้นมาตั้งแต่ต้นด้วย
- Scale มุ่งเน้นไปที่ผู้ปฏิบัติงานเฉพาะทางสูง เช่น นักวิชาการระดับปริญญาเอก ทนายความ นักบัญชี กวี นักเขียน และผู้ที่เชี่ยวชาญภาษาเฉพาะ
- คนเหล่านี้ฝึกและทดสอบโมเดลให้บริษัทอย่าง OpenAI, Cohere, Anthropic และ Google โดยได้รับค่าจ้างรายชั่วโมงที่สูงกว่า
บริษัทอย่าง OpenAI สามารถจ่ายให้ผู้เชี่ยวชาญสร้างข้อมูลใหม่ที่ยอดเยี่ยมเพื่อเติมช่องว่างของข้อมูลจากอินเทอร์เน็ต แล้วนำข้อมูลนั้นไปใช้ฝึกโมเดลต่อภายหลัง
- ชุดข้อมูลอย่าง "ตัวอย่าง 50,000 แบบของการแสดงความไม่แน่นอนอย่างรอบคอบเมื่อ Ph.D. ไม่รู้คำตอบ" อาจมีคุณค่ามากกว่าต้นทุนการผลิตอย่างมาก
เดิมที LLM ถูกเข้าใจว่าเรียนรู้จากอินเทอร์เน็ต และจุดอ่อนในระยะแรกจำนวนมากก็มีที่มาจากเนื้อหาปะปนสารพัดบนเว็บ
แต่เมื่อขนาดและอิทธิพลของข้อมูลฝึกแบบปรับแต่งเฉพาะเพิ่มขึ้น เราก็คาดได้ว่า LLM จะก้าวข้ามการเป็น "เครื่องจำลองอินเทอร์เน็ต" ไปอย่างมาก
- โดยเฉพาะในสิ่งที่ไม่มีอยู่บนอินเทอร์เน็ต แต่สามารถพิสูจน์ให้เห็นได้ผ่านการสร้างข้อมูลแบบปรับแต่งเฉพาะมูลค่ากว่า 1 พันล้านดอลลาร์
กล่าวคือ รถไฟขบวนนี้จะยังคงแล่นต่อไปอีกระยะหนึ่ง

ความเห็นของ GN⁺

ความสำคัญของข้อมูล: การยกระดับประสิทธิภาพของ LLM ต้องอาศัยข้อมูลจากแหล่งที่หลากหลาย ข้อมูลอินเทอร์เน็ตเพียงอย่างเดียวมีข้อจำกัด
ปัญหาเรื่องต้นทุน: การสร้างข้อมูลแบบปรับแต่งเฉพาะมีค่าใช้จ่ายสูงมาก ซึ่งอาจเป็นภาระใหญ่สำหรับแล็บหรือบริษัทขนาดเล็ก
ข้อจำกัดของข้อมูลสังเคราะห์: ข้อมูลสังเคราะห์มีประโยชน์ แต่ก็อาจแตกต่างจากข้อมูลที่มนุษย์สร้างจริง ทำให้ความสมจริงของโมเดลมีข้อจำกัดได้
แนวโน้มอนาคต: คาดว่าการพัฒนา LLM โดยอาศัยข้อมูลแบบปรับแต่งเฉพาะและข้อมูลสังเคราะห์จะดำเนินต่อไป และอาจนำไปสู่นวัตกรรมในหลากหลายสาขา
สถานการณ์การแข่งขัน: บริษัทหลักอย่าง OpenAI, Google และ Microsoft กำลังลงทุนในการสร้างข้อมูลแบบปรับแต่งเฉพาะ ทำให้การแข่งขันน่าจะเข้มข้นขึ้น

2 ความคิดเห็น

bytebrawlers 2024-06-04

สิ่งที่เรียกว่า Data wall ท้ายที่สุดจะเป็นปัญหาเมื่อมี Compute เพียงพอ แต่เมื่อมองในแง่ประสิทธิภาพการใช้พลังงานและการจัดหาพลังงาน ขีดจำกัดของการเพิ่ม Compute หรือก็คือปัญหาเรื่องปริมาณไฟฟ้า จะยิ่งกลายเป็นเรื่องสำคัญมากกว่า

GN⁺ 2024-06-03

ความเห็นจาก Hacker News

บทความนี้ชี้ประเด็นดี ๆ หลายอย่าง โดยเฉพาะ Phi-3 ที่เป็นเทคโนโลยีซึ่งน่าสนใจมาก น่าแปลกที่ไม่ได้กล่าวถึงสถาปัตยกรรมสมัยใหม่อย่าง Anthropic, Mistral และ FAIR
LLM สมัยใหม่ไม่ได้ฝึกด้วยข้อมูลที่เก็บมาจากเว็บเท่านั้น แต่ยังฝึกด้วยชุดข้อมูลแบบกำหนดเองที่ผู้คนจำนวนมากสร้างขึ้นด้วย สิ่งนี้แสดงให้เห็นถึงศักยภาพในการเติบโต แต่ก็มีความเสี่ยงที่จะขยายตัวไปอย่างไร้ขีดจำกัดในทิศทางที่ผิด
การที่มนุษย์สร้างข้อมูลที่มีอคติเป็นปัญหา ตัวอย่างของการที่ LLM ไม่สามารถสร้างคำตอบที่มีความคิดริเริ่มได้คือ มันไม่สามารถเสนอวิธีที่หลากหลายในการชักจูงให้กดปุ่มสมัครรับข้อมูลบน YouTube ได้
ข้อมูลที่ใช้ฝึก LLM มาจากโปรแกรมเมอร์ชาวอินเดียค่าแรงต่ำเป็นผู้จัดทำ ปัจจุบันผู้เชี่ยวชาญเป็นผู้ให้ข้อมูล แต่ก็มีความเป็นไปได้ว่าจะเปลี่ยนไปใช้แรงงานค่าแรงต่ำ
เหตุผลที่ expert system ล้มเหลวคือจำเป็นต้องจ่ายค่าตอบแทนให้ผู้เชี่ยวชาญอย่างต่อเนื่อง ความร่วมมือระหว่าง OpenAI และ MS มีเป้าหมายเพื่อบรรลุ AGI (ปัญญาประดิษฐ์ทั่วไป) แต่ก็มีข้อจำกัดที่เป็นรูปธรรม
การฝึกโมเดลแบบ multimodal ยังเป็นความท้าทาย ปัญหาคอขวดเกิดจากปัจจัยอื่น ไม่ใช่การขาดแคลนข้อมูล
ชุดข้อมูลอย่าง "ตัวอย่าง 50,000 รายการของการแสดงความไม่แน่ใจอย่างระมัดระวังต่อคำถามที่แม้แต่ผู้จบ Ph.D. ก็ไม่รู้" อาจมีมูลค่าสูงกว่าต้นทุนในการผลิตเสียอีก
หวังว่าจะมีโครงการคล้าย WPA ที่เกิดจากการลงทุนด้านเทคโนโลยี เพื่อให้คนเขียนงานที่มีทักษะได้เขียนต่อไป ซึ่งอาจสร้างคลังผลงานเขียนคุณภาพสูงจากมนุษย์ได้
ความก้าวหน้าครั้งใหญ่ของ AI ในอนาคตน่าจะไม่เกี่ยวข้องกับข้อมูล
OpenAI และบริษัทอื่น ๆ จะจ่ายเงินจำนวนมากให้บริษัทที่สัญญาว่าจะเก็บข้อมูลเป็นความลับ เช่น Slack, Atlassian และ Dropbox