ช่องว่างระหว่าง LLM แบบโอเพนเวทกับ LLM แบบปิด

(blog.doubleword.ai)

1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ใน Artificial Analysis Intelligence Index แนวโน้มแสดงให้เห็นว่าเวลาที่ LLM แบบโอเพนเวท ใช้ในการไล่ตามสมรรถนะในอดีตของ LLM แบบปิด ลดลงอย่างต่อเนื่องตั้งแต่ฤดูร้อนปี 2024
เมื่อลากเส้นแนวโน้มบนตัวชี้วัดเดี่ยวนี้ จะได้การคาดการณ์ว่าช่องว่างจะเหลือ 0 เดือนในวันที่ 3 ธันวาคม 2026 ทำให้โมเดลเปิดแตะระดับแนวหน้าของโมเดลแบบปิดตามตัวชี้วัด
แต่เมื่อขยายการวิเคราะห์เดียวกันไปยัง 18 เบนช์มาร์ก ทั้งหมด ช่องว่างเฉลี่ยแทบจะราบเรียบ และตลอดช่วงเวลาทั้งหมดอยู่ในระดับต่ำกว่า 5 เดือน
การปรับปรุงส่วนใหญ่เกิดขึ้นใน เบนช์มาร์กด้านการเขียนโค้ด โดยช่องว่างของตัวชี้วัดด้านโค้ดลดลงจาก 15 เดือนเหลือ 1–2 เดือน
การประเมินคุณภาพของ LLM แปรผันอย่างมากตามเกณฑ์การวัด จึงตีความได้พร้อมกันทั้งว่าโมเดลเปิดกำลังจะไล่ทันในไม่ช้า และว่ายังคงตามหลังอยู่ราว 5 เดือน

การไล่ตามอย่างรวดเร็วที่ตัวชี้วัดเดี่ยวแสดงให้เห็น

ช่องว่างคำนวณโดยยึดเส้นแนวหน้าของเบนช์มาร์กของ LLM แบบโอเพนเวท แล้วไล่ย้อนดูว่าเส้นแนวหน้าของ LLM แบบปิดเคยทำสมรรถนะเท่ากันในอดีต ณ ช่วงเวลาใด
ตัวชี้วัดหลักที่ใช้คือ Artificial Analysis Intelligence Index ของ Artificial Analysis ซึ่งเป็นตัวชี้วัดที่มุ่งประเมินความสามารถโดยรวมของโมเดล
ในตัวชี้วัดนี้ ช่องว่างระหว่าง LLM แบบโอเพนเวทกับ LLM แบบปิดเริ่มลดลงตั้งแต่ราวฤดูร้อนปี 2024 และแนวโน้มการลดลงยังดำเนินต่อมา
หากขยายเส้นแนวโน้มไปในอนาคต ช่องว่างจะเหลือ 0 เดือนในวันที่ 3 ธันวาคม 2026
- คำนวณได้ว่าเป็นเวลาประมาณ 6 เดือนหลังจากช่วงเวลาที่เขียน

ข้อสรุปอีกแบบจาก 18 เบนช์มาร์ก

เมื่อนำการวิเคราะห์เดียวกันไปใช้กับ 18 เบนช์มาร์ก ทั้งหมดของ Artificial Analysis ภาพที่ได้ต่างจากตัวชี้วัดเดี่ยว
ในแต่ละเดือน ทำ box plot ของช่องว่างราย 18 ชุดข้อมูล แล้วคำนวณเส้นแนวโน้มของช่องว่างเฉลี่ยทั้งชุดข้อมูล
เส้นแนวโน้มของช่องว่างเฉลี่ยแทบจะราบสนิท และตลอดช่วงเวลาทั้งหมดอยู่ใกล้ระดับ ต่ำกว่า 5 เดือน
ส่วนสำคัญของการพัฒนาโมเดลเกิดขึ้นใน ตัวชี้วัดด้านการเขียนโค้ด
- ดัชนีด้านการเขียนโค้ดลดจากระดับตามหลัง 15 เดือน เหลือตามหลัง 1–2 เดือน
- ในชุดข้อมูลอื่นส่วนใหญ่ ช่องว่างมีแนวโน้มค่อย ๆ กว้างขึ้นเมื่อเวลาผ่านไป
การตัดสินคุณภาพของ LLM แตกต่างกันมากตามเกณฑ์การวัด
- เกณฑ์หนึ่งสามารถคาดการณ์ singularity แบบโอเพนซอร์สราวช่วงคริสต์มาสได้
- อีกเกณฑ์หนึ่งชี้ว่า LLM แบบโอเพนซอร์สตามหลัง LLM แบบปิดอย่างต่อเนื่องราว 5 เดือน และช่องว่างอาจกว้างขึ้นได้

1 ความคิดเห็น

GN⁺ 4 시간 전

ความคิดเห็นจาก Hacker News

ปัญหาใหญ่ที่สุดของอนาคตโมเดลแบบเปิดน้ำหนัก คือ โมเดลแบบเปิดน้ำหนัก ในตอนนี้เป็นผลลัพธ์ที่อาศัยความปรารถนาดีขององค์กรเอกชนอย่าง DeepSeek
ก๊อกน้ำอาจถูกปิดได้ทุกเมื่อ และจนกว่าจะมี ฮาร์ดแวร์ที่ชุมชนเป็นเจ้าของ ในรูปแบบใดรูปแบบหนึ่ง โมเดลแบบเปิดน้ำหนักก็จะยังมีความเสี่ยงที่จะหยุดชะงักอยู่เสมอ
- ถึงอย่างนั้น ข้อได้เปรียบที่ใหญ่ที่สุดของโมเดลเปิดคือ ประสิทธิภาพที่เผยแพร่ออกมาแล้วไม่อาจถูกพรากกลับไปได้
  ต่อให้จากนี้ไม่มีโมเดลใหม่ออกมาอีกเลย ความสามารถที่ไปถึงแล้วก็ยังคงอยู่ ตรงกันข้าม โมเดลแบบ API ผู้ให้บริการสามารถปิดได้ตามใจ และอาจเกิดเรื่องอย่าง gpt5-mini หายไปในไม่ช้า แล้วถูกแทนที่ด้วย 5.4-mini ที่แพงกว่า
  Nvidia ได้ประโยชน์โดยตรงยิ่งผู้คนรันโมเดลมากขึ้น จึงมีแรงจูงใจที่จะออกตระกูล Nemotron ต่อไป ส่วน Google ก็รู้ว่าโมเดลขนาดเล็กที่จะใช้กับฟีเจอร์ของเบราว์เซอร์อย่างไรก็ต้องรั่วอยู่ดี ดังนั้นการไปคว้าส่วนแบ่งตลาดนักพัฒนาจึงดีกว่า
  ห้องแล็บจีนก็มีแรงจูงใจที่จะเปิดโมเดลต่อไป และด้วยสงครามการค้าระหว่างประเทศ การสนับสนุนจากรัฐบาลก็น่าจะดำเนินต่อไปด้วย
- DeepSeek ไม่ใช่องค์กรการกุศล แต่ใกล้เคียงกับ เฮดจ์ฟันด์ ที่ต้องการชอร์ตตลาด AI ตะวันตกมากกว่า
  เป็นทำนองว่า “เราทำ 90% ของพวกคุณได้ด้วยต้นทุน 1/10 และถ้าดูตัวชี้วัดด้านความหนาแน่น เรายังดีกว่าอีก” และอย่างน้อยตามทฤษฎีของผม มันดูเหมือน Hindenburg Research เวอร์ชัน AI
- ในฐานะผู้เขียนต้นฉบับของบทความ ผมคิดว่าอนาคตของโมเดลแบบเปิดน้ำหนักน่าจะคล้ายกับ บริษัทออกแบบชิปแบบ fabless
  อาจเกิดโครงสร้างที่มีบริษัทที่ฝึกโมเดลได้ แล้วให้ไลเซนส์โมเดลนั้นแก่บริษัท inference ที่ดำเนินงาน API
  บริษัท inference สามารถดำเนินงานได้ด้วยเงินทุนน้อยกว่ามาก และบริษัทฝึกโมเดลก็ไม่ต้องถูกแย่งทรัพยากรไปกับ inference
  บริษัทฝึกโมเดลจีนบางแห่งกำลังให้ไลเซนส์โมเดลแก่ผู้ให้บริการ inference ในลักษณะนี้อยู่แล้ว
- จำเป็นต้องมีอะไรสักอย่างแบบ SETI@Home สำหรับการฝึกโมเดล
- นี่ไม่ใช่การกุศล และห้องแล็บต่าง ๆ ก็ได้ประโยชน์จากการเรียนรู้จากโมเดลเปิดของกันและกัน
  มองในเชิงการเงินก็สมเหตุสมผล ผู้ใช้ที่ใช้งานจนเต็มลิมิตของการสมัครสมาชิกอาจสร้างต้นทุนให้ผู้ให้บริการมากกว่าค่าสมัคร และนี่อาจเป็นเหตุผลที่ Anthropic มีปฏิกิริยาแรงต่อการเก็บข้อมูลจากจีน
  หากเปิดเผยน้ำหนัก คู่แข่งก็ไม่จำเป็นต้องไปเคาะบริการสมัครสมาชิก แต่สามารถดาวน์โหลดโมเดลมาวิเคราะห์และรันได้ทั้งวัน จึงช่วยลดภาระ
  โมเดลที่ใหญ่ที่สุดแทบไม่มีเหตุผลให้รันเอง เว้นแต่เป็นผู้เล่นรายใหญ่ การเช่าฮาร์ดแวร์แพงกว่าค่าสมัครสมาชิกอย่างไม่สมเหตุสมผลและมีค่าใช้จ่ายเป็นหลักหมื่นดอลลาร์ ส่วนถ้าจะซื้อก็ต้องใช้เงินหลายแสนดอลลาร์
มีสำนวนประมาณว่า “ตอนนี้เป็นเวลาที่ดีที่จะถอนเงินบำนาญออกมาเป็นเงินสด แล้วบินไปเกาะห่างไกลเพื่อใช้เวลาราว 6 เดือนสุดท้ายที่อารยธรรมเหลืออยู่อย่างสงบ” และ “ดังนั้นวันสิ้นโลกของโอเพนซอร์สอาจยังมาไม่ถึงก็ได้” แต่ไม่รู้ว่า โมเดลโอเพนซอร์ส ดี ๆ กลายเป็นลางบอกเหตุวันสิ้นโลกตั้งแต่เมื่อไร
- ที่จริง โมเดลโอเพนซอร์สคือ การป้องกันความเสี่ยง ต่อวันสิ้นโลกมากกว่า
  อย่างน้อยก็ถือได้ว่าเป็นการป้องกันความเสี่ยงต่อดิสโทเปียแบบไซเบอร์พังก์
- ผมมองว่าเป็นการพูดทีเล่นทีจริงถึงผลลัพธ์อันน่ากลัวที่ว่า หาก open weights ไปถึงความสามารถของโมเดลล้ำหน้าสุด ทุกคนก็จะได้ครอบครอง โมเดลระดับ mythos+ แบบไร้ข้อจำกัด
- น่ารักดี ผลกระทบแบบวันสิ้นโลกของการเปลี่ยนแปลงสภาพภูมิอากาศต่อพืชอาหารและอัตราการเกิดมะเร็ง โดยเฉพาะหลังการสลายตัวของชั้นโอโซน ยังเปลี่ยนผู้คนไม่ได้เลย
  แต่ LLM โมเดลเปิด กลับถูกมองเป็นสัตว์ประหลาด หมายความว่าตลาดควรถูก OpenAI หรือ Anthropic ควบคุมอย่างปลอดภัยและเป็นผู้ตัดสินใจทุกอย่างงั้นหรือ
- บทความนี้เป็นบล็อกโพสต์ของบริษัทที่โฮสต์ LLM แบบเปิดน้ำหนัก (https://www.doubleword.ai/)
  น่าจะเป็น สำนวนเชิงล้อเล่น มากกว่า
- กระแสวันสิ้นโลกกำลังพุ่งขึ้นสูงสุดเป็นประวัติการณ์ และผู้คนดูเหมือนจะ ประสาทวิตก มากขึ้นทุกวัน
จากแนวโน้มตอนนี้ โมเดลของจีนคงยากที่จะไล่แซงโมเดลล้ำหน้าสุดของสหรัฐฯ
ความได้เปรียบของโมเดลสหรัฐฯ มาจากการได้ข้อมูลที่มากกว่าและคุณภาพดีกว่า โดยหลักคือ ข้อมูลสังเคราะห์ ด้วยวิธีที่ถึงขั้นใช้โมเดลครูขนาดมหึมาสร้างขึ้น ซึ่งแทบเป็นไปไม่ได้เลยที่จะนำไปใช้กับทราฟฟิกสนทนาจริง
โมเดลของจีนเดินหน้าด้วยการทุ่มความพยายามมหาศาลกับการปรับแต่งโมเดลให้เหมาะสม และการได้ข้อมูลฝึกที่มากกว่าและคุณภาพดีกว่าจากโมเดลล้ำหน้าสุดของสหรัฐฯ
หากโมเดลโอเพนเวตของจีนจะก้าวข้ามโมเดลล้ำหน้าสุดของแล็บสหรัฐฯ สมการนี้ต้องพลิกกลับ แล็บจีนต้องออกจากการเก็บเกี่ยวข้อมูลจากโมเดลล้ำหน้าสุด แล้วสร้างระบบข้อมูลและความพยายามเพื่อสร้างข้อมูลใหม่ รวมถึงต้องมีฮาร์ดแวร์รุ่นล่าสุดจำนวนมากด้วย
การฝึกโมเดลขนาดล้ำหน้าสุดเองไม่ใช่ภารกิจที่จินตนาการไม่ได้ จุดที่ต้องใช้ฮาร์ดแวร์จริง ๆ คือฝั่ง การอนุมานของโมเดลครู
- ตราบใดที่ไม่ได้ทำงานในบริษัทเหล่านั้น เราก็ไม่รู้ว่าพวกเขาทำอะไรกันจริง ๆ
  ผมไม่รู้ภายในของ z.ai หรือ Alibaba และไม่รู้ภายในของ Anthropic หรือ OpenAI เช่นกัน
  แต่ดูแล้วเป็นไปได้น้อยมากที่พวกเขาจะไม่เก็บข้อมูลจากกันและกัน ผมมั่นใจว่า Anthropic ก็น่าจะมีทีมที่ตรวจดู เวตของ GLM 5.2 อย่างน้อยก็เพื่อจับตาคู่แข่ง
  การที่แล็บใดแล็บหนึ่งได้ข้อมูลของ Anthropic ไม่ได้แปลว่าไม่ได้ทำวิจัยของตัวเอง
  ที่พวกเขาโฟกัสกับการปรับแต่งให้เหมาะสมก็เพราะหาเข้าถึงฮาร์ดแวร์ที่ดีที่สุดไม่ได้ และเหตุผลเดียวที่แล็บระดับบนตามหลังอาจเป็นเพียงเพราะไม่มี H200 หรือ MI350 ก็ได้ ตอนนี้พวกเขาได้มีแล้ว
  ยังมีความเสี่ยงอีกอย่างที่ถูกประเมินต่ำไป Anthropic กำลังงัดข้อกับรัฐบาลสหรัฐฯ และตอนนี้กักโมเดล “ดีที่สุด” ของโลกไว้ภายใน
  จีนก็อาจคล้ายกัน เท่าที่ทราบ รัฐบาลจีนเปิดกว้างอย่างน่าประหลาดใจต่อการส่งออก AI และโมเดลโอเพนเวต แต่ก็ยังมีความเป็นไปได้เล็ก ๆ ที่มองข้ามไม่ได้ว่า พวกเขาอาจถือเวอร์ชันที่ดีกว่าของ GLM 5.2 ไว้ภายใน และไม่มีใครพูดออกมาได้
  ภายนอกแยกได้ยากระหว่างกรณีที่แล็บจีนล้าหลัง 6 เดือน กับกรณีที่ถูกบังคับให้กดโมเดลที่ดีที่สุดไว้
- ต่อให้คำอธิบายว่า “แล็บจีนต้องออกจากการเก็บเกี่ยวข้อมูลจากโมเดลล้ำหน้าสุด แล้วสร้างข้อมูลใหม่” จะถูกต้อง พวกเขาก็สามารถทำแบบนั้นได้ตั้งแต่พรุ่งนี้ และไม่ได้สายตาสั้นถึงขั้นคิดเรื่องนี้ไม่ออก
  ผมไม่มองว่านี่เป็นกำแพงกั้น และรู้สึกคล้ายกับ การประเมินเอเชียต่ำเกินไป ที่ดำเนินมาตลอด 50 ปีที่ผ่านมา
  การสร้าง LLM ไม่ได้มีข้อได้เปรียบโดยกำเนิดที่มีเฉพาะสหรัฐฯ และความได้เปรียบจากการเริ่มก่อนของสหรัฐฯ ก็มีแนวโน้มจะถูกถ่วงและสูญเปล่าไปกับเกมควบคุมการส่งออกทำนองว่า “อันตรายเกินกว่าจะเปิดเผย”
- ปริมาณข้อมูลที่ Anthropic อ้างว่าถูกดึงออกไปเพื่อการกลั่นโมเดลนั้นเล็กมากเมื่อเทียบกับอินเทอร์เน็ตทั้งหมด
  บนอินเทอร์เน็ตมีความรู้ส่วนใหญ่ที่คาดหวังให้โมเดลรู้แทบจะอยู่ครบอยู่แล้ว
  การกลั่นจากโมเดลที่ดีกว่าด้วยข้อมูลปริมาณเล็กน้อยยังคงมีประโยชน์ แต่ใกล้เคียงกับการค้นหาความสามารถที่เข้ากับ บุคลิกผู้ช่วยที่เชื่อฟัง และกดทับความสามารถที่ไม่ต้องการอย่างการก่อกวน มากกว่าการถ่ายโอนความสามารถที่ไม่มีอยู่เลยในโมเดลที่ฝึกจากอินเทอร์เน็ตเดิม
  การใช้ชุดข้อมูล instruction tuning ที่สร้างด้วย ChatGPT กับ Alpaca และอื่น ๆ คือเวอร์ชันแบบดั้งเดิมของสิ่งนี้
  หากไม่มีเป้าหมายชัดเจนให้เลียนแบบ คู่แข่งคงต้องพึ่งผู้ประเมินมนุษย์มากขึ้น แต่จีนมีบริษัททำ data labeling จำนวนมาก จึงไม่ใช่อุปสรรคใหญ่
- ความคิดที่ว่า “จีนทำได้แค่ลอกสหรัฐฯ” เป็นการตัดสินที่ สายตาสั้นและมีข้อมูลไม่พอ มาก
  สิ่งที่ออกมาจากจีนไม่ได้มีแค่วิธีใหม่ของการกลั่นโมเดลเท่านั้น
- นึกไม่ออกเลยว่าจะเป็นไปได้อย่างไร อีกไม่นานตัวเลือกก็คงเหลือแค่โมเดล OAI ที่เก่ามาก หรือโมเดลจีนรุ่นใหม่
  รัฐบาลสหรัฐฯ ดูไม่มีเจตนาจะให้เข้าถึงโมเดลล่าสุดโดยไม่มีการอนุญาตอย่างชัดเจน
ไม่ค่อยเห็นคนพูดว่าโมเดลปิดสามารถ โกงเบนช์มาร์กได้ในทางปฏิบัติ
สิ่งที่ Anthropic หรือ OpenAI นำไปติดแบรนด์ว่าเป็นโมเดล ไม่จำเป็นต้องเป็นแค่เวตเสมอไป แต่อาจเป็นระบบแบ็กเอนด์ทั้งหมดที่เสริมตัวโมเดลเอง
ถ้าเป็นแบบนั้น คะแนนเบนช์มาร์กก็อาจออกมาดีกว่าโมเดลโอเพนซอร์สที่มีแค่เวต
- ใช่ และผมว่าก็ไม่เป็นไร ควรนับทั้งหมดนั้นเป็นสมรรถนะ
  โอเพนซอร์สก็เช่นกัน และการรันเบนช์มาร์กก็ไม่ได้ทำโดยไม่มีเครื่องมือเรียกใช้อะไรเลย
  ไม่มีใครสนใจว่า AGI สร้างจากโครงข่ายประสาท 100% หรือสร้างจาก โครงข่ายประสาท 50% กับสคริปต์ Perl 50%
การที่ส่วนสำคัญของการพัฒนาสมรรถนะโมเดลมาจาก เบนช์มาร์กการเขียนโค้ด นั้นสมเหตุสมผล
การเขียนโค้ดเป็นหนึ่งในการใช้งานระยะสั้นที่ชัดเจนที่สุดของโมเดล มีตลาดที่พร้อมจ่ายเงินจำนวนมากต่อโทเคน มีคลังข้อความขนาดมหึมาให้ทำงานด้วย และตัวขอบเขตปัญหาก็มีความสามารถในการตรวจสอบความถูกต้องฝังอยู่มากพอสมควร
สหรัฐฯ ซึ่งเป็นที่รู้จักในฐานะดินแดนแห่งเสรีภาพ ตอนนี้กลับจำกัดไม่ให้คนที่ไม่ใช่ชาวอเมริกันใช้ โมเดลล้ำหน้าสุด เสียแล้ว
ในทางกลับกัน จีนซึ่งถูกมองว่าเป็น “รัฐอำนาจนิยม” และเหมือน “ขั้วตรงข้ามของเสรีภาพ” กลับสร้างโมเดลโอเพนเวตที่แข่งขันได้ทั้งหมด โดยเฉพาะบนฐานของอุตสาหกรรมซอฟต์แวร์ที่เป็นทุนนิยม
ช่างย้อนแย้งจริง ๆ
ในฐานะคนจีน ผมเข้าใจว่ากลยุทธ์นี้คือการใช้โอเพนซอร์สเป็นเครื่องมือแข่งขันแบบไม่สมมาตรในฐานะฝ่ายตามหลัง และชดเชยทรัพยากรคอมพิวต์ที่ขาดแคลนด้วยการกระจายภาระ ถึงอย่างนั้นก็ยังย้อนแย้งมาก
- การเปรียบเทียบนี้พังตั้งแต่ประโยคแรก
  สหรัฐฯ อาจเรียกตัวเองว่าเป็นดินแดนแห่งเสรีภาพได้ แต่เล่นเกม ลัทธิคุ้มครองทางเศรษฐกิจ มาหลายร้อยปีแล้ว
  เรื่องนี้ก็เป็นแค่ตัวอย่างล่าสุดเท่านั้น
สงสัยว่าบริษัทโมเดลแบบปิดกำลังให้ การบูสต์ประสิทธิภาพ แก่โมเดลเปิดอยู่มากน้อยแค่ไหน
ถ้าการปรับปรุงของโมเดลปิดหยุดลง ความก้าวหน้าของโมเดลเปิดจะช้าลงด้วยหรือไม่
- ไม่เข้าใจว่าทำไมถึงสมมติว่ามีแต่แล็บวิจัยของสหรัฐฯ เท่านั้นที่สร้างนวัตกรรมได้
  ตัวอย่างเช่น DeepSeek ได้สร้างนวัตกรรมด้าน ประสิทธิภาพเชิงประสิทธิผล ไปมากแล้ว
- คนบางกลุ่มในจีนคงรู้ชัดเจนว่า “การกลั่น” ช่วยให้โมเดลแบบเปิดเวทไล่ตามทันได้มากแค่ไหน
  สมมติฐานในทำนองว่า หากโมเดลปิดหยุดพัฒนา โมเดลปิดทั้งหมดก็จะหยุดไปด้วยนั้น แทบเป็นไปได้ยากมาก เว้นแต่ว่าโมเดลจะไปชนกำแพงบางอย่างในไม่ช้า
  บริษัทจีนอาจตามหลังสหรัฐฯ ในด้านกำลังประมวลผล แต่ก็มีนักวิจัยที่ยอดเยี่ยมในสาขาการสร้างโจทย์และการเรียนรู้แบบเสริมกำลัง ซึ่งตอนนี้ทำงานได้ดี อยู่ในระดับใกล้เคียงกับเพื่อนร่วมสายงานในสหรัฐฯ [0]
  โดยเฉพาะในด้านที่มี ลูปป้อนกลับสั้น ได้ เช่น การเขียนโปรแกรม การพัฒนาอย่างรวดเร็วน่าจะดำเนินต่อไปได้จนถึงจุดที่พวกเรามนุษย์ผู้แสนธรรมดาไร้ความสามารถในการนิยามฟังก์ชันวัตถุประสงค์
  ในทางกลับกัน ในสาขาที่ฟีดแบ็กช้าหรือมีต้นทุนสูง ก็ไม่คาดหวังปาฏิหาริย์ บริษัทยาขนาดใหญ่ที่มีความสามารถก็ยังไม่สามารถคิดค้นยาใหม่เจ๋งๆ ได้อย่างสม่ำเสมอ เพราะกระบวนการประเมินช้าและแพงเกินไป และด้วยเหตุผลเดียวกัน โมเดลก็คงทำเช่นนั้นได้ยากในเร็วๆ นี้
  หากจะรันการเรียนรู้แบบเสริมกำลังโดยทำซ้ำเส้นทางพัฒนายา n เส้นทาง m รอบ แม้จะเป็นไปได้ ก็จะต้องใช้ต้นทุนเท่ากับ n*m คูณด้วย 10 ล้าน~100 ล้านดอลลาร์ และใช้เวลา m ปี
  [0] ภาวะ สมองไหล ที่เคยทำให้คนเก่งจากทั่วโลกไหลผ่านระบบมหาวิทยาลัยของสหรัฐฯ ไปยังแล็บวิจัยในสหรัฐฯ กำลังเหือดแห้งลง ความได้เปรียบของสหรัฐฯ ในสาขานี้จึงมีแนวโน้มลดลง
น่าสนใจเมื่อมองร่วมกับมาตรการห้ามส่งออกล่าสุดของสหรัฐฯ
สหรัฐฯ กำลัง สิ้นเปลืองความเป็นผู้นำ โดยทำให้โอเพนซอร์ส โดยเฉพาะแล็บวิจัยจีน ไล่ตามทันในแง่คุณภาพของโมเดลที่ประชาชนทั่วไปใช้ได้หรือไม่
แล็บวิจัยของสหรัฐฯ จะรักษาความได้เปรียบไว้ได้หรือไม่ แม้ผู้ใช้จะไม่สามารถใช้โมเดลล่าสุดได้
- สงสัยว่าทำไมเรื่องนั้นถึงสำคัญ
  ไม่ได้หมายความว่าสำคัญหรือไม่สำคัญ แต่ไม่รู้ว่า “สหรัฐฯ ชนะ” หรือ “จีนชนะ” มี คุณค่าเชิงปฏิบัติ อะไร
หากความเชื่อที่ว่าโมเดลแบบเปิดเวทและโมเดลจีนพึ่งพาการกลั่นจากโมเดลล้ำสมัยล่าสุดอย่างมากนั้นถูกต้อง ช่องว่างก็จะทรงตัวอยู่ที่ระดับเวลาขั้นต่ำที่จำเป็นในการดึงข้อมูลที่มีความหมายจากโมเดลล้ำสมัยล่าสุด บวกกับเวลาปิดการฝึกของโมเดลรุ่นล่าสุดที่พึ่งพาข้อมูลนั้น
ช่องว่างนี้ลดลงได้ด้วยการเพิ่มประสิทธิภาพของกระบวนการ แต่ไม่สามารถทำให้หายไปทั้งหมดได้
ความพยายามขัดขวางการกลั่นจาก Anthropic หรือ OpenAI ก็อาจเปลี่ยนดุลยภาพได้เช่นกัน
สงสัยว่าบริษัทและรัฐบาลจำนวนมากที่เชื่อว่าตนต้องอยู่แนวหน้าของการประยุกต์ใช้ LLM ชั้นนำ และเริ่มพึ่งพามันมากขึ้นเรื่อยๆ จะตกอยู่ในสถานการณ์แบบเรื่องสั้น Superiority ของ Arthur C. Clarke หรือไม่
[1] ต้นฉบับ: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)

ช่องว่างระหว่าง LLM แบบโอเพนเวทกับ LLM แบบปิด

การไล่ตามอย่างรวดเร็วที่ตัวชี้วัดเดี่ยวแสดงให้เห็น

ข้อสรุปอีกแบบจาก 18 เบนช์มาร์ก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News