- การปฏิวัติ AI แบบโอเพนซอร์สยังไม่เกิดขึ้นจริง
- แน่นอนว่ามีโมเดลแบบ open weights ที่น่าประทับใจอยู่ และเราก็ขอขอบคุณผู้ที่เปิดเผย weights แต่ หากไม่สามารถทำซ้ำโมเดลได้ ก็ไม่ใช่โอเพนซอร์สที่แท้จริง
- ลองจินตนาการว่าในโลก Linux มีการเผยแพร่แค่ไบนารีโดยไม่มี codebase หรือเผยแพร่เฉพาะ codebase โดยไม่มีคอมไพเลอร์ที่ใช้สร้างไบนารี นี่คือสถานการณ์ในปัจจุบัน
- เรื่องนี้มีข้อเสียหลายอย่าง
- ไม่สามารถกลับไปมีส่วนร่วมกับโครงการได้อีก
- โครงการไม่ได้รับประโยชน์จากวงจรป้อนกลับของ OSS
- ตรวจสอบได้ยากว่าโมเดลไม่มีแบ็กดอร์ (เช่น latent agent)
- ไม่สามารถตรวจสอบได้ว่าข้อมูล ฟิลเตอร์คอนเทนต์ และนโยบายของบริษัทสอดคล้องกันหรือไม่
- หากต้องการรีเฟรชโมเดล ก็ต้องพึ่งพาบริษัท
- โปรเจกต์ LLM แบบโอเพนซอร์สที่แท้จริง ซึ่งเปิดเผยทุกอย่างตั้งแต่ codebase ไปจนถึง data pipeline สามารถสร้างคุณค่าและความคิดสร้างสรรค์ได้มาก และช่วยปรับปรุงความปลอดภัยได้
- แต่การทำให้ได้ weights ที่ทำซ้ำได้ไม่ใช่เรื่องง่ายเหมือนการคอมไพล์โค้ด เพราะต้องมีทั้งทรัพยากรประมวลผลและความชำนาญ
- และการรีวิว contribution ก็ยาก เพราะจะไม่รู้ว่ามันส่งผลต่อประสิทธิภาพอย่างไรจนกว่าจะรันการเทรนรอบถัดไป
- แต่คนหรือกลุ่มที่มีแรงจูงใจมากพอสามารถทำความเข้าใจรายละเอียดเหล่านี้ได้ และแม้มันอาจดูต่างจาก OSS แบบเดิมมาก แต่ความท้าทายใหม่เหล่านี้เองคือ เหตุผลที่ทำให้พื้นที่นี้น่าสนุก
3 ความคิดเห็น
พูดได้ถูกต้อง,
ดังนั้น open source กำลังกลายเป็น Myth หรือ Urban Legend ไปแล้ว ถ้าพูดกันตามความเป็นจริง โมเดล open source ที่แท้จริงในความหมายที่สามารถทำซ้ำได้อย่างสมบูรณ์บนเว็บไซต์เหล่านี้ แทบไม่มีอยู่เลย ส่วนใหญ่เป็น marketing stunt.
ก็พอเข้าใจอยู่เหมือนกัน... ช่วงนี้โมเดลที่ออกมากันต้องใช้พลังประมวลผลและเวลาสำหรับการฝึกโมเดลมากจนคนทั่วไปแทบจะทำซ้ำได้ยากแล้ว เลยไม่ค่อยแน่ใจเหมือนกันว่าจะมองว่าอย่างไร
แต่ในกรณีของการเปิดเผยชุดข้อมูล อันนี้ผมก็เห็นด้วยอยู่พอสมควรครับ
ความเห็นจาก Hacker News