หากไม่สามารถทำซ้ำโมเดลได้ มันก็ไม่ใช่โอเพนซอร์ส

xguru · 2024-01-22T10:27:01+09:00

การปฏิวัติ AI แบบโอเพนซอร์สยังไม่เกิดขึ้นจริง แน่นอนว่ามีโมเดลแบบ open weights ที่น่าประทับใจอยู่ และเราก็ขอขอบคุณผู้ที่เปิดเผย weights แต่ หากไม่สามารถทำซ้ำโมเดลได้ ก็ไม่ใช่โอเพนซอร์สที่แท้จริง ลองจินตนาการว่าในโลก Linux มีการเผยแพร่แค่ไบนารีโดยไม่มี codebase หรือเผยแพร่เฉพาะ codebase โดยไม่มีคอมไพเลอร์ที่ใช้สร้างไบนารี นี่คือสถานการณ์ในปัจจุบัน เรื่องนี้มีข้อเสียหลายอย่าง ไม่สามารถกลับไปมีส่วนร่วมกับโครงการได้อีก โครงการไม่ได้รับประโยชน์จากวงจรป้อนกลับของ OSS ตรวจสอบได้ยากว่าโมเดลไม่มีแบ็กดอร์ (เช่น latent agent) ไม่สามารถตรวจสอบได้ว่าข้อมูล ฟิลเตอร์คอนเทนต์ และนโยบายของบริษัทสอดคล้องกันหรือไม่ หากต้องการรีเฟรชโมเดล ก็ต้องพึ่งพาบริษัท โปรเจกต์ LLM แบบโอเพนซอร์สที่แท้จริง ซึ่งเปิดเผยทุกอย่างตั้งแต่ codebase ไปจนถึง data pipeline สามารถสร้างคุณค่าและความคิดสร้างสรรค์ได้มาก และช่วยปรับปรุงความปลอดภัยได้ แต่การทำให้ได้ weights ที่ทำซ้ำได้ไม่ใช่เรื่องง่ายเหมือนการคอมไพล์โค้ด เพราะต้องมีทั้งทรัพยากรประมวลผลและความชำนาญ และการรีวิว contribution ก็ยาก เพราะจะไม่รู้ว่ามันส่งผลต่อประสิทธิภาพอย่างไรจนกว่าจะรันการเทรนรอบถัดไป แต่คนหรือกลุ่มที่มีแรงจูงใจมากพอสามารถทำความเข้าใจรายละเอียดเหล่านี้ได้ และแม้มันอาจดูต่างจาก OSS แบบเดิมมาก แต่ความท้าทายใหม่เหล่านี้เองคือ เหตุผลที่ทำให้พื้นที่นี้น่าสนุก

(twitter.com/amasad)

15 คะแนน โดย xguru 2024-01-22 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

การปฏิวัติ AI แบบโอเพนซอร์สยังไม่เกิดขึ้นจริง
แน่นอนว่ามีโมเดลแบบ open weights ที่น่าประทับใจอยู่ และเราก็ขอขอบคุณผู้ที่เปิดเผย weights แต่ หากไม่สามารถทำซ้ำโมเดลได้ ก็ไม่ใช่โอเพนซอร์สที่แท้จริง
ลองจินตนาการว่าในโลก Linux มีการเผยแพร่แค่ไบนารีโดยไม่มี codebase หรือเผยแพร่เฉพาะ codebase โดยไม่มีคอมไพเลอร์ที่ใช้สร้างไบนารี นี่คือสถานการณ์ในปัจจุบัน
เรื่องนี้มีข้อเสียหลายอย่าง
- ไม่สามารถกลับไปมีส่วนร่วมกับโครงการได้อีก
- โครงการไม่ได้รับประโยชน์จากวงจรป้อนกลับของ OSS
- ตรวจสอบได้ยากว่าโมเดลไม่มีแบ็กดอร์ (เช่น latent agent)
- ไม่สามารถตรวจสอบได้ว่าข้อมูล ฟิลเตอร์คอนเทนต์ และนโยบายของบริษัทสอดคล้องกันหรือไม่
- หากต้องการรีเฟรชโมเดล ก็ต้องพึ่งพาบริษัท
โปรเจกต์ LLM แบบโอเพนซอร์สที่แท้จริง ซึ่งเปิดเผยทุกอย่างตั้งแต่ codebase ไปจนถึง data pipeline สามารถสร้างคุณค่าและความคิดสร้างสรรค์ได้มาก และช่วยปรับปรุงความปลอดภัยได้
- แต่การทำให้ได้ weights ที่ทำซ้ำได้ไม่ใช่เรื่องง่ายเหมือนการคอมไพล์โค้ด เพราะต้องมีทั้งทรัพยากรประมวลผลและความชำนาญ
- และการรีวิว contribution ก็ยาก เพราะจะไม่รู้ว่ามันส่งผลต่อประสิทธิภาพอย่างไรจนกว่าจะรันการเทรนรอบถัดไป
แต่คนหรือกลุ่มที่มีแรงจูงใจมากพอสามารถทำความเข้าใจรายละเอียดเหล่านี้ได้ และแม้มันอาจดูต่างจาก OSS แบบเดิมมาก แต่ความท้าทายใหม่เหล่านี้เองคือ เหตุผลที่ทำให้พื้นที่นี้น่าสนุก

3 ความคิดเห็น

coyai 2024-02-07

พูดได้ถูกต้อง,

GitHub หรือ Hugging Face ไม่ได้เป็น open open source repository อีกต่อไป แต่เสื่อมสภาพกลายเป็นแพลตฟอร์มการตลาดมานานแล้ว
บางโมเดลไม่ได้ให้แม้แต่ไบนารีที่ใช้งานได้ด้วยซ้ำ (https://github.com/AIGCDesignGroup/ReplaceAnything)
แค่ให้เดโมออนไลน์ แล้วใช้มันเพื่อเปิดเผยเพียง Marketing Demo ของเทคโนโลยีตัวเอง แบบนั้นจะเรียกว่า Open source platform ได้อย่างไร?
Gitbug หรือ Huggingface เองก็สุดท้ายกำลังกลายเป็น site ขยะที่เต็มไปด้วยของปลอมและของห่วย เหมือน SNS ในอดีต

ดังนั้น open source กำลังกลายเป็น Myth หรือ Urban Legend ไปแล้ว ถ้าพูดกันตามความเป็นจริง โมเดล open source ที่แท้จริงในความหมายที่สามารถทำซ้ำได้อย่างสมบูรณ์บนเว็บไซต์เหล่านี้ แทบไม่มีอยู่เลย ส่วนใหญ่เป็น marketing stunt.

cosine20 2024-01-29

ก็พอเข้าใจอยู่เหมือนกัน... ช่วงนี้โมเดลที่ออกมากันต้องใช้พลังประมวลผลและเวลาสำหรับการฝึกโมเดลมากจนคนทั่วไปแทบจะทำซ้ำได้ยากแล้ว เลยไม่ค่อยแน่ใจเหมือนกันว่าจะมองว่าอย่างไร
แต่ในกรณีของการเปิดเผยชุดข้อมูล อันนี้ผมก็เห็นด้วยอยู่พอสมควรครับ

xguru 2024-01-22

ความเห็นจาก Hacker News

ลองจินตนาการดูว่า Linux เผยแพร่แค่ไบนารีโดยไม่มีโค้ดเบส หรือเผยแพร่แค่โค้ดเบสโดยไม่มีคอมไพเลอร์ เรากำลังอยู่ในสถานการณ์แบบนั้นในตอนนี้
- เป็นอุปมาที่อธิบายปัญหาของ "โมเดลโอเพนซอร์ส" ในปัจจุบันได้ดีมาก และทำให้เห็นปัญหาได้ชัดเจน
ลองดูกรณีของ CERN: พวกเขาเผยแพร่ข้อมูลการทดลองหลากหลายชุดภายใต้สัญญาอนุญาต CC0 ซึ่งไม่ใช่แค่ชุดข้อมูลเล็ก ๆ แต่เป็นข้อมูลขนาดใหญ่ เช่น ข้อมูลทั้งหมดจากการรันครั้งแรกของ LHCb
- CERN ไม่ได้แค่เปิดข้อมูลแล้วปล่อยทิ้งไว้ แต่ยังให้คู่มือการวิเคราะห์และเครื่องมือที่จำเป็น (เช่น ROOT ซึ่งส่วนใหญ่เป็นโอเพนซอร์ส) ด้วย ทำให้ใครก็ตามสามารถค้นพบสิ่งใหม่หรือขยายการวิเคราะห์การทดลองเดิมได้ ข้อมูลและเครื่องมือที่เปิดเช่นนี้ตอบโจทย์เรื่องการทำซ้ำได้ แม้ไม่จำเป็นต้องสร้างข้อมูลขึ้นมาใหม่โดยตรง ในทางทฤษฎีเราสร้าง LHC ขึ้นใหม่ได้ แต่ต้องใช้คน เงิน และเวลาจำนวนมหาศาล ต่างจากโมเดลโอเพนซอร์สตรงที่แม้จะฝึกโมเดลใหม่เพื่อให้ได้น้ำหนักได้ แต่ต้นทุนในการหาข้อมูลและทำให้น้ำหนักซ้ำเดิมนั้นมักสูงมาก ควรจำไว้ด้วยว่า CERN เผยแพร่ข้อมูลเวอร์ชันที่ผ่านการปรับแต่งแล้ว ไม่ใช่ข้อมูลดิบทั้งหมดซึ่งส่วนใหญ่เป็นสัญญาณรบกวน การดาวน์โหลดข้อมูลดิบขนาดใหญ่มหาศาลเป็นเรื่องยาก แต่การฝึกบางอย่างอย่างโมเดลภาษาขนาดใหญ่ (LLM) อาจต้องใช้ชุดข้อมูลทั้งหมด ซึ่งก็มักมีปัญหาของตัวเอง เช่น เรื่องลิขสิทธิ์
การเปิดเผยชุดข้อมูลคือปัญหาใหญ่ที่สุด เพราะงั้นคนกับบริษัทต่าง ๆ ก็จะฟ้องว่าละเมิดลิขสิทธิ์
- หากชุดข้อมูลมีเนื้อหาที่มีลิขสิทธิ์อยู่ ผู้ถือลิขสิทธิ์ก็อาจยื่นฟ้องได้ จะไม่แปลกใจเลยถ้าโมเดลบางตัวมีทั้งชุดข้อมูลจาก Z-Library หรือ Google Books รวมอยู่ด้วย
Open Source Initiative ตลอดปีที่ผ่านมาได้ทำซีรีส์รวบรวมความเห็นจากผู้มีส่วนได้ส่วนเสียหลายฝ่ายเกี่ยวกับคำถามว่า AI เป็นโอเพนซอร์สหรือไม่
- เคยเข้าร่วมเซสชันที่ All Things Open ซึ่งใช้เวลาทั้งช่วงบ่ายกับประเด็นนี้ ขอแนะนำให้ไปดูการถกเถียงที่ดำเนินอยู่แล้ว เพราะนี่เป็นประเด็นที่ละเอียดอ่อนกว่าจะสรุปได้ในทวีต
การใช้คำว่า "โอเพนซอร์ส" กับโมเดล AI ซับซ้อนกว่าการใช้กับซอฟต์แวร์มาก หลายคนมองว่าความสามารถในการทำซ้ำได้คือเกณฑ์สำคัญของการเป็นโอเพนซอร์ส
- สำหรับโมเดล AI ตัวโมเดลเอง ชุดข้อมูล และสูตรการฝึก (เช่น กระบวนการและไฮเปอร์พารามิเตอร์) มักถูกเปิดเผยเป็นซอร์สด้วย ทำให้ถ้ามีกำลังประมวลผลเพียงพอ ก็สามารถฝึกโมเดลเพื่อให้ได้น้ำหนักได้
โอเพนคอร์ก็เหมือนกัน — ถ้าคุณโฮสต์มันบนโครงสร้างพื้นฐานของตัวเองไม่ได้ มันก็ไม่ใช่ซอฟต์แวร์โอเพนซอร์สที่แท้จริง
- หากไม่สามารถโฮสต์บนโครงสร้างพื้นฐานของตนเองได้ ก็ไม่ควรถูกมองว่าเป็นซอฟต์แวร์โอเพนซอร์สที่แท้จริง
"โครงการไม่ได้ประโยชน์จากวงจรฟีดแบ็กแบบ OSS" เพราะคุณไม่สามารถส่ง PR ของข้อมูลฝึกเพื่อแก้ปัญหาเฉพาะแบบการแก้บั๊กได้ ผมเลยไม่คิดว่าจะเห็นวงจรฟีดแบ็กมากนัก
- "ยากที่จะตรวจสอบว่าโมเดลไม่มีแบ็กดอร์" เมื่อพิจารณาจากขนาดของชุดข้อมูลและความไม่โปร่งใสของกระบวนการฝึก ก็แทบไม่มีใครรู้ได้ว่ามีแบ็กดอร์ในข้อมูลฝึกหรือไม่
- "ยากที่จะตรวจสอบข้อมูลและตัวกรองเนื้อหาให้สอดคล้องกับนโยบายบริษัท" เราสามารถบังคับใช้นโยบายบริษัทกับผลลัพธ์ของโมเดลได้โดยไม่ต้องเข้าถึงข้อมูลฝึก จึงเกิดคำถามว่าทุกบริษัทจำเป็นต้องกรองข้อมูลขาเข้าและฝึกโมเดลเองหรือไม่
- "คุณจะต้องพึ่งบริษัทเมื่ออยากรีเฟรชโมเดล" เมื่อดูจากต้นทุนในปัจจุบัน นี่ก็เป็นความจริงสำหรับคนส่วนใหญ่อยู่แล้ว
- "โครงการ LLM โอเพนซอร์สที่แท้จริงซึ่งเปิดทุกอย่างตั้งแต่โค้ดเบสถึงดาต้าพายป์ไลน์ อาจปลดปล่อยคุณค่า ความคิดสร้างสรรค์ และเพิ่มความปลอดภัยได้อย่างมาก" โดยรวมแล้วค่อนข้างสงสัยว่าข้อนี้เป็นจริงสำหรับกรณีของ LLM กลับกัน มันอาจเพิ่มพื้นผิวให้ผู้ไม่หวังดีโจมตีได้มากขึ้น
"รูปแบบของงานที่ควรใช้สำหรับการแก้ไขงาน คือ 'ซอร์สโค้ด'"
- อ้างอิงจาก GPLv3
- โมเดล AI/ML นี้น่าสนใจตรงที่น้ำหนักของมันได้มาจากชุดฝึก แต่เวลาแก้ไขกลับไม่จำเป็นต้องเข้าถึงชุดฝึกต้นฉบับ มีบทเรียนจำนวนมากเกี่ยวกับการทำ fine-tuning โดยไม่ต้องเข้าถึงชุดฝึกดั้งเดิม
ไม่เห็นด้วย และคิดว่าอุปมานี้ไม่เหมาะสม สิ่งที่เขาระบุมานั้นทำได้ด้วยโมเดลที่ฝึกแล้วอยู่แล้ว การมีข้อมูลอยู่เป็นประเด็นที่แทบไม่ดึงความสนใจด้วยซ้ำ ซอฟต์แวร์เปิด/เสรีคือเรื่องของการใช้เสรีภาพเหล่านั้น และถ้าคุณมีน้ำหนักโมเดลกับโค้ด คุณก็ใช้เสรีภาพได้ครบทั้งหมด
มีโมเดล LLM โอเพนซอร์สอย่างแท้จริงที่ข้อมูลฝึกทั้งหมดเปิดให้ใช้สาธารณะได้ (ภายใต้สัญญาอนุญาตที่เข้ากันได้) และซอฟต์แวร์ฝึกสามารถสร้างโมเดลที่เหมือนกันทุกบิตได้หรือไม่?
- การฝึกเป็นแบบไม่กำหนดแน่นอนหรือ? เท่าที่ทราบ เอาต์พุตของ LLM ก็ถูกออกแบบให้ไม่กำหนดแน่นอนอยู่แล้ว

หากไม่สามารถทำซ้ำโมเดลได้ มันก็ไม่ใช่โอเพนซอร์ส

บทความที่เกี่ยวข้อง

3 ความคิดเห็น

ความเห็นจาก Hacker News