- เมื่อราววันที่ 28 มกราคม ผู้ใช้ชื่อ "Miqu Dev" ได้โพสต์ชุดไฟล์ของโมเดลภาษาขนาดใหญ่ (LLM) โอเพนซอร์สตัวใหม่ชื่อ "miqu-1-70b" บน HuggingFace ซึ่งเป็นแพลตฟอร์มแชร์โมเดล AI และโค้ดแบบโอเพนซอร์ส
- โมเดลนี้ใช้ "Prompt format" แบบเดียวกับ Mixtral 8x7b ที่สร้างโดย Mistral บริษัท AI โอเพนซอร์สซึ่งปัจจุบันถูกประเมินว่าเป็นหนึ่งในผู้มีผลงานดีที่สุด
- ในวันเดียวกัน ผู้ใช้นิรนามได้โพสต์ลิงก์ไปยังไฟล์ miqu-1-70b บน 4chan
- ผู้ใช้บางส่วนพบว่าโมเดลนี้ทำผลงานได้ยอดเยี่ยมในงาน LLM ทั่วไป และมีความสามารถเข้าใกล้ GPT-4 ของ OpenAI
การควอนไทซ์ของ Mistral?
- นักวิจัยด้านแมชชีนเลิร์นนิง (ML) บน LinkedIn ให้ความสนใจว่า "miqu" อาจย่อมาจาก "MIstral QUantized" หรือไม่
- การควอนไทซ์คือเทคนิคที่แทนที่ลำดับตัวเลขยาวในสถาปัตยกรรมโมเดล AI ด้วยค่าที่สั้นกว่า เพื่อให้โมเดลสามารถรันบนคอมพิวเตอร์และชิปที่ทรงพลังน้อยกว่าได้
- Arthur Mensch ผู้ร่วมก่อตั้งและ CEO ของ Mistral เปิดเผยว่าโมเดล "Miqu" รั่วไหลออกมาโดยพนักงานที่กระตือรือร้นเกินไปของลูกค้ากลุ่ม early access รายหนึ่งของ Mistral
- Mistral ได้นำโมเดลนี้ไปฝึกต่อจาก Llama 2 และทำ pretraining เสร็จในวันเดียวกับที่เปิดตัว Mistral 7B จากนั้นก็ยังคืบหน้าไปได้ดีอย่างต่อเนื่อง
- ที่น่าสนใจคือ Mensch ไม่ได้เรียกร้องให้ลบโพสต์บน HuggingFace ที่เผยแพร่อย่างไม่ถูกต้อง แต่กลับแสดงความคิดเห็นว่า "อาจพิจารณาเรื่องการให้เครดิตผู้สร้างได้"
ช่วงเวลาสำคัญของ AI โอเพนซอร์สและสิ่งที่ไกลกว่านั้น?
- การเปิดตัวโมเดลโอเพนซอร์สที่มีประสิทธิภาพระดับ GPT-4 อาจเป็นช่วงเวลาสำคัญไม่เพียงต่อวงการ generative AI แบบโอเพนซอร์สเท่านั้น แต่รวมถึงทั้งวงการ AI และวิทยาการคอมพิวเตอร์โดยรวม
- OpenAI อาจยังรักษาความได้เปรียบในการแข่งขันไว้ได้ด้วย GPT-4 Turbo และ GPT-4V (vision) แต่ชุมชน AI โอเพนซอร์สก็กำลังไล่ตามมาอย่างรวดเร็ว
ความเห็นของ GN⁺
- การปรากฏตัวของโมเดล "Miqu" แสดงให้เห็นถึงความเป็นไปได้ใหม่ ๆ ในวงการ AI โอเพนซอร์สที่สามารถแข่งขันกับผลิตภัณฑ์ AI เชิงพาณิชย์ได้
- เหตุการณ์นี้ตอกย้ำศักยภาพด้านนวัตกรรมของชุมชนโอเพนซอร์สและการพัฒนาเทคโนโลยีที่ก้าวหน้าอย่างรวดเร็ว
- ความก้าวหน้าของโมเดลโอเพนซอร์สอาจเปลี่ยนวิธีที่องค์กรต่าง ๆ นำ AI ไปใช้งาน และจะส่งผลสำคัญต่ออุตสาหกรรมเทคโนโลยีในวงกว้าง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ผู้ใช้รายหนึ่งกำลังเฝ้าดูหน้าเพจของ TheBloke และรอที่จะสามารถรันโมเดล Miqu Q5 แบบ quantized บน MacBook ของตนได้ ตอนนี้ใช้ Mixtral ทุกวัน และถ้าโมเดลนี้ (หรือเวอร์ชันทางการใหม่) เข้าใกล้ GPT-4 ได้ ก็จะยกเลิกการสมัคร OpenAI มองว่าทีมขนาดเล็กของ Mistral กำลังแซงหน้าคู่แข่ง และนี่คือภาพลักษณ์ที่ "Open"AI ควรจะเป็น
ผู้ใช้คนหนึ่งกล่าวว่า แม้ GPT-4 จะเปิดตัวมาแล้ว 1 ปี แต่ความพยายามร่วมกันเพื่อไล่ตาม GPT-4 โดยไม่มีเคล็ดลับพิเศษใด ๆ ก็ดูน่าเหนื่อยมากอยู่ดี โดยเฉพาะเมื่อรู้ว่า OpenAI อาจปล่อยของที่ดีกว่านี้มากออกมาได้ทุกเมื่อ
ผู้ใช้อีกรายตั้งข้อสังเกตต่อคำกล่าวอ้างว่าเข้าใกล้ GPT-4 ว่า ลีดเดอร์บอร์ดแสดงให้เห็นช่องว่างขนาดใหญ่ระหว่าง GPT4-0314 กับ GPT4-Turbo และถ้าเพิ่งแค่เข้าใกล้ GPT4-0314 ก็ยังถือว่าล้าหลังเทคโนโลยีล่าสุดอยู่ 1 ปี
ผู้ใช้อีกคนกล่าวว่าโมเดลที่หลุดออกมานี้จะหมดความสำคัญภายในไม่กี่เดือน หลังจากโมเดลทางการออกมา ก็จะมีโมเดลที่ดีกว่าเปิดตัวตามมา และสิ่งที่น่าตื่นเต้นคือความเร็วของพัฒนาการ มากกว่าตัวโมเดลเอง
ผู้ใช้รายหนึ่งตั้งคำถามว่าทำไมโมเดลนี้ถึงถูกเรียกว่าเป็นโมเดลโอเพนซอร์ส เพราะจริง ๆ แล้วมันคือโมเดลกรรมสิทธิ์ที่รั่วออกมาบนอินเทอร์เน็ต และจะยังเป็นแบบนั้นจนกว่า Mistral จะเปิดตัวอย่างเป็นทางการ สำหรับการใช้งานส่วนตัวอาจไม่ใส่ใจมากนักเหมือน Llama 1 แต่ก็มองว่าไม่มีบริษัทไหนจะใช้โมเดลนี้
ผู้ใช้อีกรายบอกว่า Mistral ทำให้นึกถึงบริษัทเทคโนโลยีดี ๆ ในยุคเก่าก่อนปี 2015
ผู้ใช้คนหนึ่งสงสัยว่าเราจะจินตนาการถึงโลกที่ GPT กลายเป็นเหมือน Apache หรือ MySQL เวอร์ชันล่าสุดได้อย่างไร ซึ่งจะพาเรากลับไปสู่ยุคของเว็บโฮสต์นับล้านราย (ขออภัย, AI โฮสต์)
สุดท้าย ผู้ใช้รายหนึ่งกล่าวว่า GPT-4 เปิดตัวมาเกือบ 1 ปีแล้ว และดูเหมือนจังหวะการปล่อยเทคโนโลยีใหม่ที่น่าทึ่งทุกเดือนของ OpenAI จะหยุดลง เขาสงสัยว่าเกิดอะไรขึ้นกับ OpenAI ความวุ่นวายล่าสุดทำให้บริษัทล่าช้าหรือไม่ หรือกำลังพัฒนา 'superweapon' บางอย่างอยู่