ครบรอบ 1 ปีการเปิดตัว ChatGPT: การไล่ตามของโมเดลภาษาขนาดใหญ่โอเพนซอร์ส
- ChatGPT ที่เปิดตัวในช่วงปลายปี 2022 ได้ก่อให้เกิดการเปลี่ยนแปลงครั้งใหญ่ต่อวงการ AI โดยรวม
- ด้วยการปรับแต่งโมเดลภาษาขนาดใหญ่ (LLM) ผ่าน supervised learning และ reinforcement learning from human feedback จึงแสดงให้เห็นถึงความสามารถในการตอบคำถามของมนุษย์และปฏิบัติตามคำสั่งได้ในงานที่หลากหลาย
- หลังความสำเร็จนี้ ความสนใจต่อ LLM ในทั้งแวดวงวิชาการและภาคอุตสาหกรรมเพิ่มสูงขึ้น สตาร์ทอัพจำนวนมากหันมาโฟกัสที่ LLM และ LLM โอเพนซอร์สก็พัฒนาอย่างรวดเร็ว โดยมีการอ้างว่าสามารถให้ประสิทธิภาพเทียบเท่าหรือดีกว่า ChatGPT ในงานเฉพาะบางประเภท
ผลกระทบต่อการวิจัยและธุรกิจ
- แม้ว่า LLM แบบปิดซอร์ส (เช่น GPT ของ OpenAI และ Claude ของ Anthropic) โดยทั่วไปจะมีประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์ส แต่ก็มีการอ้างว่า LLM โอเพนซอร์สกำลังก้าวหน้าอย่างรวดเร็ว และในบางงานสามารถทำผลงานได้เทียบเท่าหรือดีกว่า
- ความก้าวหน้านี้ส่งผลสำคัญไม่เพียงต่อการวิจัย แต่รวมถึงภาคธุรกิจด้วย
ความเห็นของ GN⁺
- ในโอกาสครบรอบ 1 ปีของการเปิดตัว ChatGPT ประเด็นสำคัญคือโมเดลภาษาขนาดใหญ่โอเพนซอร์สกำลังพัฒนาอย่างรวดเร็ว และในบางงานก็แสดงประสิทธิภาพใกล้เคียงหรือดีกว่า ChatGPT
- สิ่งนี้มีผลอย่างมีนัยสำคัญต่อทั้งงานวิจัยและธุรกิจ และอาจช่วยส่งเสริมการทำให้เทคโนโลยี AI เข้าถึงได้อย่างกว้างขวางและเร่งนวัตกรรม
- บทความนี้นำเสนอประเด็นที่น่าสนใจสำหรับผู้ที่สนใจพัฒนาการของเทคโนโลยี AI และผลกระทบที่มีต่อสังคม
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
โมเดลขนาดใหญ่และทรงพลังที่เปิดตัวในช่วงไม่กี่วันที่ผ่านมา:
การสาธิตความสามารถของ llama2 ขนาด 1.3 พันล้านพารามิเตอร์ ที่ปรับจูนละเอียดด้วย qlora:
ดูเหมือนว่าจะมีความจำเป็นต้องวาง prompt router ไว้หน้าโมเดลเฉพาะทางหลายตัว (โค้ด, แชต, คณิตศาสตร์, SQL, สุขภาพ ฯลฯ):
ปัจจุบันโมเดลราว 70B อยู่ในระดับเทียบเท่า ChatGPT 3.5 แล้ว ส่วนโมเดลขนาดเล็กอาจดูคล้ายกันในตอนแรก แต่มีอัตราการหลอนสูงกว่าและขาดความรู้เกี่ยวกับโลก
GPT 4 "เข้าใจ" ในระดับที่ลึกกว่า และโมเดลโอเพนซอร์ซยังเทียบไม่ติดในตอนนี้
เทคโนโลยีโอเพนซอร์ซมีความสามารถในการควบคุมเอาต์พุตที่ OpenAI ไม่ได้ทำไว้ (เช่น grammar ของ llama.cpp หรือ ControlNet) ดังนั้นในแง่นี้โอเพนซอร์ซนำหน้า OpenAI อยู่
แชร์ประสบการณ์จากการลองใช้โมเดล DeepSeek 67B:
Mistral OpenOrca เกือบเทียบเท่า GPT4-turbo ในด้านการเขียนเชิงสร้างสรรค์/การวิเคราะห์ และมีแนวโน้มจะสร้างข้อความที่คล้ายกัน
ในระยะยาว การที่ LLM โอเพนซอร์ซไล่ตามทันแทบจะหลีกเลี่ยงไม่ได้ และแม้คอมมูนิตี้โอเพนซอร์ซจะมีทรัพยากรจำกัดกว่ามาก แต่ก็เร่งความเร็วในการพัฒนาโมเดลที่มีพารามิเตอร์น้อยกว่า 30B ได้อย่างมาก
จากประสบการณ์ส่วนตัว LLM โอเพนซอร์ซยังไปไม่ถึงคุณภาพระดับ GPT 3.5 แต่ก็มีประโยชน์ได้แล้วในวันนี้ และสามารถรันบนเครื่องโลคัลได้
ใช้ปลั๊กอิน Neovim ชื่อ gen.nvim ทำงานง่าย ๆ และช่วยประหยัดเวลาได้มาก
แสดงความคาดหวังต่ออนาคต
มั่นใจว่าโมเดลโอเพนซอร์ซกำลังไล่ตามทัน เพราะ GPT4 ถดถอยลงอย่างต่อเนื่องตลอดเดือนที่ผ่านมา