การแข่งขันไล่ตามของโมเดลภาษาขนาดใหญ่โอเพนซอร์ส

(arxiv.org)

4 คะแนน โดย GN⁺ 2023-12-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นแบบสำรวจที่เปรียบเทียบว่า ณ ครบรอบ 1 ปีของการเปิดตัว ChatGPT LLM โอเพนซอร์ส ทำผลงานได้เทียบเท่าหรือดีกว่า ChatGPT ในงานประเภทใดบ้าง
ChatGPT แสดงให้เห็นถึงคำตอบที่เป็นประโยชน์และปลอดภัย รวมถึงการทำตามคำสั่ง ผ่าน reinforcement learning จากฟีดแบ็กของมนุษย์ และมีผู้ใช้ถึง 100 ล้านคนภายในสองเดือนหลังเปิดตัว
LLM แบบปิดไม่เปิดเผยสถาปัตยกรรมและข้อมูลฝึก ทำให้ยังมีภาระด้าน ความสามารถในการทำซ้ำ, การประเมินความเสี่ยง, เหตุขัดข้อง, ค่าใช้จ่าย API, ความเป็นเจ้าของข้อมูล และความเป็นส่วนตัว
แม้จะมีภาพจำว่าโมเดลโอเพนซอร์สอย่าง Llama-2 และ Falcon ยังตามหลังโมเดลแบบปิดอย่าง GPT-4 แต่ในบาง benchmark ก็มีกรณีที่ทำได้เหนือกว่า GPT-3.5-turbo
ในสภาพแวดล้อมที่โมเดลและ benchmark เปลี่ยนแปลงอย่างรวดเร็ว แทนที่จะเลือกผู้ชนะรายเดียว ควรแยกพิจารณาตามความสามารถทั่วไป, เอเจนต์, การให้เหตุผล, บริบทยาว, การประยุกต์ใช้ และความน่าเชื่อถือ

ภูมิทัศน์ LLM ที่เปลี่ยนไปหลัง ChatGPT

ChatGPT นำมาซึ่งการเปลี่ยนแปลงครั้งใหญ่ทั้งในวงการวิจัย AI และภาคธุรกิจ หลังเปิดตัวปลายปี 2022
ด้วยการนำ supervised fine-tuning และ reinforcement learning จากฟีดแบ็กของมนุษย์ มาใช้กับโมเดลภาษาขนาดใหญ่ ทำให้ประสบการณ์แชตบอตที่ตอบคำถามหลากหลายและทำตามคำสั่งเป็นที่แพร่หลายในวงกว้าง
ก่อนหน้านี้ งานภาษาธรรมชาติอย่างการสรุปหรือการถามตอบมักจัดการโดยโมเดลที่ผ่านการ pretrain แล้ว fine-tune เฉพาะงาน แต่ ChatGPT สามารถทำงานเหล่านี้ได้อย่างกว้างขวาง
ภายในสองเดือนหลังเปิดตัว มีผู้ใช้ถึง 100 ล้านคน แสดงอัตราการเติบโตที่เร็วกกว่าแอปยอดนิยมอย่าง TikTok หรือ YouTube
บริษัทต่างๆ ยังคงลงทุนอย่างมากใน ChatGPT เพราะมีศักยภาพในการลดต้นทุนแรงงาน, ทำ workflow automation และสร้างประสบการณ์ลูกค้าแบบใหม่

ข้อจำกัดที่ LLM แบบปิดสร้างขึ้น

ChatGPT ไม่ใช่โอเพนซอร์ส และสิทธิ์การเข้าถึงก็ถูกควบคุมโดยบริษัทเอกชน
แม้จะมีคำอธิบายว่าปฏิบัติตามกระบวนการที่นำมาใช้ใน InstructGPT หรือ GPT-3.5 แต่ สถาปัตยกรรม, ข้อมูล pretraining และข้อมูล fine-tuning ที่แน่ชัดไม่ได้ถูกเปิดเผย
ลักษณะความเป็นปิดเช่นนี้สร้างภาระหลายอย่างในกระบวนการประเมินและปฏิบัติการโมเดล
- เนื่องจากไม่ทราบกระบวนการฝึกภายใน จึงยากต่อการประเมินความเสี่ยงทางสังคม เช่น การสร้างเนื้อหาที่เป็นพิษ ผิดจริยธรรม หรือเป็นเท็จ
- มีรายงานว่าประสิทธิภาพของ ChatGPT เปลี่ยนไปตามเวลา ทำให้การได้ ผลลัพธ์ที่ทำซ้ำได้ เป็นเรื่องยุ่งยาก
- ในเดือนพฤศจิกายน 2023 เกิดเหตุขัดข้องครั้งใหญ่สองครั้ง และมีกรณีที่การเข้าถึงเว็บไซต์ ChatGPT และ API ถูกปิดกั้นโดยสมบูรณ์
- เมื่อนำไปใช้ในองค์กร ค่าใช้จ่ายการเรียก API, เหตุขัดข้องของบริการ, ความเป็นเจ้าของข้อมูล และความเป็นส่วนตัว อาจกลายเป็นภาระจริง
- เหตุการณ์ที่คาดเดาได้ยาก เช่น ความขัดแย้งในบอร์ดบริหารที่นำไปสู่การปลด Sam Altman CEO, การต่อต้านของพนักงาน และการกลับเข้าตำแหน่ง ก็กลายเป็นปัจจัยที่ผู้ใช้ระดับองค์กรต้องพิจารณา

LLM โอเพนซอร์สไล่ตามมาได้ถึงไหนแล้ว

LLM โอเพนซอร์สได้รับความสนใจในฐานะทางเลือกที่สามารถบรรเทาหรือหลีกเลี่ยงข้อจำกัดของ LLM แบบปิด
ชุมชนวิจัยยังคงพยายามรักษา LLM ประสิทธิภาพสูงให้อยู่ในรูปแบบโอเพนซอร์สต่อไป
ณ สิ้นปี 2023 มีความเชื่ออย่างแพร่หลายว่า LLM โอเพนซอร์สอย่าง Llama-2 หรือ Falcon ยังตามหลังโมเดลแบบปิดอย่าง GPT-3.5 และ GPT-4 ของ OpenAI, Claude ของ Anthropic และ Bard ของ Google
โดยทั่วไป GPT-4 ถูกมองว่าเป็นโมเดลที่ล้ำหน้าที่สุด
อย่างไรก็ตาม ช่องว่างยังคงแคบลงเรื่อยๆ และใน benchmark มาตรฐานบางรายการ LLM โอเพนซอร์สที่ทำผลงานสูงสุดให้ผลลัพธ์ดีกว่า GPT-3.5-turbo
การเปรียบเทียบเองก็ไม่ใช่เรื่องง่าย
- LLM แบบปิดถูกฝึกใหม่ด้วยข้อมูลที่ใหม่กว่าและมีการอัปเดตอย่างต่อเนื่อง
- LLM โอเพนซอร์สก็ออกเวอร์ชันใหม่เพื่อไล่ตามเช่นกัน
- มีชุดข้อมูลประเมินและ benchmark จำนวนมากที่ใช้เปรียบเทียบ LLM จึงยากที่จะเลือกโมเดลที่ดีที่สุดเพียงหนึ่งเดียว

ด้านการประเมินที่นำมาเปรียบเทียบและโมเดลตัวแทน

แบบสำรวจนี้รวบรวมการประเมินหลายรายการที่เปรียบเทียบ LLM โอเพนซอร์สกับ ChatGPT เพื่อให้เห็นช่องว่างประสิทธิภาพปัจจุบันแยกตามด้าน
ความสามารถทั่วไป
- รวมถึง AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard เป็นต้น
- โมเดลโอเพนซอร์สที่เกี่ยวข้อง ได้แก่ Llama-2, WizardLM, Zephyr, Deepseek, Yi, Mixtral เป็นต้น
ความสามารถแบบเอเจนต์
- แบ่งเป็นการใช้เครื่องมือ, การดีบักตัวเอง, การทำตามฟีดแบ็กภาษาธรรมชาติ และการสำรวจสภาพแวดล้อม
- การประเมินประกอบด้วย API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld, WebArena เป็นต้น
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama, OpenChat-3.5 เป็นโมเดลที่เกี่ยวข้อง
การให้เหตุผลเชิงตรรกะ
- รวมถึงด้านคณิตศาสตร์และการเขียนโค้ด
- GSM8K, MATH, TheoremQA, HumanEval, MBPP, APPs เป็นต้น ถูกใช้เป็นงานประเมิน
- WizardMath และ WizardCoder ถูกกล่าวถึงเป็นโมเดลตัวแทน
การสร้างแบบจำลองบริบทยาว
- รวมถึง SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO, M4LE เป็นต้น
- Llama-2-long ถูกกล่าวถึงเป็นโมเดลที่เกี่ยวข้อง
ด้านการประยุกต์ใช้เฉพาะทาง
- รวมถึงการสรุปแบบเน้นคำถาม, การถามตอบแบบปลายเปิด, การแพทย์, การสร้างข้อมูลที่มีโครงสร้าง และการสร้างคำวิจารณ์
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP, MIMIC-CXR เป็นต้น ถูกใช้เป็นงาน
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench, Shepherd เป็นโมเดลที่เกี่ยวข้อง
ความน่าเชื่อถือ
- ครอบคลุม hallucination และความปลอดภัย
- รวมถึง TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench, XSTEST เป็นต้น
- Platypus และ Chain-of-Verification ถูกกล่าวถึงเป็นแนวทางที่เกี่ยวข้องกับ hallucination

เกณฑ์ตัดสินใจที่นักวิจัยและธุรกิจจะได้รับ

แบบสำรวจนี้ให้ข้อมูลที่จำเป็นต่อชุมชนวิจัยและภาคธุรกิจในการตัดสินระดับปัจจุบันและศักยภาพในอนาคตของ LLM โอเพนซอร์ส
นักวิจัยสามารถใช้เพื่อสังเคราะห์ ความคืบหน้า และแนวโน้มการเปลี่ยนแปลงของ LLM โอเพนซอร์ส รวมถึงค้นหาทิศทางการวิจัยในอนาคต
ผู้ตัดสินใจในองค์กรสามารถได้รับ insight และแนวทางที่จำเป็นต่อการประเมินความเป็นไปได้ในการนำ LLM โอเพนซอร์สมาใช้และประโยชน์ที่ได้รับ
บทความวิจัยเริ่มจากการแนะนำแนวคิดพื้นฐาน จากนั้นทบทวน LLM โอเพนซอร์สที่เอาชนะ ChatGPT ในหลายด้าน อภิปรายแนวโน้มการพัฒนา, best practices ในการฝึก และประเด็นที่อาจเกิดขึ้น ก่อนปิดท้ายด้วยบทสรุป

1 ความคิดเห็น

GN⁺ 2023-12-03

ความคิดเห็นจาก Hacker News

ในช่วงไม่กี่วันที่ผ่านมา มี โมเดลแบบเปิดที่ทรงพลัง ออกมาหลายตัว
Qwen 72B และ 1.8B ชูจุดเด่นเรื่อง context 32K, การฝึกด้วยโทเค็น 3T, ไลเซนส์เชิงพาณิชย์สำหรับผู้ใช้แอคทีฟรายเดือนไม่เกิน 100 ล้านคน และประสิทธิภาพ benchmark ที่แข็งแกร่ง: https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B มี context 4K, โทเค็น 2T, ไลเซนส์ Apache 2.0 และเด่นด้านโค้ด อย่างไรก็ตามเมื่อดูจาก benchmark แล้ว DeepSeek Code 33B ดูจะดีกว่า: https://twitter.com/deepseek_ai/status/1729881611234431456
ช่วงหลังยังมี Yi 34B, 100B ที่มีข่าวลือว่าจะออกเร็ว ๆ นี้, XVERSE-65B, Aquila2-70B, Yuan 2.0-102B ออกมาด้วย และที่น่าสนใจคือทั้งหมดมาจากจีน
โดยส่วนตัวแล้ว mistral-7b-v0.1 แข็งแกร่งมากเมื่อเทียบกับขนาดอยู่แล้ว จึงกำลังตั้งตารอ Mistral รุ่นใหญ่กว่าที่กำลังจะออกมา
- ผมลองใช้ DeepSeek บน deepseek.com แล้ว พบว่ามันปฏิเสธบทสนทนาบางอย่างที่ถูกเซ็นเซอร์ในจีน เช่น เทียนอันเหมิน หรือการเปรียบเทียบสีจิ้นผิงกับวินนี่เดอะพูห์
  อยากรู้ว่ามีใครลองทดสอบหรือยังว่าถ้าโฮสต์ weights เองจะยังเกิดเรื่องแบบนี้ไหม
- ในจีน ไม่อนุญาตให้ใช้ ChatGPT จึงมีโอกาสใหญ่ในการสร้างโมเดลภาษาขนาดใหญ่ท้องถิ่น
- งานวิจัย AI จำนวนมากมาจากชาวจีน หรือจากนักวิจัยเชื้อสายจีนที่อาศัยอยู่ต่างประเทศ
  กลุ่มบุคลากรผู้มีความสามารถ ที่ทุ่มลงมาในสาขานี้มีขนาดใหญ่มหาศาล
- อยากรู้ว่า Mistral ตัวใหม่จะออกเมื่อไร และจะมีขนาดประมาณไหน
- ยังมี Goliath 120B ด้วย
แม้จะไม่ได้กล่าวถึงใน paper แต่เดือนนี้ OpenChat 3.5 ได้เปิดตัว โมเดล 7B ตัวแรกที่ให้ผลลัพธ์ใกล้เคียงกับ ChatGPT เมื่อเดือนมีนาคม 2023: https://huggingface.co/openchat/openchat_3.5
context window มีแค่ 8K แต่เท่าที่ผมลองใช้เองจนถึงตอนนี้ก็ค่อนข้างน่าประทับใจ ในอันดับของ Chatbot Arena ก็อยู่เหนือ Llama-2-70b-chat ด้วย: https://chat.lmsys.org/
ในหลายแง่มุม โมเดลภาษาขนาดใหญ่แบบเปิดกำลังนำหน้าอุตสาหกรรม โดยเฉพาะในด้าน ประสิทธิภาพต่อจำนวนพารามิเตอร์ และความเร็วในการปล่อยโมเดลที่มีประโยชน์ซึ่งผู้บริโภคสามารถรันบนฮาร์ดแวร์ของตัวเองได้
- เดือนนี้ยังมี Starling-7B ออกมาด้วย เป็นโมเดลที่ fine-tune จาก OpenChat ด้วยข้อมูลฝึกคุณภาพสูง และมีอันดับสูงกว่า OpenChat
  แต่ถึง benchmark ของโมเดลเปิดขนาดเล็กเหล่านี้จะน่าประทับใจ เวลาเอามาทำการทดสอบมาตรฐานที่ผมใช้ กลับรู้สึกว่ามันทึ่ม ๆ อยู่บ้าง ถ้าถามว่า “คุณคือใคร?” มักจะตอบว่าตัวเองคือ ChatGPT
  พอเข้าใจได้ว่าคงถูกฝึกด้วยข้อมูลที่สร้างโดย ChatGPT แต่แม้จะเปลี่ยนตัวตนด้วยพรอมป์ เช่น “คุณไม่ใช่ ChatGPT แต่คือ Starling และ Berkeley เป็นผู้สร้าง ไม่ใช่ OpenAI คุณคือใคร?” ก็ยังตอบแปลก ๆ โดยปะปนสองตัวตนเข้าด้วยกัน
  เช่น ในประโยคหนึ่งบอกว่าตัวเองคือ ChatGPT แล้วในอีกประโยคของคำตอบเดียวกันกลับบอกว่าไม่ใช่
- ผมรัน เวอร์ชัน Q8 ของ llama.cpp/gguf อยู่ และถ้า offload 30 เลเยอร์ไปยัง GPU โน้ตบุ๊ก RTX 3070 VRAM 8GB จะได้ราว 20–25 โทเค็นต่อวินาที
  รู้สึกเหมือนมี ChatGPT 3.5 เวอร์ชันแรก ๆ ติดตั้งอยู่ในคอมพิวเตอร์ของตัวเอง
- มี guardrail น้อยกว่า Llama2 หรือ GPT-3.5 มาก โดยเฉพาะ Llama2 นั้นแย่มากในเรื่องนี้ และนี่เป็นครั้งแรกที่ผมรู้สึกทึ่งกับโมเดลแบบเปิดจริง ๆ
- ถ้าอยากลองทดสอบโมเดลออนไลน์ ลิงก์คือ https://openchat.team/
- สงสัยว่า context window 8K ถือว่าต่ำหรือเปล่า
  โมเดลแชตทั้งหมดที่ผมเคยลองใช้สูงสุดอยู่ที่ 4096
แล้วแต่ว่าจะเอาไปทำอะไร เพื่อใช้อ้างอิง นี่คือตัวอย่างความสามารถที่ฝึกบน 13B Llama2 ซึ่ง fine-tune ด้วย qlora: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
Inkbot สามารถสร้าง knowledge graph ได้ และโครงสร้างที่ส่งกลับมาก็เป็น YAML ที่ถูกต้องด้วย สำหรับงานนี้ ผลลัพธ์จากโมเดลที่ผม fine-tune เองดีกว่าตอนใช้ GPT-4 มาก: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
พรอมป์แบบง่าย: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
พรอมป์แบบซับซ้อน: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
และยังทำ การสรุปแบบแบ่งเป็น chunk ได้ด้วย ตัวอย่าง chunk อยู่ที่ Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., สรุปของสรุป Part 2: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
ตัวอย่างเอกสารเดี่ยวที่ใส่เข้าไปใน context ได้ทั้งฉบับอยู่ที่นี่: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
- เป็นงานที่ยอดเยี่ยมจริง ๆ ตลอด 1 ปีที่ผ่านมา ผมอยากลองทำ การสร้าง knowledge graph ด้วยโมเดลภาษาขนาดใหญ่มาก แต่ไม่มีเวลา
  ดีใจที่เห็นมีคนผลักดันไอเดียนี้ไปได้ดี อยากรู้ว่าทำข้อมูลฝึกอย่างไร
- ชอบ Inkbot มาก อยากรู้ว่ากำลังทำเวอร์ชันใหม่อยู่ไหม และเวอร์ชันที่อิงกับ Yi 34B เป็นอย่างไรบ้าง
- ดูค่อนข้างน่าประทับใจ อยากรู้ว่ามีความเป็นไปได้ที่จะทำ 7B Inkbot อยู่ไหม
- อยากรู้ว่ามีแหล่งอ้างอิงให้ดูไหมว่า fine-tune อย่างไร
ตอนนี้ดูเหมือนเราใกล้ถึงจุดที่แค่วาง prompt router ไว้หน้าโมเดลเฉพาะทางหลาย ๆ แบบ เช่น โค้ด แชต คณิตศาสตร์ SQL สุขภาพ ก็พอแล้ว คล้ายกับ Mixture of Experts แบบรันในเครื่อง
คือส่งคำขอไปยัง router ที่ใช้โมเดลทั่วไป จากนั้นแตกและจัดประเภทพรอมป์หรือคำถาม แล้ว proxy ไปยังโมเดลผู้เชี่ยวชาญ ก่อนให้โมเดลทั่วไปประกอบคำตอบกลับมาอีกครั้ง
อยากรู้ว่ามีโปรเจกต์ที่คล้ายแบบนี้ไหม
- ผมก็คิดว่าจะไปทางนี้เหมือนกัน คือมีโมเดลพารามิเตอร์ 1~7B หรือ 14B สักหลายตัวที่เก่งมากในงานของตัวเอง แล้วเชื่อมเข้าด้วยกันด้วยโมเดลที่มอบหมายงานได้ดี
  Hugging Face มี Transformers Agents และระบุว่า “ให้ API ภาษาธรรมชาติบน transformers กำหนดชุดเครื่องมือที่คัดเลือกไว้ และออกแบบเอเจนต์ที่ตีความภาษาธรรมชาติเพื่อใช้เครื่องมือเหล่านี้”
  ตอนนี้มีเครื่องมืออยู่แล้ว เช่น การถามตอบจากเอกสาร, การถามตอบจากข้อความ, การสร้างคำบรรยายภาพ, การถามตอบจากภาพ, การแบ่งส่วนภาพ, การรู้จำเสียงพูด, การสังเคราะห์เสียงพูด, การจำแนกข้อความแบบ zero-shot, การสรุป, การแปล, การดาวน์โหลดข้อความจาก URL บนเว็บ, การสร้างภาพจากข้อความ, การแปลงภาพ และการสร้างวิดีโอจากข้อความ
  ถูกเขียนมาให้เพิ่มเครื่องมือกำหนดเองได้ จึงสามารถเพิ่ม use case หรือสลับโมเดลได้: https://huggingface.co/docs/transformers/transformers_agents
- ตอนนี้ก็แทบจะทำได้ง่ายมากแล้ว
  ชั้นแรกแค่ผสมการประมวลผลภาษาธรรมชาติกับ การจำแนกแบบ zero-shot เพื่อทำให้ลักษณะของคำขอชัดเจน จากนั้นใช้โมเดลภาษาขนาดใหญ่แตกคำขอออกเป็นส่วนย่อยที่เฉพาะเจาะจงหลายส่วน แล้วส่งไปยังโมเดลเฉพาะทาง
  สุดท้ายก็ใช้โมเดลภาษาขนาดใหญ่อีกครั้งเหมือนเครื่องสรุปเพื่อรวมเข้าด้วยกัน ปัญหาคือถ้าจะรันหลายโมเดลแบบขนาน ต้องใช้ทรัพยากรค่อนข้างมาก
- งานวิจัยที่เพิ่งออกมาชี้ว่า การ ปรับปรุงพรอมป์ ให้กับโมเดลทั่วไปที่ใหญ่กว่า โดยรวมแล้วมักดีกว่าโมเดลเฉพาะทาง: https://arxiv.org/pdf/2311.16452.pdf
- ไม่กี่เดือนก่อนมีข่าวลือว่า GPT-4 ทำงานในลักษณะนี้ คือมีโมเดลควบคุมที่ route ข้อมูลไปยัง โมเดลผู้เชี่ยวชาญ
  บางทีอาจรันผู้เชี่ยวชาญทั้งหมดแล้วเปรียบเทียบความน่าจะเป็นก็ได้ เท่าที่ผมรู้ นี่เป็นแค่การคาดเดาจากรายละเอียดบางอย่างที่หลุดบน Xitter เท่านั้น
- ถ้าจะดูของที่คล้ายกัน ให้ดู LLaVA-Plus ที่นี่เรียกผู้เชี่ยวชาญที่พูดถึงว่า “เครื่องมือ”: https://github.com/LLaVA-VL/LLaVA-Plus-Codebase
โมเดลประมาณ 70B ในปัจจุบันอย่าง Llama 2 70B อยู่ในระดับใกล้เคียงกับ ChatGPT 3.5
โมเดลชั้นนำที่เล็กกว่านั้นมองเผิน ๆ อาจดูคล้ายกัน แต่มีอาการหลอนมากกว่ามาก และมีความรู้เกี่ยวกับโลกน้อยกว่า GPT-4 “เข้าใจ” ในระดับที่ลึกกว่า และยังไม่มีโมเดลสาธารณะตัวใดเข้าใกล้ได้
ระยะเวลาประเมิน 1 ปีถือว่าเหมาะสม อย่างน้อยในด้านโมเดลภาษาขนาดใหญ่และการสร้างภาพ โลกส่วนที่เหลือดูเหมือนตามหลัง OpenAI อยู่ราว 12~18 เดือน
ในทางกลับกัน เทคโนโลยีสาธารณะมักมีฟีเจอร์ควบคุมผลลัพธ์ที่ OpenAI ไม่ค่อยสนใจมากกว่า เช่น grammar ของ llama.cpp หรือ ControlNet ในแง่นั้น ฝั่งสาธารณะจึงมักนำหน้า OpenAI ในด้านความสามารถในการปรับแต่ง
- กลับกัน โมเดล GPT กำลังลู่ลงด้านล่าง GPT-4 Turbo ประสิทธิภาพตกลงมากจนตอนนี้บางโมเดล 13B ยังให้ผลลัพธ์ในการใช้เหตุผลที่สอดคล้องกว่าได้
  เช่น มีการทดสอบระยะยาวที่จงใจโยนคำขอแบบปลายเปิดและค่อนข้างกำกวมเพื่อดูประสิทธิภาพของโมเดลอยู่ที่นี่: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
  แชต GPT-4 Turbo ทำให้ผู้คนสับสน เลือกเป้าหมายการลักพาตัวได้ไม่ถูกต้อง แม้ขอแล้วก็ไม่เปลี่ยนหัวข้อ เมื่อให้นึกถึงบุคคลก็เลือกจากเซตที่ผิด และแม้สั่งให้เปลี่ยนภาษาก็ไม่เปลี่ยน
  ถ้าถามแบบ zero-shot มันรู้อะไรมาก แต่ในสถานการณ์ที่ต้องพิสูจน์ ความสอดคล้องในตัวเอง และความใส่ใจ มันยังห่างจาก GPT-4 มาก
- ผมไม่คิดว่า OpenAI จะนำหน้าในด้านการสร้างภาพ หลัง DALL-E ก็ถูกแซงอย่างรวดเร็ว และ workflow งานจริงทั้งหมดที่ผมเห็นใช้ Midjourney หรือ Stable Diffusion
  ในทางกลับกัน GPT-4 Vision นำหน้าโมเดลสาธารณะอยู่มาก
- โมเดลภาษาขนาดใหญ่อาจเป็นเช่นนั้นก็ได้ แต่ทุกอย่างเคลื่อนไหวเร็วเกินไปจนยังมั่นใจไม่ได้ อย่างไรก็ตาม SDXL 1.0 ดีกว่า DALL·E 2 มาก
  ผมมองว่า DALL·E 3 ดีกว่า SDXL เล็กน้อย แต่คุณภาพนอกเหนือจากการสร้างข้อความดูค่อนข้างใกล้เคียงกัน
  แน่นอน ผมอาจกำลังหลอกตัวเองด้วยการใช้เฉพาะสิ่งที่ SDXL ทำได้ดีก็ได้ ถ้าให้สร้างมังกร ผลลัพธ์แย่ทุกครั้ง
- การเรียกฟังก์ชัน ที่ใช้ JSON schema มีความเสถียรพอ ๆ กับฟีเจอร์ grammar ของ llama.cpp จากที่ลองใช้ก็ไม่ค่อยมีปัญหา
ผมจะไม่ตอบคำถามในชื่อเรื่องโดยตรงเพราะไม่รู้มากพอ แต่เมื่อมีการพูดถึงโมเดลสาธารณะตัวอื่น ๆ ก็อยากกล่าวถึง DeepSeek 67B ที่คืนนี้ลองใช้แล้วรู้สึกว่าใช้ได้ดีด้วย
https://chat.deepseek.com
จนถึงตอนนี้ UI แชตนี้ทดแทนความต้องการใช้ ChatGPT ของผมได้เพียงพอแล้ว
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca ทำได้ดีเกือบเท่า GPT-4 Turbo ในงานเขียนเชิงสร้างสรรค์หรือการวิเคราะห์
จริง ๆ แล้วข้อความที่ออกมามีแนวโน้มค่อนข้างคล้ายกันจนน่าสงสัย แต่ไม่ว่าอย่างไรก็ช่วยประหยัดเงินได้มาก: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
- ยังมี OpenChat ด้วย เท่าที่ผมเข้าใจ มันฝึกจากบทสนทนาของ GPT-4: https://github.com/imoneoi/openchat
- Mistral OpenOrca ยัง ทำตามคำสั่งงาน ได้ดีมาก
  แม้จะเสถียรน้อยกว่า GPT-3.5/4 เล็กน้อย แต่ในงานประมวลผลข้อความของผม ความต่างด้านคุณภาพแทบเหมือนการโยนเหรียญ
ในระยะยาว แทบหลีกเลี่ยงไม่ได้ที่โมเดลภาษาขนาดใหญ่แบบสาธารณะจะเริ่มไล่ทัน
หนึ่งในปัจจัยที่ควรพิจารณาคือต้นทุน ชุมชนสาธารณะมีข้อจำกัดด้านทรัพยากรมากกว่ามาก และนั่นทำให้เร่งความเร็วในการพัฒนา โมเดลต่ำกว่า 30B ได้อย่างมาก
- Google, Meta และบริษัทที่ได้รับเงินทุนก็ยังไม่เข้าใกล้ GPT-4 เลย จึงน่าสงสัยว่าต้นทุนเป็นปัจจัยใหญ่ที่สุดจริงหรือไม่
  นอกจากโมเดลของ OpenAI แล้ว ตัวที่ใช้ได้ดีก็มีเพียง Claude
- ในอุตสาหกรรมนี้ ต้นทุนจะเป็นปัญหา
  นึกถึงตอนที่ Rackspace และรายอื่น ๆ พยายามชนะด้วย OpenStack เพราะเป็น “แบบเปิด” สุดท้าย AWS กับ Azure ก็ชนะ และแม้แต่ Google ก็ยังเป็นอันดับ 3
  บริษัทใหญ่ ๆ จะเป็นผู้ชนะ และเครื่องมือสาธารณะจะเหลือพื้นที่เฉพาะกลุ่ม
จากประสบการณ์ส่วนตัว โมเดลภาษาขนาดใหญ่แบบสาธารณะยังไม่ถึง คุณภาพของ GPT-3.5 แม้จะมีคำกล่าวอ้างมากมายที่อิงกับ benchmark ที่น่าสงสัยก็ตาม
ถึงอย่างนั้น ทุกวันนี้มันก็มีประโยชน์แล้ว และรันบนเครื่องโลคัลได้ ผมใช้เป็นประจำกับปลั๊กอิน Neovim ชื่อ gen.nvim สำหรับงานง่าย ๆ และช่วยประหยัดเวลาได้มาก: https://github.com/David-Kunz/gen.nvim
ผมตั้งตารอสิ่งที่จะเกิดขึ้นต่อไป
- น่าสนใจ อยากลองใช้ดู แต่ dependency ตัวหนึ่งคือ ollama และดูเหมือนเป็นแอป Mac ผมไม่มี Mac
  บนเครื่องโลคัล ผมรันโมเดล Llama ด้วย llama-cpp-python ซึ่งมีเลเยอร์ที่เข้ากันได้กับ OpenAI
ผมคิดว่าโมเดลสาธารณะกำลังไล่ตามทันอย่างชัดเจน โดยเฉพาะเพราะในช่วงหนึ่งเดือนที่ผ่านมา ประสิทธิภาพของ GPT-4 ลดลง อย่างต่อเนื่อง
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...
- เป็นไปได้สูงว่าส่วนใหญ่ของการ “ไล่ทัน” นั้นเกิดจากการใช้ GPT-4 API สร้าง ชุดข้อมูลสำหรับ fine-tuning คุณภาพสูง

การแข่งขันไล่ตามของโมเดลภาษาขนาดใหญ่โอเพนซอร์ส

ภูมิทัศน์ LLM ที่เปลี่ยนไปหลัง ChatGPT

ข้อจำกัดที่ LLM แบบปิดสร้างขึ้น

LLM โอเพนซอร์สไล่ตามมาได้ถึงไหนแล้ว

ด้านการประเมินที่นำมาเปรียบเทียบและโมเดลตัวแทน

ความสามารถทั่วไป

ความสามารถแบบเอเจนต์

การให้เหตุผลเชิงตรรกะ

การสร้างแบบจำลองบริบทยาว

ด้านการประยุกต์ใช้เฉพาะทาง

ความน่าเชื่อถือ

เกณฑ์ตัดสินใจที่นักวิจัยและธุรกิจจะได้รับ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News