การแข่งขันไล่ตามของโมเดลภาษาขนาดใหญ่โอเพนซอร์ส
(arxiv.org)- เป็นแบบสำรวจที่เปรียบเทียบว่า ณ ครบรอบ 1 ปีของการเปิดตัว ChatGPT LLM โอเพนซอร์ส ทำผลงานได้เทียบเท่าหรือดีกว่า ChatGPT ในงานประเภทใดบ้าง
- ChatGPT แสดงให้เห็นถึงคำตอบที่เป็นประโยชน์และปลอดภัย รวมถึงการทำตามคำสั่ง ผ่าน reinforcement learning จากฟีดแบ็กของมนุษย์ และมีผู้ใช้ถึง 100 ล้านคนภายในสองเดือนหลังเปิดตัว
- LLM แบบปิดไม่เปิดเผยสถาปัตยกรรมและข้อมูลฝึก ทำให้ยังมีภาระด้าน ความสามารถในการทำซ้ำ, การประเมินความเสี่ยง, เหตุขัดข้อง, ค่าใช้จ่าย API, ความเป็นเจ้าของข้อมูล และความเป็นส่วนตัว
- แม้จะมีภาพจำว่าโมเดลโอเพนซอร์สอย่าง Llama-2 และ Falcon ยังตามหลังโมเดลแบบปิดอย่าง GPT-4 แต่ในบาง benchmark ก็มีกรณีที่ทำได้เหนือกว่า GPT-3.5-turbo
- ในสภาพแวดล้อมที่โมเดลและ benchmark เปลี่ยนแปลงอย่างรวดเร็ว แทนที่จะเลือกผู้ชนะรายเดียว ควรแยกพิจารณาตามความสามารถทั่วไป, เอเจนต์, การให้เหตุผล, บริบทยาว, การประยุกต์ใช้ และความน่าเชื่อถือ
ภูมิทัศน์ LLM ที่เปลี่ยนไปหลัง ChatGPT
- ChatGPT นำมาซึ่งการเปลี่ยนแปลงครั้งใหญ่ทั้งในวงการวิจัย AI และภาคธุรกิจ หลังเปิดตัวปลายปี 2022
- ด้วยการนำ supervised fine-tuning และ reinforcement learning จากฟีดแบ็กของมนุษย์ มาใช้กับโมเดลภาษาขนาดใหญ่ ทำให้ประสบการณ์แชตบอตที่ตอบคำถามหลากหลายและทำตามคำสั่งเป็นที่แพร่หลายในวงกว้าง
- ก่อนหน้านี้ งานภาษาธรรมชาติอย่างการสรุปหรือการถามตอบมักจัดการโดยโมเดลที่ผ่านการ pretrain แล้ว fine-tune เฉพาะงาน แต่ ChatGPT สามารถทำงานเหล่านี้ได้อย่างกว้างขวาง
- ภายในสองเดือนหลังเปิดตัว มีผู้ใช้ถึง 100 ล้านคน แสดงอัตราการเติบโตที่เร็วกกว่าแอปยอดนิยมอย่าง TikTok หรือ YouTube
- บริษัทต่างๆ ยังคงลงทุนอย่างมากใน ChatGPT เพราะมีศักยภาพในการลดต้นทุนแรงงาน, ทำ workflow automation และสร้างประสบการณ์ลูกค้าแบบใหม่
ข้อจำกัดที่ LLM แบบปิดสร้างขึ้น
- ChatGPT ไม่ใช่โอเพนซอร์ส และสิทธิ์การเข้าถึงก็ถูกควบคุมโดยบริษัทเอกชน
- แม้จะมีคำอธิบายว่าปฏิบัติตามกระบวนการที่นำมาใช้ใน InstructGPT หรือ GPT-3.5 แต่ สถาปัตยกรรม, ข้อมูล pretraining และข้อมูล fine-tuning ที่แน่ชัดไม่ได้ถูกเปิดเผย
- ลักษณะความเป็นปิดเช่นนี้สร้างภาระหลายอย่างในกระบวนการประเมินและปฏิบัติการโมเดล
- เนื่องจากไม่ทราบกระบวนการฝึกภายใน จึงยากต่อการประเมินความเสี่ยงทางสังคม เช่น การสร้างเนื้อหาที่เป็นพิษ ผิดจริยธรรม หรือเป็นเท็จ
- มีรายงานว่าประสิทธิภาพของ ChatGPT เปลี่ยนไปตามเวลา ทำให้การได้ ผลลัพธ์ที่ทำซ้ำได้ เป็นเรื่องยุ่งยาก
- ในเดือนพฤศจิกายน 2023 เกิดเหตุขัดข้องครั้งใหญ่สองครั้ง และมีกรณีที่การเข้าถึงเว็บไซต์ ChatGPT และ API ถูกปิดกั้นโดยสมบูรณ์
- เมื่อนำไปใช้ในองค์กร ค่าใช้จ่ายการเรียก API, เหตุขัดข้องของบริการ, ความเป็นเจ้าของข้อมูล และความเป็นส่วนตัว อาจกลายเป็นภาระจริง
- เหตุการณ์ที่คาดเดาได้ยาก เช่น ความขัดแย้งในบอร์ดบริหารที่นำไปสู่การปลด Sam Altman CEO, การต่อต้านของพนักงาน และการกลับเข้าตำแหน่ง ก็กลายเป็นปัจจัยที่ผู้ใช้ระดับองค์กรต้องพิจารณา
LLM โอเพนซอร์สไล่ตามมาได้ถึงไหนแล้ว
- LLM โอเพนซอร์สได้รับความสนใจในฐานะทางเลือกที่สามารถบรรเทาหรือหลีกเลี่ยงข้อจำกัดของ LLM แบบปิด
- ชุมชนวิจัยยังคงพยายามรักษา LLM ประสิทธิภาพสูงให้อยู่ในรูปแบบโอเพนซอร์สต่อไป
- ณ สิ้นปี 2023 มีความเชื่ออย่างแพร่หลายว่า LLM โอเพนซอร์สอย่าง Llama-2 หรือ Falcon ยังตามหลังโมเดลแบบปิดอย่าง GPT-3.5 และ GPT-4 ของ OpenAI, Claude ของ Anthropic และ Bard ของ Google
- โดยทั่วไป GPT-4 ถูกมองว่าเป็นโมเดลที่ล้ำหน้าที่สุด
- อย่างไรก็ตาม ช่องว่างยังคงแคบลงเรื่อยๆ และใน benchmark มาตรฐานบางรายการ LLM โอเพนซอร์สที่ทำผลงานสูงสุดให้ผลลัพธ์ดีกว่า GPT-3.5-turbo
- การเปรียบเทียบเองก็ไม่ใช่เรื่องง่าย
- LLM แบบปิดถูกฝึกใหม่ด้วยข้อมูลที่ใหม่กว่าและมีการอัปเดตอย่างต่อเนื่อง
- LLM โอเพนซอร์สก็ออกเวอร์ชันใหม่เพื่อไล่ตามเช่นกัน
- มีชุดข้อมูลประเมินและ benchmark จำนวนมากที่ใช้เปรียบเทียบ LLM จึงยากที่จะเลือกโมเดลที่ดีที่สุดเพียงหนึ่งเดียว
ด้านการประเมินที่นำมาเปรียบเทียบและโมเดลตัวแทน
- แบบสำรวจนี้รวบรวมการประเมินหลายรายการที่เปรียบเทียบ LLM โอเพนซอร์สกับ ChatGPT เพื่อให้เห็นช่องว่างประสิทธิภาพปัจจุบันแยกตามด้าน
-
ความสามารถทั่วไป
- รวมถึง AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard เป็นต้น
- โมเดลโอเพนซอร์สที่เกี่ยวข้อง ได้แก่ Llama-2, WizardLM, Zephyr, Deepseek, Yi, Mixtral เป็นต้น
-
ความสามารถแบบเอเจนต์
- แบ่งเป็นการใช้เครื่องมือ, การดีบักตัวเอง, การทำตามฟีดแบ็กภาษาธรรมชาติ และการสำรวจสภาพแวดล้อม
- การประเมินประกอบด้วย API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld, WebArena เป็นต้น
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama, OpenChat-3.5 เป็นโมเดลที่เกี่ยวข้อง
-
การให้เหตุผลเชิงตรรกะ
- รวมถึงด้านคณิตศาสตร์และการเขียนโค้ด
- GSM8K, MATH, TheoremQA, HumanEval, MBPP, APPs เป็นต้น ถูกใช้เป็นงานประเมิน
- WizardMath และ WizardCoder ถูกกล่าวถึงเป็นโมเดลตัวแทน
-
การสร้างแบบจำลองบริบทยาว
- รวมถึง SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO, M4LE เป็นต้น
- Llama-2-long ถูกกล่าวถึงเป็นโมเดลที่เกี่ยวข้อง
-
ด้านการประยุกต์ใช้เฉพาะทาง
- รวมถึงการสรุปแบบเน้นคำถาม, การถามตอบแบบปลายเปิด, การแพทย์, การสร้างข้อมูลที่มีโครงสร้าง และการสร้างคำวิจารณ์
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP, MIMIC-CXR เป็นต้น ถูกใช้เป็นงาน
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench, Shepherd เป็นโมเดลที่เกี่ยวข้อง
-
ความน่าเชื่อถือ
- ครอบคลุม hallucination และความปลอดภัย
- รวมถึง TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench, XSTEST เป็นต้น
- Platypus และ Chain-of-Verification ถูกกล่าวถึงเป็นแนวทางที่เกี่ยวข้องกับ hallucination
เกณฑ์ตัดสินใจที่นักวิจัยและธุรกิจจะได้รับ
- แบบสำรวจนี้ให้ข้อมูลที่จำเป็นต่อชุมชนวิจัยและภาคธุรกิจในการตัดสินระดับปัจจุบันและศักยภาพในอนาคตของ LLM โอเพนซอร์ส
- นักวิจัยสามารถใช้เพื่อสังเคราะห์ ความคืบหน้า และแนวโน้มการเปลี่ยนแปลงของ LLM โอเพนซอร์ส รวมถึงค้นหาทิศทางการวิจัยในอนาคต
- ผู้ตัดสินใจในองค์กรสามารถได้รับ insight และแนวทางที่จำเป็นต่อการประเมินความเป็นไปได้ในการนำ LLM โอเพนซอร์สมาใช้และประโยชน์ที่ได้รับ
- บทความวิจัยเริ่มจากการแนะนำแนวคิดพื้นฐาน จากนั้นทบทวน LLM โอเพนซอร์สที่เอาชนะ ChatGPT ในหลายด้าน อภิปรายแนวโน้มการพัฒนา, best practices ในการฝึก และประเด็นที่อาจเกิดขึ้น ก่อนปิดท้ายด้วยบทสรุป
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ในช่วงไม่กี่วันที่ผ่านมา มี โมเดลแบบเปิดที่ทรงพลัง ออกมาหลายตัว
Qwen 72B และ 1.8B ชูจุดเด่นเรื่อง context 32K, การฝึกด้วยโทเค็น 3T, ไลเซนส์เชิงพาณิชย์สำหรับผู้ใช้แอคทีฟรายเดือนไม่เกิน 100 ล้านคน และประสิทธิภาพ benchmark ที่แข็งแกร่ง: https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B มี context 4K, โทเค็น 2T, ไลเซนส์ Apache 2.0 และเด่นด้านโค้ด อย่างไรก็ตามเมื่อดูจาก benchmark แล้ว DeepSeek Code 33B ดูจะดีกว่า: https://twitter.com/deepseek_ai/status/1729881611234431456
ช่วงหลังยังมี Yi 34B, 100B ที่มีข่าวลือว่าจะออกเร็ว ๆ นี้, XVERSE-65B, Aquila2-70B, Yuan 2.0-102B ออกมาด้วย และที่น่าสนใจคือทั้งหมดมาจากจีน
โดยส่วนตัวแล้ว mistral-7b-v0.1 แข็งแกร่งมากเมื่อเทียบกับขนาดอยู่แล้ว จึงกำลังตั้งตารอ Mistral รุ่นใหญ่กว่าที่กำลังจะออกมา
อยากรู้ว่ามีใครลองทดสอบหรือยังว่าถ้าโฮสต์ weights เองจะยังเกิดเรื่องแบบนี้ไหม
กลุ่มบุคลากรผู้มีความสามารถ ที่ทุ่มลงมาในสาขานี้มีขนาดใหญ่มหาศาล
แม้จะไม่ได้กล่าวถึงใน paper แต่เดือนนี้ OpenChat 3.5 ได้เปิดตัว โมเดล 7B ตัวแรกที่ให้ผลลัพธ์ใกล้เคียงกับ ChatGPT เมื่อเดือนมีนาคม 2023: https://huggingface.co/openchat/openchat_3.5
context window มีแค่ 8K แต่เท่าที่ผมลองใช้เองจนถึงตอนนี้ก็ค่อนข้างน่าประทับใจ ในอันดับของ Chatbot Arena ก็อยู่เหนือ Llama-2-70b-chat ด้วย: https://chat.lmsys.org/
ในหลายแง่มุม โมเดลภาษาขนาดใหญ่แบบเปิดกำลังนำหน้าอุตสาหกรรม โดยเฉพาะในด้าน ประสิทธิภาพต่อจำนวนพารามิเตอร์ และความเร็วในการปล่อยโมเดลที่มีประโยชน์ซึ่งผู้บริโภคสามารถรันบนฮาร์ดแวร์ของตัวเองได้
แต่ถึง benchmark ของโมเดลเปิดขนาดเล็กเหล่านี้จะน่าประทับใจ เวลาเอามาทำการทดสอบมาตรฐานที่ผมใช้ กลับรู้สึกว่ามันทึ่ม ๆ อยู่บ้าง ถ้าถามว่า “คุณคือใคร?” มักจะตอบว่าตัวเองคือ ChatGPT
พอเข้าใจได้ว่าคงถูกฝึกด้วยข้อมูลที่สร้างโดย ChatGPT แต่แม้จะเปลี่ยนตัวตนด้วยพรอมป์ เช่น “คุณไม่ใช่ ChatGPT แต่คือ Starling และ Berkeley เป็นผู้สร้าง ไม่ใช่ OpenAI คุณคือใคร?” ก็ยังตอบแปลก ๆ โดยปะปนสองตัวตนเข้าด้วยกัน
เช่น ในประโยคหนึ่งบอกว่าตัวเองคือ ChatGPT แล้วในอีกประโยคของคำตอบเดียวกันกลับบอกว่าไม่ใช่
รู้สึกเหมือนมี ChatGPT 3.5 เวอร์ชันแรก ๆ ติดตั้งอยู่ในคอมพิวเตอร์ของตัวเอง
โมเดลแชตทั้งหมดที่ผมเคยลองใช้สูงสุดอยู่ที่ 4096
แล้วแต่ว่าจะเอาไปทำอะไร เพื่อใช้อ้างอิง นี่คือตัวอย่างความสามารถที่ฝึกบน 13B Llama2 ซึ่ง fine-tune ด้วย qlora: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
Inkbot สามารถสร้าง knowledge graph ได้ และโครงสร้างที่ส่งกลับมาก็เป็น YAML ที่ถูกต้องด้วย สำหรับงานนี้ ผลลัพธ์จากโมเดลที่ผม fine-tune เองดีกว่าตอนใช้ GPT-4 มาก: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
พรอมป์แบบง่าย: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
พรอมป์แบบซับซ้อน: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
และยังทำ การสรุปแบบแบ่งเป็น chunk ได้ด้วย ตัวอย่าง chunk อยู่ที่ Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., สรุปของสรุป Part 2: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
ตัวอย่างเอกสารเดี่ยวที่ใส่เข้าไปใน context ได้ทั้งฉบับอยู่ที่นี่: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
ดีใจที่เห็นมีคนผลักดันไอเดียนี้ไปได้ดี อยากรู้ว่าทำข้อมูลฝึกอย่างไร
ตอนนี้ดูเหมือนเราใกล้ถึงจุดที่แค่วาง prompt router ไว้หน้าโมเดลเฉพาะทางหลาย ๆ แบบ เช่น โค้ด แชต คณิตศาสตร์ SQL สุขภาพ ก็พอแล้ว คล้ายกับ Mixture of Experts แบบรันในเครื่อง
คือส่งคำขอไปยัง router ที่ใช้โมเดลทั่วไป จากนั้นแตกและจัดประเภทพรอมป์หรือคำถาม แล้ว proxy ไปยังโมเดลผู้เชี่ยวชาญ ก่อนให้โมเดลทั่วไปประกอบคำตอบกลับมาอีกครั้ง
อยากรู้ว่ามีโปรเจกต์ที่คล้ายแบบนี้ไหม
Hugging Face มี Transformers Agents และระบุว่า “ให้ API ภาษาธรรมชาติบน transformers กำหนดชุดเครื่องมือที่คัดเลือกไว้ และออกแบบเอเจนต์ที่ตีความภาษาธรรมชาติเพื่อใช้เครื่องมือเหล่านี้”
ตอนนี้มีเครื่องมืออยู่แล้ว เช่น การถามตอบจากเอกสาร, การถามตอบจากข้อความ, การสร้างคำบรรยายภาพ, การถามตอบจากภาพ, การแบ่งส่วนภาพ, การรู้จำเสียงพูด, การสังเคราะห์เสียงพูด, การจำแนกข้อความแบบ zero-shot, การสรุป, การแปล, การดาวน์โหลดข้อความจาก URL บนเว็บ, การสร้างภาพจากข้อความ, การแปลงภาพ และการสร้างวิดีโอจากข้อความ
ถูกเขียนมาให้เพิ่มเครื่องมือกำหนดเองได้ จึงสามารถเพิ่ม use case หรือสลับโมเดลได้: https://huggingface.co/docs/transformers/transformers_agents
ชั้นแรกแค่ผสมการประมวลผลภาษาธรรมชาติกับ การจำแนกแบบ zero-shot เพื่อทำให้ลักษณะของคำขอชัดเจน จากนั้นใช้โมเดลภาษาขนาดใหญ่แตกคำขอออกเป็นส่วนย่อยที่เฉพาะเจาะจงหลายส่วน แล้วส่งไปยังโมเดลเฉพาะทาง
สุดท้ายก็ใช้โมเดลภาษาขนาดใหญ่อีกครั้งเหมือนเครื่องสรุปเพื่อรวมเข้าด้วยกัน ปัญหาคือถ้าจะรันหลายโมเดลแบบขนาน ต้องใช้ทรัพยากรค่อนข้างมาก
บางทีอาจรันผู้เชี่ยวชาญทั้งหมดแล้วเปรียบเทียบความน่าจะเป็นก็ได้ เท่าที่ผมรู้ นี่เป็นแค่การคาดเดาจากรายละเอียดบางอย่างที่หลุดบน Xitter เท่านั้น
โมเดลประมาณ 70B ในปัจจุบันอย่าง Llama 2 70B อยู่ในระดับใกล้เคียงกับ ChatGPT 3.5
โมเดลชั้นนำที่เล็กกว่านั้นมองเผิน ๆ อาจดูคล้ายกัน แต่มีอาการหลอนมากกว่ามาก และมีความรู้เกี่ยวกับโลกน้อยกว่า GPT-4 “เข้าใจ” ในระดับที่ลึกกว่า และยังไม่มีโมเดลสาธารณะตัวใดเข้าใกล้ได้
ระยะเวลาประเมิน 1 ปีถือว่าเหมาะสม อย่างน้อยในด้านโมเดลภาษาขนาดใหญ่และการสร้างภาพ โลกส่วนที่เหลือดูเหมือนตามหลัง OpenAI อยู่ราว 12~18 เดือน
ในทางกลับกัน เทคโนโลยีสาธารณะมักมีฟีเจอร์ควบคุมผลลัพธ์ที่ OpenAI ไม่ค่อยสนใจมากกว่า เช่น grammar ของ llama.cpp หรือ ControlNet ในแง่นั้น ฝั่งสาธารณะจึงมักนำหน้า OpenAI ในด้านความสามารถในการปรับแต่ง
เช่น มีการทดสอบระยะยาวที่จงใจโยนคำขอแบบปลายเปิดและค่อนข้างกำกวมเพื่อดูประสิทธิภาพของโมเดลอยู่ที่นี่: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
แชต GPT-4 Turbo ทำให้ผู้คนสับสน เลือกเป้าหมายการลักพาตัวได้ไม่ถูกต้อง แม้ขอแล้วก็ไม่เปลี่ยนหัวข้อ เมื่อให้นึกถึงบุคคลก็เลือกจากเซตที่ผิด และแม้สั่งให้เปลี่ยนภาษาก็ไม่เปลี่ยน
ถ้าถามแบบ zero-shot มันรู้อะไรมาก แต่ในสถานการณ์ที่ต้องพิสูจน์ ความสอดคล้องในตัวเอง และความใส่ใจ มันยังห่างจาก GPT-4 มาก
ในทางกลับกัน GPT-4 Vision นำหน้าโมเดลสาธารณะอยู่มาก
ผมมองว่า DALL·E 3 ดีกว่า SDXL เล็กน้อย แต่คุณภาพนอกเหนือจากการสร้างข้อความดูค่อนข้างใกล้เคียงกัน
แน่นอน ผมอาจกำลังหลอกตัวเองด้วยการใช้เฉพาะสิ่งที่ SDXL ทำได้ดีก็ได้ ถ้าให้สร้างมังกร ผลลัพธ์แย่ทุกครั้ง
ผมจะไม่ตอบคำถามในชื่อเรื่องโดยตรงเพราะไม่รู้มากพอ แต่เมื่อมีการพูดถึงโมเดลสาธารณะตัวอื่น ๆ ก็อยากกล่าวถึง DeepSeek 67B ที่คืนนี้ลองใช้แล้วรู้สึกว่าใช้ได้ดีด้วย
https://chat.deepseek.com
จนถึงตอนนี้ UI แชตนี้ทดแทนความต้องการใช้ ChatGPT ของผมได้เพียงพอแล้ว
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca ทำได้ดีเกือบเท่า GPT-4 Turbo ในงานเขียนเชิงสร้างสรรค์หรือการวิเคราะห์
จริง ๆ แล้วข้อความที่ออกมามีแนวโน้มค่อนข้างคล้ายกันจนน่าสงสัย แต่ไม่ว่าอย่างไรก็ช่วยประหยัดเงินได้มาก: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
แม้จะเสถียรน้อยกว่า GPT-3.5/4 เล็กน้อย แต่ในงานประมวลผลข้อความของผม ความต่างด้านคุณภาพแทบเหมือนการโยนเหรียญ
ในระยะยาว แทบหลีกเลี่ยงไม่ได้ที่โมเดลภาษาขนาดใหญ่แบบสาธารณะจะเริ่มไล่ทัน
หนึ่งในปัจจัยที่ควรพิจารณาคือต้นทุน ชุมชนสาธารณะมีข้อจำกัดด้านทรัพยากรมากกว่ามาก และนั่นทำให้เร่งความเร็วในการพัฒนา โมเดลต่ำกว่า 30B ได้อย่างมาก
นอกจากโมเดลของ OpenAI แล้ว ตัวที่ใช้ได้ดีก็มีเพียง Claude
นึกถึงตอนที่ Rackspace และรายอื่น ๆ พยายามชนะด้วย OpenStack เพราะเป็น “แบบเปิด” สุดท้าย AWS กับ Azure ก็ชนะ และแม้แต่ Google ก็ยังเป็นอันดับ 3
บริษัทใหญ่ ๆ จะเป็นผู้ชนะ และเครื่องมือสาธารณะจะเหลือพื้นที่เฉพาะกลุ่ม
จากประสบการณ์ส่วนตัว โมเดลภาษาขนาดใหญ่แบบสาธารณะยังไม่ถึง คุณภาพของ GPT-3.5 แม้จะมีคำกล่าวอ้างมากมายที่อิงกับ benchmark ที่น่าสงสัยก็ตาม
ถึงอย่างนั้น ทุกวันนี้มันก็มีประโยชน์แล้ว และรันบนเครื่องโลคัลได้ ผมใช้เป็นประจำกับปลั๊กอิน Neovim ชื่อ gen.nvim สำหรับงานง่าย ๆ และช่วยประหยัดเวลาได้มาก: https://github.com/David-Kunz/gen.nvim
ผมตั้งตารอสิ่งที่จะเกิดขึ้นต่อไป
บนเครื่องโลคัล ผมรันโมเดล Llama ด้วย llama-cpp-python ซึ่งมีเลเยอร์ที่เข้ากันได้กับ OpenAI
ผมคิดว่าโมเดลสาธารณะกำลังไล่ตามทันอย่างชัดเจน โดยเฉพาะเพราะในช่วงหนึ่งเดือนที่ผ่านมา ประสิทธิภาพของ GPT-4 ลดลง อย่างต่อเนื่อง
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...