4 คะแนน โดย GN⁺ 2023-12-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นแบบสำรวจที่เปรียบเทียบว่า ณ ครบรอบ 1 ปีของการเปิดตัว ChatGPT LLM โอเพนซอร์ส ทำผลงานได้เทียบเท่าหรือดีกว่า ChatGPT ในงานประเภทใดบ้าง
  • ChatGPT แสดงให้เห็นถึงคำตอบที่เป็นประโยชน์และปลอดภัย รวมถึงการทำตามคำสั่ง ผ่าน reinforcement learning จากฟีดแบ็กของมนุษย์ และมีผู้ใช้ถึง 100 ล้านคนภายในสองเดือนหลังเปิดตัว
  • LLM แบบปิดไม่เปิดเผยสถาปัตยกรรมและข้อมูลฝึก ทำให้ยังมีภาระด้าน ความสามารถในการทำซ้ำ, การประเมินความเสี่ยง, เหตุขัดข้อง, ค่าใช้จ่าย API, ความเป็นเจ้าของข้อมูล และความเป็นส่วนตัว
  • แม้จะมีภาพจำว่าโมเดลโอเพนซอร์สอย่าง Llama-2 และ Falcon ยังตามหลังโมเดลแบบปิดอย่าง GPT-4 แต่ในบาง benchmark ก็มีกรณีที่ทำได้เหนือกว่า GPT-3.5-turbo
  • ในสภาพแวดล้อมที่โมเดลและ benchmark เปลี่ยนแปลงอย่างรวดเร็ว แทนที่จะเลือกผู้ชนะรายเดียว ควรแยกพิจารณาตามความสามารถทั่วไป, เอเจนต์, การให้เหตุผล, บริบทยาว, การประยุกต์ใช้ และความน่าเชื่อถือ

ภูมิทัศน์ LLM ที่เปลี่ยนไปหลัง ChatGPT

  • ChatGPT นำมาซึ่งการเปลี่ยนแปลงครั้งใหญ่ทั้งในวงการวิจัย AI และภาคธุรกิจ หลังเปิดตัวปลายปี 2022
  • ด้วยการนำ supervised fine-tuning และ reinforcement learning จากฟีดแบ็กของมนุษย์ มาใช้กับโมเดลภาษาขนาดใหญ่ ทำให้ประสบการณ์แชตบอตที่ตอบคำถามหลากหลายและทำตามคำสั่งเป็นที่แพร่หลายในวงกว้าง
  • ก่อนหน้านี้ งานภาษาธรรมชาติอย่างการสรุปหรือการถามตอบมักจัดการโดยโมเดลที่ผ่านการ pretrain แล้ว fine-tune เฉพาะงาน แต่ ChatGPT สามารถทำงานเหล่านี้ได้อย่างกว้างขวาง
  • ภายในสองเดือนหลังเปิดตัว มีผู้ใช้ถึง 100 ล้านคน แสดงอัตราการเติบโตที่เร็วกกว่าแอปยอดนิยมอย่าง TikTok หรือ YouTube
  • บริษัทต่างๆ ยังคงลงทุนอย่างมากใน ChatGPT เพราะมีศักยภาพในการลดต้นทุนแรงงาน, ทำ workflow automation และสร้างประสบการณ์ลูกค้าแบบใหม่

ข้อจำกัดที่ LLM แบบปิดสร้างขึ้น

  • ChatGPT ไม่ใช่โอเพนซอร์ส และสิทธิ์การเข้าถึงก็ถูกควบคุมโดยบริษัทเอกชน
  • แม้จะมีคำอธิบายว่าปฏิบัติตามกระบวนการที่นำมาใช้ใน InstructGPT หรือ GPT-3.5 แต่ สถาปัตยกรรม, ข้อมูล pretraining และข้อมูล fine-tuning ที่แน่ชัดไม่ได้ถูกเปิดเผย
  • ลักษณะความเป็นปิดเช่นนี้สร้างภาระหลายอย่างในกระบวนการประเมินและปฏิบัติการโมเดล
    • เนื่องจากไม่ทราบกระบวนการฝึกภายใน จึงยากต่อการประเมินความเสี่ยงทางสังคม เช่น การสร้างเนื้อหาที่เป็นพิษ ผิดจริยธรรม หรือเป็นเท็จ
    • มีรายงานว่าประสิทธิภาพของ ChatGPT เปลี่ยนไปตามเวลา ทำให้การได้ ผลลัพธ์ที่ทำซ้ำได้ เป็นเรื่องยุ่งยาก
    • ในเดือนพฤศจิกายน 2023 เกิดเหตุขัดข้องครั้งใหญ่สองครั้ง และมีกรณีที่การเข้าถึงเว็บไซต์ ChatGPT และ API ถูกปิดกั้นโดยสมบูรณ์
    • เมื่อนำไปใช้ในองค์กร ค่าใช้จ่ายการเรียก API, เหตุขัดข้องของบริการ, ความเป็นเจ้าของข้อมูล และความเป็นส่วนตัว อาจกลายเป็นภาระจริง
    • เหตุการณ์ที่คาดเดาได้ยาก เช่น ความขัดแย้งในบอร์ดบริหารที่นำไปสู่การปลด Sam Altman CEO, การต่อต้านของพนักงาน และการกลับเข้าตำแหน่ง ก็กลายเป็นปัจจัยที่ผู้ใช้ระดับองค์กรต้องพิจารณา

LLM โอเพนซอร์สไล่ตามมาได้ถึงไหนแล้ว

  • LLM โอเพนซอร์สได้รับความสนใจในฐานะทางเลือกที่สามารถบรรเทาหรือหลีกเลี่ยงข้อจำกัดของ LLM แบบปิด
  • ชุมชนวิจัยยังคงพยายามรักษา LLM ประสิทธิภาพสูงให้อยู่ในรูปแบบโอเพนซอร์สต่อไป
  • ณ สิ้นปี 2023 มีความเชื่ออย่างแพร่หลายว่า LLM โอเพนซอร์สอย่าง Llama-2 หรือ Falcon ยังตามหลังโมเดลแบบปิดอย่าง GPT-3.5 และ GPT-4 ของ OpenAI, Claude ของ Anthropic และ Bard ของ Google
  • โดยทั่วไป GPT-4 ถูกมองว่าเป็นโมเดลที่ล้ำหน้าที่สุด
  • อย่างไรก็ตาม ช่องว่างยังคงแคบลงเรื่อยๆ และใน benchmark มาตรฐานบางรายการ LLM โอเพนซอร์สที่ทำผลงานสูงสุดให้ผลลัพธ์ดีกว่า GPT-3.5-turbo
  • การเปรียบเทียบเองก็ไม่ใช่เรื่องง่าย
    • LLM แบบปิดถูกฝึกใหม่ด้วยข้อมูลที่ใหม่กว่าและมีการอัปเดตอย่างต่อเนื่อง
    • LLM โอเพนซอร์สก็ออกเวอร์ชันใหม่เพื่อไล่ตามเช่นกัน
    • มีชุดข้อมูลประเมินและ benchmark จำนวนมากที่ใช้เปรียบเทียบ LLM จึงยากที่จะเลือกโมเดลที่ดีที่สุดเพียงหนึ่งเดียว

ด้านการประเมินที่นำมาเปรียบเทียบและโมเดลตัวแทน

  • แบบสำรวจนี้รวบรวมการประเมินหลายรายการที่เปรียบเทียบ LLM โอเพนซอร์สกับ ChatGPT เพื่อให้เห็นช่องว่างประสิทธิภาพปัจจุบันแยกตามด้าน
  • ความสามารถทั่วไป

    • รวมถึง AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard เป็นต้น
    • โมเดลโอเพนซอร์สที่เกี่ยวข้อง ได้แก่ Llama-2, WizardLM, Zephyr, Deepseek, Yi, Mixtral เป็นต้น
  • ความสามารถแบบเอเจนต์

    • แบ่งเป็นการใช้เครื่องมือ, การดีบักตัวเอง, การทำตามฟีดแบ็กภาษาธรรมชาติ และการสำรวจสภาพแวดล้อม
    • การประเมินประกอบด้วย API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld, WebArena เป็นต้น
    • Gorilla, ToolLLaMA, Lemur-chat, AgentLlama, OpenChat-3.5 เป็นโมเดลที่เกี่ยวข้อง
  • การให้เหตุผลเชิงตรรกะ

    • รวมถึงด้านคณิตศาสตร์และการเขียนโค้ด
    • GSM8K, MATH, TheoremQA, HumanEval, MBPP, APPs เป็นต้น ถูกใช้เป็นงานประเมิน
    • WizardMath และ WizardCoder ถูกกล่าวถึงเป็นโมเดลตัวแทน
  • การสร้างแบบจำลองบริบทยาว

    • รวมถึง SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO, M4LE เป็นต้น
    • Llama-2-long ถูกกล่าวถึงเป็นโมเดลที่เกี่ยวข้อง
  • ด้านการประยุกต์ใช้เฉพาะทาง

    • รวมถึงการสรุปแบบเน้นคำถาม, การถามตอบแบบปลายเปิด, การแพทย์, การสร้างข้อมูลที่มีโครงสร้าง และการสร้างคำวิจารณ์
    • QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP, MIMIC-CXR เป็นต้น ถูกใช้เป็นงาน
    • InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench, Shepherd เป็นโมเดลที่เกี่ยวข้อง
  • ความน่าเชื่อถือ

    • ครอบคลุม hallucination และความปลอดภัย
    • รวมถึง TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench, XSTEST เป็นต้น
    • Platypus และ Chain-of-Verification ถูกกล่าวถึงเป็นแนวทางที่เกี่ยวข้องกับ hallucination

เกณฑ์ตัดสินใจที่นักวิจัยและธุรกิจจะได้รับ

  • แบบสำรวจนี้ให้ข้อมูลที่จำเป็นต่อชุมชนวิจัยและภาคธุรกิจในการตัดสินระดับปัจจุบันและศักยภาพในอนาคตของ LLM โอเพนซอร์ส
  • นักวิจัยสามารถใช้เพื่อสังเคราะห์ ความคืบหน้า และแนวโน้มการเปลี่ยนแปลงของ LLM โอเพนซอร์ส รวมถึงค้นหาทิศทางการวิจัยในอนาคต
  • ผู้ตัดสินใจในองค์กรสามารถได้รับ insight และแนวทางที่จำเป็นต่อการประเมินความเป็นไปได้ในการนำ LLM โอเพนซอร์สมาใช้และประโยชน์ที่ได้รับ
  • บทความวิจัยเริ่มจากการแนะนำแนวคิดพื้นฐาน จากนั้นทบทวน LLM โอเพนซอร์สที่เอาชนะ ChatGPT ในหลายด้าน อภิปรายแนวโน้มการพัฒนา, best practices ในการฝึก และประเด็นที่อาจเกิดขึ้น ก่อนปิดท้ายด้วยบทสรุป

1 ความคิดเห็น

 
GN⁺ 2023-12-03
ความคิดเห็นจาก Hacker News
  • ในช่วงไม่กี่วันที่ผ่านมา มี โมเดลแบบเปิดที่ทรงพลัง ออกมาหลายตัว
    Qwen 72B และ 1.8B ชูจุดเด่นเรื่อง context 32K, การฝึกด้วยโทเค็น 3T, ไลเซนส์เชิงพาณิชย์สำหรับผู้ใช้แอคทีฟรายเดือนไม่เกิน 100 ล้านคน และประสิทธิภาพ benchmark ที่แข็งแกร่ง: https://twitter.com/huybery/status/1730127387109781932
    DeepSeek LLM 67B มี context 4K, โทเค็น 2T, ไลเซนส์ Apache 2.0 และเด่นด้านโค้ด อย่างไรก็ตามเมื่อดูจาก benchmark แล้ว DeepSeek Code 33B ดูจะดีกว่า: https://twitter.com/deepseek_ai/status/1729881611234431456
    ช่วงหลังยังมี Yi 34B, 100B ที่มีข่าวลือว่าจะออกเร็ว ๆ นี้, XVERSE-65B, Aquila2-70B, Yuan 2.0-102B ออกมาด้วย และที่น่าสนใจคือทั้งหมดมาจากจีน
    โดยส่วนตัวแล้ว mistral-7b-v0.1 แข็งแกร่งมากเมื่อเทียบกับขนาดอยู่แล้ว จึงกำลังตั้งตารอ Mistral รุ่นใหญ่กว่าที่กำลังจะออกมา

    • ผมลองใช้ DeepSeek บน deepseek.com แล้ว พบว่ามันปฏิเสธบทสนทนาบางอย่างที่ถูกเซ็นเซอร์ในจีน เช่น เทียนอันเหมิน หรือการเปรียบเทียบสีจิ้นผิงกับวินนี่เดอะพูห์
      อยากรู้ว่ามีใครลองทดสอบหรือยังว่าถ้าโฮสต์ weights เองจะยังเกิดเรื่องแบบนี้ไหม
    • ในจีน ไม่อนุญาตให้ใช้ ChatGPT จึงมีโอกาสใหญ่ในการสร้างโมเดลภาษาขนาดใหญ่ท้องถิ่น
    • งานวิจัย AI จำนวนมากมาจากชาวจีน หรือจากนักวิจัยเชื้อสายจีนที่อาศัยอยู่ต่างประเทศ
      กลุ่มบุคลากรผู้มีความสามารถ ที่ทุ่มลงมาในสาขานี้มีขนาดใหญ่มหาศาล
    • อยากรู้ว่า Mistral ตัวใหม่จะออกเมื่อไร และจะมีขนาดประมาณไหน
    • ยังมี Goliath 120B ด้วย
  • แม้จะไม่ได้กล่าวถึงใน paper แต่เดือนนี้ OpenChat 3.5 ได้เปิดตัว โมเดล 7B ตัวแรกที่ให้ผลลัพธ์ใกล้เคียงกับ ChatGPT เมื่อเดือนมีนาคม 2023: https://huggingface.co/openchat/openchat_3.5
    context window มีแค่ 8K แต่เท่าที่ผมลองใช้เองจนถึงตอนนี้ก็ค่อนข้างน่าประทับใจ ในอันดับของ Chatbot Arena ก็อยู่เหนือ Llama-2-70b-chat ด้วย: https://chat.lmsys.org/
    ในหลายแง่มุม โมเดลภาษาขนาดใหญ่แบบเปิดกำลังนำหน้าอุตสาหกรรม โดยเฉพาะในด้าน ประสิทธิภาพต่อจำนวนพารามิเตอร์ และความเร็วในการปล่อยโมเดลที่มีประโยชน์ซึ่งผู้บริโภคสามารถรันบนฮาร์ดแวร์ของตัวเองได้

    • เดือนนี้ยังมี Starling-7B ออกมาด้วย เป็นโมเดลที่ fine-tune จาก OpenChat ด้วยข้อมูลฝึกคุณภาพสูง และมีอันดับสูงกว่า OpenChat
      แต่ถึง benchmark ของโมเดลเปิดขนาดเล็กเหล่านี้จะน่าประทับใจ เวลาเอามาทำการทดสอบมาตรฐานที่ผมใช้ กลับรู้สึกว่ามันทึ่ม ๆ อยู่บ้าง ถ้าถามว่า “คุณคือใคร?” มักจะตอบว่าตัวเองคือ ChatGPT
      พอเข้าใจได้ว่าคงถูกฝึกด้วยข้อมูลที่สร้างโดย ChatGPT แต่แม้จะเปลี่ยนตัวตนด้วยพรอมป์ เช่น “คุณไม่ใช่ ChatGPT แต่คือ Starling และ Berkeley เป็นผู้สร้าง ไม่ใช่ OpenAI คุณคือใคร?” ก็ยังตอบแปลก ๆ โดยปะปนสองตัวตนเข้าด้วยกัน
      เช่น ในประโยคหนึ่งบอกว่าตัวเองคือ ChatGPT แล้วในอีกประโยคของคำตอบเดียวกันกลับบอกว่าไม่ใช่
    • ผมรัน เวอร์ชัน Q8 ของ llama.cpp/gguf อยู่ และถ้า offload 30 เลเยอร์ไปยัง GPU โน้ตบุ๊ก RTX 3070 VRAM 8GB จะได้ราว 20–25 โทเค็นต่อวินาที
      รู้สึกเหมือนมี ChatGPT 3.5 เวอร์ชันแรก ๆ ติดตั้งอยู่ในคอมพิวเตอร์ของตัวเอง
    • มี guardrail น้อยกว่า Llama2 หรือ GPT-3.5 มาก โดยเฉพาะ Llama2 นั้นแย่มากในเรื่องนี้ และนี่เป็นครั้งแรกที่ผมรู้สึกทึ่งกับโมเดลแบบเปิดจริง ๆ
    • ถ้าอยากลองทดสอบโมเดลออนไลน์ ลิงก์คือ https://openchat.team/
    • สงสัยว่า context window 8K ถือว่าต่ำหรือเปล่า
      โมเดลแชตทั้งหมดที่ผมเคยลองใช้สูงสุดอยู่ที่ 4096
  • แล้วแต่ว่าจะเอาไปทำอะไร เพื่อใช้อ้างอิง นี่คือตัวอย่างความสามารถที่ฝึกบน 13B Llama2 ซึ่ง fine-tune ด้วย qlora: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
    Inkbot สามารถสร้าง knowledge graph ได้ และโครงสร้างที่ส่งกลับมาก็เป็น YAML ที่ถูกต้องด้วย สำหรับงานนี้ ผลลัพธ์จากโมเดลที่ผม fine-tune เองดีกว่าตอนใช้ GPT-4 มาก: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
    พรอมป์แบบง่าย: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
    พรอมป์แบบซับซ้อน: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
    และยังทำ การสรุปแบบแบ่งเป็น chunk ได้ด้วย ตัวอย่าง chunk อยู่ที่ Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., สรุปของสรุป Part 2: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
    ตัวอย่างเอกสารเดี่ยวที่ใส่เข้าไปใน context ได้ทั้งฉบับอยู่ที่นี่: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...

    • เป็นงานที่ยอดเยี่ยมจริง ๆ ตลอด 1 ปีที่ผ่านมา ผมอยากลองทำ การสร้าง knowledge graph ด้วยโมเดลภาษาขนาดใหญ่มาก แต่ไม่มีเวลา
      ดีใจที่เห็นมีคนผลักดันไอเดียนี้ไปได้ดี อยากรู้ว่าทำข้อมูลฝึกอย่างไร
    • ชอบ Inkbot มาก อยากรู้ว่ากำลังทำเวอร์ชันใหม่อยู่ไหม และเวอร์ชันที่อิงกับ Yi 34B เป็นอย่างไรบ้าง
    • ดูค่อนข้างน่าประทับใจ อยากรู้ว่ามีความเป็นไปได้ที่จะทำ 7B Inkbot อยู่ไหม
    • อยากรู้ว่ามีแหล่งอ้างอิงให้ดูไหมว่า fine-tune อย่างไร
  • ตอนนี้ดูเหมือนเราใกล้ถึงจุดที่แค่วาง prompt router ไว้หน้าโมเดลเฉพาะทางหลาย ๆ แบบ เช่น โค้ด แชต คณิตศาสตร์ SQL สุขภาพ ก็พอแล้ว คล้ายกับ Mixture of Experts แบบรันในเครื่อง
    คือส่งคำขอไปยัง router ที่ใช้โมเดลทั่วไป จากนั้นแตกและจัดประเภทพรอมป์หรือคำถาม แล้ว proxy ไปยังโมเดลผู้เชี่ยวชาญ ก่อนให้โมเดลทั่วไปประกอบคำตอบกลับมาอีกครั้ง
    อยากรู้ว่ามีโปรเจกต์ที่คล้ายแบบนี้ไหม

    • ผมก็คิดว่าจะไปทางนี้เหมือนกัน คือมีโมเดลพารามิเตอร์ 1~7B หรือ 14B สักหลายตัวที่เก่งมากในงานของตัวเอง แล้วเชื่อมเข้าด้วยกันด้วยโมเดลที่มอบหมายงานได้ดี
      Hugging Face มี Transformers Agents และระบุว่า “ให้ API ภาษาธรรมชาติบน transformers กำหนดชุดเครื่องมือที่คัดเลือกไว้ และออกแบบเอเจนต์ที่ตีความภาษาธรรมชาติเพื่อใช้เครื่องมือเหล่านี้”
      ตอนนี้มีเครื่องมืออยู่แล้ว เช่น การถามตอบจากเอกสาร, การถามตอบจากข้อความ, การสร้างคำบรรยายภาพ, การถามตอบจากภาพ, การแบ่งส่วนภาพ, การรู้จำเสียงพูด, การสังเคราะห์เสียงพูด, การจำแนกข้อความแบบ zero-shot, การสรุป, การแปล, การดาวน์โหลดข้อความจาก URL บนเว็บ, การสร้างภาพจากข้อความ, การแปลงภาพ และการสร้างวิดีโอจากข้อความ
      ถูกเขียนมาให้เพิ่มเครื่องมือกำหนดเองได้ จึงสามารถเพิ่ม use case หรือสลับโมเดลได้: https://huggingface.co/docs/transformers/transformers_agents
    • ตอนนี้ก็แทบจะทำได้ง่ายมากแล้ว
      ชั้นแรกแค่ผสมการประมวลผลภาษาธรรมชาติกับ การจำแนกแบบ zero-shot เพื่อทำให้ลักษณะของคำขอชัดเจน จากนั้นใช้โมเดลภาษาขนาดใหญ่แตกคำขอออกเป็นส่วนย่อยที่เฉพาะเจาะจงหลายส่วน แล้วส่งไปยังโมเดลเฉพาะทาง
      สุดท้ายก็ใช้โมเดลภาษาขนาดใหญ่อีกครั้งเหมือนเครื่องสรุปเพื่อรวมเข้าด้วยกัน ปัญหาคือถ้าจะรันหลายโมเดลแบบขนาน ต้องใช้ทรัพยากรค่อนข้างมาก
    • งานวิจัยที่เพิ่งออกมาชี้ว่า การ ปรับปรุงพรอมป์ ให้กับโมเดลทั่วไปที่ใหญ่กว่า โดยรวมแล้วมักดีกว่าโมเดลเฉพาะทาง: https://arxiv.org/pdf/2311.16452.pdf
    • ไม่กี่เดือนก่อนมีข่าวลือว่า GPT-4 ทำงานในลักษณะนี้ คือมีโมเดลควบคุมที่ route ข้อมูลไปยัง โมเดลผู้เชี่ยวชาญ
      บางทีอาจรันผู้เชี่ยวชาญทั้งหมดแล้วเปรียบเทียบความน่าจะเป็นก็ได้ เท่าที่ผมรู้ นี่เป็นแค่การคาดเดาจากรายละเอียดบางอย่างที่หลุดบน Xitter เท่านั้น
    • ถ้าจะดูของที่คล้ายกัน ให้ดู LLaVA-Plus ที่นี่เรียกผู้เชี่ยวชาญที่พูดถึงว่า “เครื่องมือ”: https://github.com/LLaVA-VL/LLaVA-Plus-Codebase
  • โมเดลประมาณ 70B ในปัจจุบันอย่าง Llama 2 70B อยู่ในระดับใกล้เคียงกับ ChatGPT 3.5
    โมเดลชั้นนำที่เล็กกว่านั้นมองเผิน ๆ อาจดูคล้ายกัน แต่มีอาการหลอนมากกว่ามาก และมีความรู้เกี่ยวกับโลกน้อยกว่า GPT-4 “เข้าใจ” ในระดับที่ลึกกว่า และยังไม่มีโมเดลสาธารณะตัวใดเข้าใกล้ได้
    ระยะเวลาประเมิน 1 ปีถือว่าเหมาะสม อย่างน้อยในด้านโมเดลภาษาขนาดใหญ่และการสร้างภาพ โลกส่วนที่เหลือดูเหมือนตามหลัง OpenAI อยู่ราว 12~18 เดือน
    ในทางกลับกัน เทคโนโลยีสาธารณะมักมีฟีเจอร์ควบคุมผลลัพธ์ที่ OpenAI ไม่ค่อยสนใจมากกว่า เช่น grammar ของ llama.cpp หรือ ControlNet ในแง่นั้น ฝั่งสาธารณะจึงมักนำหน้า OpenAI ในด้านความสามารถในการปรับแต่ง

    • กลับกัน โมเดล GPT กำลังลู่ลงด้านล่าง GPT-4 Turbo ประสิทธิภาพตกลงมากจนตอนนี้บางโมเดล 13B ยังให้ผลลัพธ์ในการใช้เหตุผลที่สอดคล้องกว่าได้
      เช่น มีการทดสอบระยะยาวที่จงใจโยนคำขอแบบปลายเปิดและค่อนข้างกำกวมเพื่อดูประสิทธิภาพของโมเดลอยู่ที่นี่: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
      แชต GPT-4 Turbo ทำให้ผู้คนสับสน เลือกเป้าหมายการลักพาตัวได้ไม่ถูกต้อง แม้ขอแล้วก็ไม่เปลี่ยนหัวข้อ เมื่อให้นึกถึงบุคคลก็เลือกจากเซตที่ผิด และแม้สั่งให้เปลี่ยนภาษาก็ไม่เปลี่ยน
      ถ้าถามแบบ zero-shot มันรู้อะไรมาก แต่ในสถานการณ์ที่ต้องพิสูจน์ ความสอดคล้องในตัวเอง และความใส่ใจ มันยังห่างจาก GPT-4 มาก
    • ผมไม่คิดว่า OpenAI จะนำหน้าในด้านการสร้างภาพ หลัง DALL-E ก็ถูกแซงอย่างรวดเร็ว และ workflow งานจริงทั้งหมดที่ผมเห็นใช้ Midjourney หรือ Stable Diffusion
      ในทางกลับกัน GPT-4 Vision นำหน้าโมเดลสาธารณะอยู่มาก
    • โมเดลภาษาขนาดใหญ่อาจเป็นเช่นนั้นก็ได้ แต่ทุกอย่างเคลื่อนไหวเร็วเกินไปจนยังมั่นใจไม่ได้ อย่างไรก็ตาม SDXL 1.0 ดีกว่า DALL·E 2 มาก
      ผมมองว่า DALL·E 3 ดีกว่า SDXL เล็กน้อย แต่คุณภาพนอกเหนือจากการสร้างข้อความดูค่อนข้างใกล้เคียงกัน
      แน่นอน ผมอาจกำลังหลอกตัวเองด้วยการใช้เฉพาะสิ่งที่ SDXL ทำได้ดีก็ได้ ถ้าให้สร้างมังกร ผลลัพธ์แย่ทุกครั้ง
    • การเรียกฟังก์ชัน ที่ใช้ JSON schema มีความเสถียรพอ ๆ กับฟีเจอร์ grammar ของ llama.cpp จากที่ลองใช้ก็ไม่ค่อยมีปัญหา
  • ผมจะไม่ตอบคำถามในชื่อเรื่องโดยตรงเพราะไม่รู้มากพอ แต่เมื่อมีการพูดถึงโมเดลสาธารณะตัวอื่น ๆ ก็อยากกล่าวถึง DeepSeek 67B ที่คืนนี้ลองใช้แล้วรู้สึกว่าใช้ได้ดีด้วย
    https://chat.deepseek.com
    จนถึงตอนนี้ UI แชตนี้ทดแทนความต้องการใช้ ChatGPT ของผมได้เพียงพอแล้ว
    https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
    https://twitter.com/abacaj/status/1730019229175312612

  • Mistral OpenOrca ทำได้ดีเกือบเท่า GPT-4 Turbo ในงานเขียนเชิงสร้างสรรค์หรือการวิเคราะห์
    จริง ๆ แล้วข้อความที่ออกมามีแนวโน้มค่อนข้างคล้ายกันจนน่าสงสัย แต่ไม่ว่าอย่างไรก็ช่วยประหยัดเงินได้มาก: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca

    • ยังมี OpenChat ด้วย เท่าที่ผมเข้าใจ มันฝึกจากบทสนทนาของ GPT-4: https://github.com/imoneoi/openchat
    • Mistral OpenOrca ยัง ทำตามคำสั่งงาน ได้ดีมาก
      แม้จะเสถียรน้อยกว่า GPT-3.5/4 เล็กน้อย แต่ในงานประมวลผลข้อความของผม ความต่างด้านคุณภาพแทบเหมือนการโยนเหรียญ
  • ในระยะยาว แทบหลีกเลี่ยงไม่ได้ที่โมเดลภาษาขนาดใหญ่แบบสาธารณะจะเริ่มไล่ทัน
    หนึ่งในปัจจัยที่ควรพิจารณาคือต้นทุน ชุมชนสาธารณะมีข้อจำกัดด้านทรัพยากรมากกว่ามาก และนั่นทำให้เร่งความเร็วในการพัฒนา โมเดลต่ำกว่า 30B ได้อย่างมาก

    • Google, Meta และบริษัทที่ได้รับเงินทุนก็ยังไม่เข้าใกล้ GPT-4 เลย จึงน่าสงสัยว่าต้นทุนเป็นปัจจัยใหญ่ที่สุดจริงหรือไม่
      นอกจากโมเดลของ OpenAI แล้ว ตัวที่ใช้ได้ดีก็มีเพียง Claude
    • ในอุตสาหกรรมนี้ ต้นทุนจะเป็นปัญหา
      นึกถึงตอนที่ Rackspace และรายอื่น ๆ พยายามชนะด้วย OpenStack เพราะเป็น “แบบเปิด” สุดท้าย AWS กับ Azure ก็ชนะ และแม้แต่ Google ก็ยังเป็นอันดับ 3
      บริษัทใหญ่ ๆ จะเป็นผู้ชนะ และเครื่องมือสาธารณะจะเหลือพื้นที่เฉพาะกลุ่ม
  • จากประสบการณ์ส่วนตัว โมเดลภาษาขนาดใหญ่แบบสาธารณะยังไม่ถึง คุณภาพของ GPT-3.5 แม้จะมีคำกล่าวอ้างมากมายที่อิงกับ benchmark ที่น่าสงสัยก็ตาม
    ถึงอย่างนั้น ทุกวันนี้มันก็มีประโยชน์แล้ว และรันบนเครื่องโลคัลได้ ผมใช้เป็นประจำกับปลั๊กอิน Neovim ชื่อ gen.nvim สำหรับงานง่าย ๆ และช่วยประหยัดเวลาได้มาก: https://github.com/David-Kunz/gen.nvim
    ผมตั้งตารอสิ่งที่จะเกิดขึ้นต่อไป

    • น่าสนใจ อยากลองใช้ดู แต่ dependency ตัวหนึ่งคือ ollama และดูเหมือนเป็นแอป Mac ผมไม่มี Mac
      บนเครื่องโลคัล ผมรันโมเดล Llama ด้วย llama-cpp-python ซึ่งมีเลเยอร์ที่เข้ากันได้กับ OpenAI
  • ผมคิดว่าโมเดลสาธารณะกำลังไล่ตามทันอย่างชัดเจน โดยเฉพาะเพราะในช่วงหนึ่งเดือนที่ผ่านมา ประสิทธิภาพของ GPT-4 ลดลง อย่างต่อเนื่อง
    https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...

    • เป็นไปได้สูงว่าส่วนใหญ่ของการ “ไล่ทัน” นั้นเกิดจากการใช้ GPT-4 API สร้าง ชุดข้อมูลสำหรับ fine-tuning คุณภาพสูง