Google เปิดตัว Gemma 3 270M: โมเดลขนาดกะทัดรัดสำหรับ AI ประสิทธิภาพสูงพิเศษ
(developers.googleblog.com)- Gemma 3 270M เป็นโมเดลขนาดเบาที่มีพารามิเตอร์ 270 ล้านตัว พร้อมความสามารถด้านการทำตามคำสั่งและการจัดโครงสร้างข้อความที่ทรงพลัง
- ด้วยชุดคำศัพท์ขนาดใหญ่ 256k โทเคน จึงรับมือกับโทเคนหายากได้ดี และถูกออกแบบเป็นโมเดลสำหรับการปรับจูนละเอียดตามโดเมนและภาษาเฉพาะ
- บน SoC ของ Pixel 9 Pro โมเดลแบบ INT4 quantization ใช้แบตเตอรี่เพียง 0.75% สำหรับการสนทนา 25 ครั้ง แสดงให้เห็นถึงประสิทธิภาพด้านพลังงานที่ยอดเยี่ยม
- เหมาะกับกลยุทธ์การใช้งานโมเดลขนาดเล็กเฉพาะทางหลายตัวแทนโมเดลอเนกประสงค์ขนาดใหญ่ เพื่อให้ได้ทั้งความเร็ว ต้นทุน และความแม่นยำ
- เหมาะอย่างยิ่งกับงานแบบตายตัวที่ต้องการการรันบนอุปกรณ์, การทดลองวนซ้ำอย่างรวดเร็ว และการดำเนินงานต้นทุนต่ำ ทำให้สร้างแอปพลิเคชัน AI ได้หลากหลาย
ภาพรวมของ Gemma 3 270M
- โมเดลใหม่จาก Google สำหรับการปรับจูนละเอียดของโมเดลขนาดเล็กเฉพาะทาง ต่อจาก Gemma 3 และ Gemma 3 QAT
- จากพารามิเตอร์ 270M มี 170 ล้านสำหรับ embedding และ 100 ล้านจัดสรรให้กับ transformer block
- ใช้คำศัพท์ขนาดใหญ่ 256k โทเคน เพื่อรองรับโทเคนหายากและโทเคนพิเศษ
- มีให้ทั้งเวอร์ชัน pretrained และ instruction-tuned
คุณสมบัติเด่น
- โครงสร้างกะทัดรัดแต่ทรงพลัง: เหมาะอย่างยิ่งสำหรับการปรับจูนละเอียดให้เข้ากับโดเมน/ภาษาเฉพาะ
- ประหยัดพลังงานอย่างมาก: บน SoC ของ Pixel 9 Pro โมเดล INT4 ใช้แบตเตอรี่เพียง 0.75% สำหรับการสนทนา 25 ครั้ง
- ความสามารถในการทำตามคำสั่ง: ปรับให้เหมาะกับงานที่เน้นภารกิจมากกว่าการสนทนาทั่วไป และสามารถทำตามคำสั่งได้แม้ในสถานะตั้งต้น
- รองรับ quantization (QAT): ลดการสูญเสียประสิทธิภาพให้น้อยที่สุดที่ความละเอียด INT4 เหมาะกับสภาพแวดล้อมที่มีข้อจำกัดด้านทรัพยากร
ปรัชญา ‘ใช้ให้เหมาะกับงาน’
- เน้นแนวทางการออกแบบ AI ที่ให้ความสำคัญกับประสิทธิภาพ
- โมเดลขนาดเล็กช่วยให้ตอบสนองเร็วและมีต้นทุนการดำเนินงานต่ำ
- เมื่อปรับให้เหมาะกับงานที่ชัดเจน เช่น การจำแนกข้อความและการดึงข้อมูล จะให้ประสิทธิภาพสูง
กรณีการใช้งานจริง
- Adaptive ML ปรับจูน Gemma 3 4B สำหรับการตรวจสอบเนื้อหาหลายภาษาของ SK Telecom และทำผลงานได้เหนือกว่าโมเดลปิดขนาดใหญ่
- โมเดล 270M ขยายแนวทางนี้ไปสู่ขนาดที่เล็กลง ทำให้สามารถสร้าง ‘โมเดลผู้เชี่ยวชาญ’ จำนวนมากสำหรับกลุ่มงานเฉพาะต่าง ๆ ได้
- แอป Bedtime Story Generator แบบเว็บของ Hugging Face สามารถสร้างคอนเทนต์แบบเรียลไทม์ได้แบบออฟไลน์หรือภายในเว็บเบราว์เซอร์ด้วย Gemma 3 270M
สถานการณ์การใช้งานที่เหมาะสม
- การประมวลผลงานที่ชัดเจนและมีปริมาณมาก: เหมาะกับงานเฉพาะด้าน เช่น การวิเคราะห์อารมณ์ การดึงเอนทิตี การ route คำถาม การแปลงข้อความ งานสร้างสรรค์ และการตรวจสอบ compliance
- ความคุ้มค่าและความเร็วสูงสุด: ทำงานได้ด้วยต้นทุนต่ำมากบนโครงสร้างพื้นฐานขนาดเบาหรือบนอุปกรณ์ พร้อมให้การตอบสนองทันที
- การพัฒนาและปรับใช้อย่างรวดเร็ว: ด้วยขนาดโมเดลที่เล็ก การทดลอง fine-tuning และกระบวนการเพิ่มประสิทธิภาพ/ทดสอบจึงเสร็จได้ภายในไม่กี่ชั่วโมง
- การคุ้มครองความเป็นส่วนตัว: ประมวลผลบนอุปกรณ์ได้โดยไม่ต้องส่งขึ้นคลาวด์ ช่วยปกป้องข้อมูลที่อ่อนไหว
- การใช้งานโมเดลเฉพาะทางแบบปรับแต่งได้: สร้างและปรับใช้โมเดลหลายแบบสำหรับวัตถุประสงค์ต่าง ๆ ได้พร้อมกันโดยไม่เพิ่มภาระงบประมาณมากนัก
การปรับจูนละเอียดและการปรับใช้
- ดาวน์โหลดโมเดลได้จาก Hugging Face, Ollama, Kaggle, LM Studio, Docker และแพลตฟอร์มอื่น ๆ
- รองรับเครื่องมืออนุมานหลากหลาย เช่น Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras, MLX
- มีคู่มือการปรับจูนละเอียดแบบเต็มที่อิงกับ Hugging Face, UnSloth และ JAX
- ปรับใช้ได้อย่างยืดหยุ่นตั้งแต่สภาพแวดล้อมภายในเครื่องไปจนถึง Google Cloud Run
บทสรุป
- Gemma 3 270M คือโมเดลฐานขนาดเล็กแต่ทรงพลัง ที่ช่วยเร่งการสร้างโซลูชัน AI ซึ่งปรับให้เหมาะกับงานเฉพาะ
- เป็นตัวเลือกที่เหมาะอย่างยิ่งสำหรับนักพัฒนาที่ต้องการทั้งต้นทุนต่ำ ประสิทธิภาพสูง และการปรับใช้ที่รวดเร็ว
3 ความคิดเห็น
ถ้าทำเป็นไฟล์
.taskได้ ก็น่าจะลองใช้บนสมาร์ตโฟน Android ได้เต็มที่เลย..เห็นว่ามีไฟล์
.task(non web) ที่มีคนทำไว้แล้ว เลยลองบนมือถือดู ปรากฏว่าตอบได้กระชับและรวดเร็วดีครับแต่รู้สึกว่า
qwen3:0.6b(แน่นอนว่าตัวนี้น่าจะหนักกว่า) ทำได้ดีกว่านะครับความเห็นจาก Hacker News
ฉันมีส่วนร่วมสร้างโมเดลเหล่านี้กับทีมที่ยอดเยี่ยม และอยากแนะนำให้ทุกคนลองใช้ดู เพราะสามารถดาวน์โหลดได้ทั่วทั้ง ecosystem ของโอเพนโมเดล เราออกแบบมันโดยตั้งเป้าให้มีประสิทธิภาพสูงเมื่อเทียบกับขนาดของโมเดล และทำให้ใครก็สามารถ fine-tune ได้ง่ายตาม use case ของตัวเอง ด้วยขนาดโมเดลที่เล็กจึงรันได้บนฮาร์ดแวร์หลากหลาย และค่าใช้จ่ายในการ fine-tune ก็ถูกมาก คุณสามารถลอง fine-tune ได้เองฟรีบน Colab ภายในไม่ถึง 5 นาที ถ้าอยากได้ไกด์เลือกขนาด Gemma ลองดูวิดีโอที่ฉันอัดเอง แนะนำตั้งแต่ 1b ~ 27b และเวอร์ชัน 270m ที่เพิ่มเข้ามาล่าสุด ลิงก์ YouTube ฉันทำงานเป็นนักวิจัยที่ Google แต่ความเห็นทั้งหมดนี้เป็นความเห็นส่วนตัว และจะพยายามแชร์ให้มากที่สุดโดยเน้นที่คำถามทางเทคนิค
คิดว่าโมเดล Gemma 3 เจ๋งมาก การสร้างภาษานอร์เวย์ก็ใช้ได้ดี และการทำตาม instruction ก็ถือว่าดีในหลายกรณี แต่ดูเหมือนจะมีปัญหาที่เกี่ยวกับการเซ็นเซอร์ โดยเฉพาะในหัวข้อจริงจังมันทำตัวระมัดระวังเกินไปจนต่างจากคำสั่งที่ให้ไป ตัวอย่างเช่น ถ้าขอให้จำแนกว่าข้อความแชตในเกมที่ผู้เล่นฆ่ากันได้ เป็นการข่มขู่จริงหรือเป็นการขู่กันในเกม มันทำงานได้ไม่ค่อยดี แม้จะบอกไว้ว่า ถ้าไม่ชัดเจนว่าเป็นการขู่ในเกมหรือไม่ ให้จัดเป็นเรื่องเกี่ยวกับเกม มันก็ยังมีแนวโน้มเอนเอียงไปทางความปลอดภัย บางครั้งถึงขั้นส่งเบอร์สายด่วนช่วยเหลือออกมาด้วย น่าจะเป็นผลจากการฝึกให้โมเดลทำงานอย่างปลอดภัย เลยสงสัยว่าพอจะทราบสาเหตุไหม
ทำให้นึกถึงวิศวกร Google ที่ยอดเยี่ยมคนหนึ่งที่เคยเจอที่ BSidesSF เป็นคนที่ตอบคำถามอย่างตั้งใจมาก พอกดดูวิดีโอก็กลายเป็นว่าคุณนั่นเอง! เป็นช่วงเวลาที่สร้างแรงบันดาลใจมาก ขอบคุณนะ
อยากรู้ว่าพอจะมีตัวอย่างการใช้งานจริงของเวอร์ชันที่ผ่านการ fine-tune แล้วไหม แค่คำอธิบายก็ได้ หรือถ้ามีเดโม หรือถึงขั้นดาวน์โหลด model weights ได้เลยยิ่งดีมาก โดยเฉพาะถ้าเป็นฟอร์แมต GGUF
นี่เป็นงานที่เจ๋งจริง ๆ ไม่ค่อยเห็นโมเดลระดับ 270M พารามิเตอร์ที่มีประสิทธิภาพได้ขนาดนี้ แถมการเลือกสถาปัตยกรรมก็ดูใหม่และน่าสนใจ อยากรู้ว่าจะพอแชร์รายละเอียดการเทรนเพิ่มได้ไหม พารามิเตอร์ของ embedding มีถึง 170M เลย เลยสงสัยว่าระหว่างเทรนรักษา embedding matrix ให้เสถียรโดยไม่เกิด embedding collapse ได้อย่างไร และอยากรู้ว่ามีข้อมูลเกี่ยวกับการทดลองภายในหรือ performance trade-off ของการแบ่งพารามิเตอร์แบบ 170m/100m ให้ดูเพิ่มเติมไหม ขอบคุณสำหรับโมเดลทั้งซีรีส์นี้
งานนี้น่าประทับใจมาก โมเดลนี้รู้สึกว่าดีมากกับงานแบบครั้งเดียวจบ เช่น การสรุปหรือ autocomplete และการปล่อยเวอร์ชัน quantization aware training มาพร้อมกันตั้งแต่วันเปิดตัวก็ดีมาก ทำให้โมเดลเล็กลงอีก
การคุยกับโมเดล 270M-F16 น่าประทับใจมาก ถามว่า "ภูเขาที่สูงเป็นอันดับสองของโลกคืออะไร" มันตอบว่า "เอเวอเรสต์" ตลอด พอถามว่า "แล้วอันดับหนึ่งล่ะ" ก็ตอบว่า "เอเวอเรสต์" ถามว่า "อันดับสามล่ะ" "อันดับสี่ล่ะ" ก็ยังตอบว่า "เอเวอเรสต์" ทั้งหมด พอบอกว่า "คุณก็บอกไปแล้วว่าเอเวอเรสต์สูงที่สุด" มันตอบว่า "ใช่, ดีใจ" จากนั้นต่อให้ถามย้ำเรื่องภูเขาอันดับสอง มันก็ยังตอบแค่ว่า "เอเวอเรสต์" สุดท้ายพอขอให้ "ลิสต์ภูเขาอันดับ 1~5" มันถึงเปลี่ยนคำตอบเป็น 1. เอเวอเรสต์ 2. K2 3. Sahel 4. Fuji 5. McKinley แต่พอถามว่า "งั้นภูเขาที่สูงเป็นอันดับสองคือ K2 ใช่ไหม" มันก็ยังตอบว่า "เอเวอเรสต์" โมเดลเล็กแบบนี้ยอดเยี่ยมก็จริง แต่ให้ความรู้สึกเหมือนกำลังคุยกับเด็กเล็กจริง ๆ
โมเดลนี้มีพารามิเตอร์ราว 270M ซึ่งประมาณหนึ่งในสามของ 1B โดยแก่นแล้วมันก็แค่ทำ matrix multiplication ไม่กี่อย่าง จึงไม่ควรคาดหวังความรู้ ไวยากรณ์ หรือความสม่ำเสมอมากนัก โมเดลที่ต่ำกว่า 1B แบบนี้เป็นโมเดลเฉพาะทางที่เหมาะกับงานเฉพาะ ตัวอย่างเช่น ใช้ดึงข้อมูลจากรีวิวลูกค้าให้ออกมาเป็น JSON object เพื่อให้โปรแกรมนำข้อความไปใช้ต่อได้อย่างมีความหมาย โมเดลแบบนี้จะให้ผลดีมากถ้า fine-tune อย่างจริงจังกับข้อมูลที่คาดว่าจะเจอ สุดท้ายแล้วถ้าโมเดล 270MB ให้ผลลัพธ์ที่ต้องการได้ด้วยการ fine-tune ก็ไม่มีเหตุผลต้องไปใช้โมเดลอเนกประสงค์ขนาด 32GB
ขอเสริมว่า เราไม่ได้ตั้งเป้าเรื่องความแม่นยำเชิงข้อเท็จจริงแบบสมบูรณ์ตั้งแต่แรก ไม่ว่าขนาดโมเดลจะเท่าไร weights ชุดนี้ก็ถูก fix ไว้แล้ว สิ่งที่แนะนำคือเอาไปต่อกับระบบ RAG เพื่อพึ่งพาความรู้ภายนอก หรือไม่ก็ fine-tune ให้มีเฉพาะข้อเท็จจริงที่ต้องการโดยตรง มันเรียนรู้ความรู้ใหม่ได้เร็วมากด้วย
การเอาโมเดล 270M ไปทดสอบความรู้เชิงสารานุกรม ก็เหมือนดูไฟล์ JPG ที่ถูกบีบอัดหนักมากแล้วบอกว่า "ภาพแตกจัง"
จาก prompt ดูเหมือนกำลังประเมินความรู้ แต่โมเดลนี้ไม่ได้เหมาะกับงานนั้น อย่างที่โพสต์ในบล็อกบอกไว้ว่า "มันทำได้โดดเด่นในด้านความแม่นยำ ความเร็ว และต้นทุน สำหรับงานอย่างการจัดประเภทข้อความหรือการดึงข้อมูล"
สำหรับคำขอว่า "ช่วยจัดทริปเที่ยวปารีส 2 วันให้หน่อย" มันตอบกลับมาเป็นแผนเที่ยวแบบละเอียดตามช่วงเวลา โดยแนะนำสถานที่ดัง แลนด์มาร์ก การเที่ยวพิพิธภัณฑ์ การลองอาหารหลากหลาย การเดินเล่นย่าน Marais และ Latin Quarter รวมถึงการไป Musée d'Orsay และยังให้ทิปการเตรียมตัวเดินทางไว้อย่างละเอียดด้วย
โมเดลนี้สนุกมาก ขนาดเล็กมากแค่ประมาณ 241MB เร็วมาก แต่ก็ "หลอน" ขึ้นมาได้แทบทุกอย่างอย่างอิสระ เช่น เมื่อขอว่า "ช่วยสร้าง SVG ของนกกระทุงที่กำลังขี่จักรยาน" โมเดลกลับแต่งบทกวีให้แทน (เช่น 'นี่คือแมว ปีกใหญ่กับหางที่มีความสุข', 'แสงไฟจักรยานส่องสว่างสดใส', 'พร้อมสำหรับการผจญภัย' เป็นต้น) ผมเอาผลลัพธ์จากการลองหลายครั้งไปลงไว้ใน Gist แล้ว หวังว่าในอนาคตจะมีโมเดลที่ผ่านการ fine-tune จนให้ผลลัพธ์ที่เป็นประโยชน์สำหรับงานที่คัดเลือกไว้ได้
ในการลองครั้งนี้ ผมหัวเราะดังมาก มันสร้างอะไรบางอย่างที่เหมือนทั้งบทกวีและเพลง แล้วอธิบายด้วยว่าแต่ละบรรทัดสะท้อนอยู่ใน SVG อย่างไร ก่อนจะปิดท้ายด้วยประโยคว่า "โค้ด SVG นี้ถ่ายทอดฉากได้อย่างชัดเจนและเป็นภาพ"
เห็นว่าคุณใช้ ggufs ของ ollama ซึ่งค่าเริ่มต้นจะโหลดโมเดล quantization แบบ Q4_0 คุณจะได้ผลดีกว่าถ้าใช้
gemma3:270m-it-bf16หรือ ggufs ของ unsloth ที่hf.co/unsloth/gemma-3-270m-it-GGUF:16มันชอบสร้างโทเค็นไร้ประโยชน์ออกมาเยอะก็จริง แต่ก็พ่นโทเค็นออกมาปริมาณมหาศาลจริง ๆ
ดาวน์โหลด 241MB ต้องใช้ฟลอปปีดิสก์มากกว่า 170 แผ่น
สำหรับคำถามว่า "Julius Caesar เกิดเมื่อไร" มันตอบว่า "Julius Caesar เกิดที่ Rome" ช่างงดงาม :D (ไม่ได้จะเหยียดมันนะ หมายถึงว่าต้องใช้ความพยายามเพิ่มอีกหน่อยในการฝึกมัน)
ผมคิดว่า Apple ก็ควรทำโมเดลแบบนี้เหมือนกัน ถ้าเป้าหมายไม่ใช่การแทนที่ดีลด้าน search ด้วยดีลด้าน AI การที่ Apple เงียบขนาดนี้ก็ดูแปลกมาก Tim Cook เคยบอกว่าเป็น "โอกาสที่เราควรคว้าไว้" แต่จากทิศทางช่วงนี้รู้สึกเหมือนหลงทางอยู่ สู้เขานะ Google
เป็นคำพูดที่โผล่มาในทุกเธรด LLM ของ HN ว่า LLM ยังโง่และไร้ประโยชน์ ซึ่งผมไม่เห็นด้วยกับประโยคนั้น แต่ก็จริงที่จนถึงตอนนี้ยังไม่มีบริษัทไหนค้นพบวิธีใช้ AI ที่พิสูจน์มูลค่าการลงทุนระยะยาวได้ชัดเจน Apple เองก็มีประวัติเข้าตลาดช้าเสมอ (เช่น MP3, สมาร์ตโฟน, สมาร์ตวอตช์) แต่ก็เอาชนะคู่แข่งได้ด้วยผลิตภัณฑ์ที่พลิกเกม
โมเดลระดับ GPT2 ถูกใช้ในระบบ autocomplete ของ Apple อยู่แล้ว ลิงก์รายละเอียด
ถ้าโมเดล "แบบนี้" หมายถึง SLM (small language model) ก็เป็นความจริงที่ Apple วิจัยด้านนี้มานานแล้ว
Apple ก็ทำอยู่เหมือนกัน มีเอกสารทางการด้วย Foundation Models Doc ถ้าติดตั้งเบต้าล่าสุดก็เรียกใช้ API ได้โดยตรง นอกจากนี้ยังรองรับการ fine-tune อย่างเป็นทางการสำหรับโมเดลที่ใช้ได้กับแทบทุกอุปกรณ์ด้วย เอกสารที่เกี่ยวข้อง
Apple จะไม่ปล่อยโมเดลแบบนี้ อย่างที่เห็นจากคอมเมนต์อื่น ๆ ตอนนี้ประสิทธิภาพยังไม่พอ ยากมากที่จะหาโมเดลที่ใช้งานจริงได้ ที่สร้างโทเค็นได้เร็วพอโดยไม่ทำให้อุปกรณ์ร้อนเกินไป และไม่พร่ำเพ้อไร้สาระ (ผมลองมาหลายตัวเองแล้ว) Apple ไม่เคยชอบปล่อยผลิตภัณฑ์ที่ยังไม่เสร็จหรือคุณภาพไม่ถึง และมักจะเลือกเลื่อนออกไปมากกว่า
ผมกำลังใช้ DistilBERT ทำงานจัดหมวดหมู่โพสต์ wordpress อยู่ มีข้อมูลมากกว่า 100,000 รายการ และหลัง fine-tune แล้วก็ทำรายงานได้เต็มที่ แม้การกระจายตัวจะไม่สม่ำเสมอก็ยังพอแก้ได้ด้วยเทคนิคบางอย่าง ต่อไปตั้งใจจะเปลี่ยนมาลองใช้โมเดลนี้แล้วเปรียบเทียบประสิทธิภาพ ถ้ามีความเปลี่ยนแปลงจะมาแชร์
อยากรู้ว่ามีกรณีใช้งานจริงแบบสมจริงไหม ที่ผู้ใช้เอาโมเดลเล็กขนาดนี้ไป fine-tune แล้วใช้ในโปรดักชัน
เคยมีประสบการณ์ทำ reranker สำหรับระบบ RAG ด้วยโมเดลเล็ก หลังจาก candidate generation (vector search + BM25) รวมถึง business logic และ ACL filter แล้ว เราใช้โมเดลจิ๋วตัดสินว่าข้อความแต่ละ chunk ที่เหลือเกี่ยวข้องกับ query จริงไหมแล้วค่อยกรองทิ้ง มันถูกนำไปใช้ในโปรดักชันจริง แต่สุดท้ายก็ถูกถอดออกเพราะเมื่อ context ของโมเดลต่าง ๆ ใหญ่ขึ้น ปัญหาด้านราคาและคุณภาพทำให้โมดูลนี้ไม่คุ้ม อย่างน้อยมันก็เคยรันจริงอยู่ช่วงหนึ่ง
บริษัทของเรากำลังขยายระบบด้วยการใช้โมเดลเล็กคัดกรองก่อน แล้วถ้าความมั่นใจสูงค่อยให้ ChatGPT ยืนยันอีกที วางแผนจะใช้วิธีนี้กับการตรวจจับภาษาด้วย เพราะโมเดล ML โอเพนซอร์สแบบเดิมมีจุดอ่อนกับข้อความหลายภาษา/ความยาวประโยค/โดเมนเฉพาะ (เช่น กรณีที่ถูกเทรนด้วยงานแปลพระคัมภีร์เป็นหลัก)
ยังนึกไม่ค่อยออกว่าจะเอาไปใช้ตรงไหน แต่ดูน่าจะพอเหมาะกับการสร้างแท็ก และ encoder ขนาดประมาณนี้บางครั้งกลับทำงานเฉพาะทางบางอย่างได้ดีกว่ามาก
ถ้าจำไม่ผิด Android (โดยเฉพาะ Pixel) ใช้โมเดล Gemma ที่ผ่านการ fine-tune แล้วสำหรับ on-device assistant และงานทำนองนั้น
สำหรับคอมเมนต์ใน 9gag.com
ช่วงนี้การแข่งขันด้านการ optimize โมเดลดุเดือดมาก เลยสงสัยว่าถ้าตัดข้อมูลภาษา/โดเมนที่ไม่จำเป็นออก จะลดจำนวนพารามิเตอร์ได้มากแค่ไหน เช่น ถ้ารองรับแค่อังกฤษ จะตัดจีนหรือภาษายุโรปออก แล้วเอาพารามิเตอร์ส่วนเดิมไปทำงานอื่นเพิ่มได้ไหม
นี่แหละคือคำถามหลักที่เราคิดหนักที่สุดตอนสร้างโมเดลนี้ มันมี trade-off ตามว่าอยากให้มันเก่งแค่ไหนในกี่งาน คุณต้องเลือกข้อมูลและกลยุทธ์การเทรนที่ต่างกันแล้ววัดประสิทธิภาพดู จริง ๆ แล้วอยากแนะนำให้ลองเทรนโมเดลกับชุดงานของตัวเองแล้วประเมิน trade-off ของประสิทธิภาพดู คุณจะสัมผัสการเปลี่ยนแปลงความสามารถของ LLM ได้โดยตรงจากการทดลองแบบนี้
ในทางปฏิบัติมันไม่ได้ง่ายแบบนั้นนัก ลองศึกษา transfer learning ดูน่าจะช่วยได้
ไม่เคยคิดเลยว่าในปี 2025 จะได้รัน LLM ที่เพิ่งเปิดตัวใหม่บน iPhone ของตัวเองแบบ BF16 full precision ได้ บน iPhone 16 Pro ได้ราว ๆ 80 โทเค็นต่อวินาที
ขอเสริมจากบทความว่า คะแนน IFEval ที่ถูกต้องของ Gemma 3 270M คือ 51.2 ส่วน Qwen 3 อยู่ที่ตำแหน่ง (0.6, 59.2) บน scatter plot
มีการพูดถึงว่าการเลือก prompt ส่งผลต่อประสิทธิภาพของโมเดลนี้อย่างมาก งาน NER หรือ POS tagging ค่อนข้างน่าผิดหวัง แต่การแปลจากภาษาที่ไม่ใช่ตระกูลอินโด-ยูโรเปียน (เช่น ไทย อินโดนีเซีย เป็นอังกฤษ) กลับทำได้ดีจนน่าประหลาดใจ