4 คะแนน โดย GN⁺ 2025-08-15 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemma 3 270M เป็นโมเดลขนาดเบาที่มีพารามิเตอร์ 270 ล้านตัว พร้อมความสามารถด้านการทำตามคำสั่งและการจัดโครงสร้างข้อความที่ทรงพลัง
  • ด้วยชุดคำศัพท์ขนาดใหญ่ 256k โทเคน จึงรับมือกับโทเคนหายากได้ดี และถูกออกแบบเป็นโมเดลสำหรับการปรับจูนละเอียดตามโดเมนและภาษาเฉพาะ
  • บน SoC ของ Pixel 9 Pro โมเดลแบบ INT4 quantization ใช้แบตเตอรี่เพียง 0.75% สำหรับการสนทนา 25 ครั้ง แสดงให้เห็นถึงประสิทธิภาพด้านพลังงานที่ยอดเยี่ยม
  • เหมาะกับกลยุทธ์การใช้งานโมเดลขนาดเล็กเฉพาะทางหลายตัวแทนโมเดลอเนกประสงค์ขนาดใหญ่ เพื่อให้ได้ทั้งความเร็ว ต้นทุน และความแม่นยำ
  • เหมาะอย่างยิ่งกับงานแบบตายตัวที่ต้องการการรันบนอุปกรณ์, การทดลองวนซ้ำอย่างรวดเร็ว และการดำเนินงานต้นทุนต่ำ ทำให้สร้างแอปพลิเคชัน AI ได้หลากหลาย

ภาพรวมของ Gemma 3 270M

  • โมเดลใหม่จาก Google สำหรับการปรับจูนละเอียดของโมเดลขนาดเล็กเฉพาะทาง ต่อจาก Gemma 3 และ Gemma 3 QAT
  • จากพารามิเตอร์ 270M มี 170 ล้านสำหรับ embedding และ 100 ล้านจัดสรรให้กับ transformer block
  • ใช้คำศัพท์ขนาดใหญ่ 256k โทเคน เพื่อรองรับโทเคนหายากและโทเคนพิเศษ
  • มีให้ทั้งเวอร์ชัน pretrained และ instruction-tuned

คุณสมบัติเด่น

  • โครงสร้างกะทัดรัดแต่ทรงพลัง: เหมาะอย่างยิ่งสำหรับการปรับจูนละเอียดให้เข้ากับโดเมน/ภาษาเฉพาะ
  • ประหยัดพลังงานอย่างมาก: บน SoC ของ Pixel 9 Pro โมเดล INT4 ใช้แบตเตอรี่เพียง 0.75% สำหรับการสนทนา 25 ครั้ง
  • ความสามารถในการทำตามคำสั่ง: ปรับให้เหมาะกับงานที่เน้นภารกิจมากกว่าการสนทนาทั่วไป และสามารถทำตามคำสั่งได้แม้ในสถานะตั้งต้น
  • รองรับ quantization (QAT): ลดการสูญเสียประสิทธิภาพให้น้อยที่สุดที่ความละเอียด INT4 เหมาะกับสภาพแวดล้อมที่มีข้อจำกัดด้านทรัพยากร

ปรัชญา ‘ใช้ให้เหมาะกับงาน’

  • เน้นแนวทางการออกแบบ AI ที่ให้ความสำคัญกับประสิทธิภาพ
  • โมเดลขนาดเล็กช่วยให้ตอบสนองเร็วและมีต้นทุนการดำเนินงานต่ำ
  • เมื่อปรับให้เหมาะกับงานที่ชัดเจน เช่น การจำแนกข้อความและการดึงข้อมูล จะให้ประสิทธิภาพสูง
โฆษณา

กรณีการใช้งานจริง

  • Adaptive ML ปรับจูน Gemma 3 4B สำหรับการตรวจสอบเนื้อหาหลายภาษาของ SK Telecom และทำผลงานได้เหนือกว่าโมเดลปิดขนาดใหญ่
  • โมเดล 270M ขยายแนวทางนี้ไปสู่ขนาดที่เล็กลง ทำให้สามารถสร้าง ‘โมเดลผู้เชี่ยวชาญ’ จำนวนมากสำหรับกลุ่มงานเฉพาะต่าง ๆ ได้
  • แอป Bedtime Story Generator แบบเว็บของ Hugging Face สามารถสร้างคอนเทนต์แบบเรียลไทม์ได้แบบออฟไลน์หรือภายในเว็บเบราว์เซอร์ด้วย Gemma 3 270M

สถานการณ์การใช้งานที่เหมาะสม

  • การประมวลผลงานที่ชัดเจนและมีปริมาณมาก: เหมาะกับงานเฉพาะด้าน เช่น การวิเคราะห์อารมณ์ การดึงเอนทิตี การ route คำถาม การแปลงข้อความ งานสร้างสรรค์ และการตรวจสอบ compliance
  • ความคุ้มค่าและความเร็วสูงสุด: ทำงานได้ด้วยต้นทุนต่ำมากบนโครงสร้างพื้นฐานขนาดเบาหรือบนอุปกรณ์ พร้อมให้การตอบสนองทันที
  • การพัฒนาและปรับใช้อย่างรวดเร็ว: ด้วยขนาดโมเดลที่เล็ก การทดลอง fine-tuning และกระบวนการเพิ่มประสิทธิภาพ/ทดสอบจึงเสร็จได้ภายในไม่กี่ชั่วโมง
  • การคุ้มครองความเป็นส่วนตัว: ประมวลผลบนอุปกรณ์ได้โดยไม่ต้องส่งขึ้นคลาวด์ ช่วยปกป้องข้อมูลที่อ่อนไหว
  • การใช้งานโมเดลเฉพาะทางแบบปรับแต่งได้: สร้างและปรับใช้โมเดลหลายแบบสำหรับวัตถุประสงค์ต่าง ๆ ได้พร้อมกันโดยไม่เพิ่มภาระงบประมาณมากนัก

การปรับจูนละเอียดและการปรับใช้

  • ดาวน์โหลดโมเดลได้จาก Hugging Face, Ollama, Kaggle, LM Studio, Docker และแพลตฟอร์มอื่น ๆ
  • รองรับเครื่องมืออนุมานหลากหลาย เช่น Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras, MLX
  • มีคู่มือการปรับจูนละเอียดแบบเต็มที่อิงกับ Hugging Face, UnSloth และ JAX
  • ปรับใช้ได้อย่างยืดหยุ่นตั้งแต่สภาพแวดล้อมภายในเครื่องไปจนถึง Google Cloud Run

บทสรุป

  • Gemma 3 270M คือโมเดลฐานขนาดเล็กแต่ทรงพลัง ที่ช่วยเร่งการสร้างโซลูชัน AI ซึ่งปรับให้เหมาะกับงานเฉพาะ
  • เป็นตัวเลือกที่เหมาะอย่างยิ่งสำหรับนักพัฒนาที่ต้องการทั้งต้นทุนต่ำ ประสิทธิภาพสูง และการปรับใช้ที่รวดเร็ว

3 ความคิดเห็น

 
kaydash 2025-08-16

ถ้าทำเป็นไฟล์ .task ได้ ก็น่าจะลองใช้บนสมาร์ตโฟน Android ได้เต็มที่เลย..

 
kaydash 2025-08-17

เห็นว่ามีไฟล์ .task (non web) ที่มีคนทำไว้แล้ว เลยลองบนมือถือดู ปรากฏว่าตอบได้กระชับและรวดเร็วดีครับ

แต่รู้สึกว่า qwen3:0.6b (แน่นอนว่าตัวนี้น่าจะหนักกว่า) ทำได้ดีกว่านะครับ

 
GN⁺ 2025-08-15
ความเห็นจาก Hacker News
  • ฉันมีส่วนร่วมสร้างโมเดลเหล่านี้กับทีมที่ยอดเยี่ยม และอยากแนะนำให้ทุกคนลองใช้ดู เพราะสามารถดาวน์โหลดได้ทั่วทั้ง ecosystem ของโอเพนโมเดล เราออกแบบมันโดยตั้งเป้าให้มีประสิทธิภาพสูงเมื่อเทียบกับขนาดของโมเดล และทำให้ใครก็สามารถ fine-tune ได้ง่ายตาม use case ของตัวเอง ด้วยขนาดโมเดลที่เล็กจึงรันได้บนฮาร์ดแวร์หลากหลาย และค่าใช้จ่ายในการ fine-tune ก็ถูกมาก คุณสามารถลอง fine-tune ได้เองฟรีบน Colab ภายในไม่ถึง 5 นาที ถ้าอยากได้ไกด์เลือกขนาด Gemma ลองดูวิดีโอที่ฉันอัดเอง แนะนำตั้งแต่ 1b ~ 27b และเวอร์ชัน 270m ที่เพิ่มเข้ามาล่าสุด ลิงก์ YouTube ฉันทำงานเป็นนักวิจัยที่ Google แต่ความเห็นทั้งหมดนี้เป็นความเห็นส่วนตัว และจะพยายามแชร์ให้มากที่สุดโดยเน้นที่คำถามทางเทคนิค

    • คิดว่าโมเดล Gemma 3 เจ๋งมาก การสร้างภาษานอร์เวย์ก็ใช้ได้ดี และการทำตาม instruction ก็ถือว่าดีในหลายกรณี แต่ดูเหมือนจะมีปัญหาที่เกี่ยวกับการเซ็นเซอร์ โดยเฉพาะในหัวข้อจริงจังมันทำตัวระมัดระวังเกินไปจนต่างจากคำสั่งที่ให้ไป ตัวอย่างเช่น ถ้าขอให้จำแนกว่าข้อความแชตในเกมที่ผู้เล่นฆ่ากันได้ เป็นการข่มขู่จริงหรือเป็นการขู่กันในเกม มันทำงานได้ไม่ค่อยดี แม้จะบอกไว้ว่า ถ้าไม่ชัดเจนว่าเป็นการขู่ในเกมหรือไม่ ให้จัดเป็นเรื่องเกี่ยวกับเกม มันก็ยังมีแนวโน้มเอนเอียงไปทางความปลอดภัย บางครั้งถึงขั้นส่งเบอร์สายด่วนช่วยเหลือออกมาด้วย น่าจะเป็นผลจากการฝึกให้โมเดลทำงานอย่างปลอดภัย เลยสงสัยว่าพอจะทราบสาเหตุไหม

    • ทำให้นึกถึงวิศวกร Google ที่ยอดเยี่ยมคนหนึ่งที่เคยเจอที่ BSidesSF เป็นคนที่ตอบคำถามอย่างตั้งใจมาก พอกดดูวิดีโอก็กลายเป็นว่าคุณนั่นเอง! เป็นช่วงเวลาที่สร้างแรงบันดาลใจมาก ขอบคุณนะ

    • อยากรู้ว่าพอจะมีตัวอย่างการใช้งานจริงของเวอร์ชันที่ผ่านการ fine-tune แล้วไหม แค่คำอธิบายก็ได้ หรือถ้ามีเดโม หรือถึงขั้นดาวน์โหลด model weights ได้เลยยิ่งดีมาก โดยเฉพาะถ้าเป็นฟอร์แมต GGUF

    • นี่เป็นงานที่เจ๋งจริง ๆ ไม่ค่อยเห็นโมเดลระดับ 270M พารามิเตอร์ที่มีประสิทธิภาพได้ขนาดนี้ แถมการเลือกสถาปัตยกรรมก็ดูใหม่และน่าสนใจ อยากรู้ว่าจะพอแชร์รายละเอียดการเทรนเพิ่มได้ไหม พารามิเตอร์ของ embedding มีถึง 170M เลย เลยสงสัยว่าระหว่างเทรนรักษา embedding matrix ให้เสถียรโดยไม่เกิด embedding collapse ได้อย่างไร และอยากรู้ว่ามีข้อมูลเกี่ยวกับการทดลองภายในหรือ performance trade-off ของการแบ่งพารามิเตอร์แบบ 170m/100m ให้ดูเพิ่มเติมไหม ขอบคุณสำหรับโมเดลทั้งซีรีส์นี้

    • งานนี้น่าประทับใจมาก โมเดลนี้รู้สึกว่าดีมากกับงานแบบครั้งเดียวจบ เช่น การสรุปหรือ autocomplete และการปล่อยเวอร์ชัน quantization aware training มาพร้อมกันตั้งแต่วันเปิดตัวก็ดีมาก ทำให้โมเดลเล็กลงอีก

  • การคุยกับโมเดล 270M-F16 น่าประทับใจมาก ถามว่า "ภูเขาที่สูงเป็นอันดับสองของโลกคืออะไร" มันตอบว่า "เอเวอเรสต์" ตลอด พอถามว่า "แล้วอันดับหนึ่งล่ะ" ก็ตอบว่า "เอเวอเรสต์" ถามว่า "อันดับสามล่ะ" "อันดับสี่ล่ะ" ก็ยังตอบว่า "เอเวอเรสต์" ทั้งหมด พอบอกว่า "คุณก็บอกไปแล้วว่าเอเวอเรสต์สูงที่สุด" มันตอบว่า "ใช่, ดีใจ" จากนั้นต่อให้ถามย้ำเรื่องภูเขาอันดับสอง มันก็ยังตอบแค่ว่า "เอเวอเรสต์" สุดท้ายพอขอให้ "ลิสต์ภูเขาอันดับ 1~5" มันถึงเปลี่ยนคำตอบเป็น 1. เอเวอเรสต์ 2. K2 3. Sahel 4. Fuji 5. McKinley แต่พอถามว่า "งั้นภูเขาที่สูงเป็นอันดับสองคือ K2 ใช่ไหม" มันก็ยังตอบว่า "เอเวอเรสต์" โมเดลเล็กแบบนี้ยอดเยี่ยมก็จริง แต่ให้ความรู้สึกเหมือนกำลังคุยกับเด็กเล็กจริง ๆ

    • โมเดลนี้มีพารามิเตอร์ราว 270M ซึ่งประมาณหนึ่งในสามของ 1B โดยแก่นแล้วมันก็แค่ทำ matrix multiplication ไม่กี่อย่าง จึงไม่ควรคาดหวังความรู้ ไวยากรณ์ หรือความสม่ำเสมอมากนัก โมเดลที่ต่ำกว่า 1B แบบนี้เป็นโมเดลเฉพาะทางที่เหมาะกับงานเฉพาะ ตัวอย่างเช่น ใช้ดึงข้อมูลจากรีวิวลูกค้าให้ออกมาเป็น JSON object เพื่อให้โปรแกรมนำข้อความไปใช้ต่อได้อย่างมีความหมาย โมเดลแบบนี้จะให้ผลดีมากถ้า fine-tune อย่างจริงจังกับข้อมูลที่คาดว่าจะเจอ สุดท้ายแล้วถ้าโมเดล 270MB ให้ผลลัพธ์ที่ต้องการได้ด้วยการ fine-tune ก็ไม่มีเหตุผลต้องไปใช้โมเดลอเนกประสงค์ขนาด 32GB

    • ขอเสริมว่า เราไม่ได้ตั้งเป้าเรื่องความแม่นยำเชิงข้อเท็จจริงแบบสมบูรณ์ตั้งแต่แรก ไม่ว่าขนาดโมเดลจะเท่าไร weights ชุดนี้ก็ถูก fix ไว้แล้ว สิ่งที่แนะนำคือเอาไปต่อกับระบบ RAG เพื่อพึ่งพาความรู้ภายนอก หรือไม่ก็ fine-tune ให้มีเฉพาะข้อเท็จจริงที่ต้องการโดยตรง มันเรียนรู้ความรู้ใหม่ได้เร็วมากด้วย

    • การเอาโมเดล 270M ไปทดสอบความรู้เชิงสารานุกรม ก็เหมือนดูไฟล์ JPG ที่ถูกบีบอัดหนักมากแล้วบอกว่า "ภาพแตกจัง"

    • จาก prompt ดูเหมือนกำลังประเมินความรู้ แต่โมเดลนี้ไม่ได้เหมาะกับงานนั้น อย่างที่โพสต์ในบล็อกบอกไว้ว่า "มันทำได้โดดเด่นในด้านความแม่นยำ ความเร็ว และต้นทุน สำหรับงานอย่างการจัดประเภทข้อความหรือการดึงข้อมูล"

    • สำหรับคำขอว่า "ช่วยจัดทริปเที่ยวปารีส 2 วันให้หน่อย" มันตอบกลับมาเป็นแผนเที่ยวแบบละเอียดตามช่วงเวลา โดยแนะนำสถานที่ดัง แลนด์มาร์ก การเที่ยวพิพิธภัณฑ์ การลองอาหารหลากหลาย การเดินเล่นย่าน Marais และ Latin Quarter รวมถึงการไป Musée d'Orsay และยังให้ทิปการเตรียมตัวเดินทางไว้อย่างละเอียดด้วย

  • โมเดลนี้สนุกมาก ขนาดเล็กมากแค่ประมาณ 241MB เร็วมาก แต่ก็ "หลอน" ขึ้นมาได้แทบทุกอย่างอย่างอิสระ เช่น เมื่อขอว่า "ช่วยสร้าง SVG ของนกกระทุงที่กำลังขี่จักรยาน" โมเดลกลับแต่งบทกวีให้แทน (เช่น 'นี่คือแมว ปีกใหญ่กับหางที่มีความสุข', 'แสงไฟจักรยานส่องสว่างสดใส', 'พร้อมสำหรับการผจญภัย' เป็นต้น) ผมเอาผลลัพธ์จากการลองหลายครั้งไปลงไว้ใน Gist แล้ว หวังว่าในอนาคตจะมีโมเดลที่ผ่านการ fine-tune จนให้ผลลัพธ์ที่เป็นประโยชน์สำหรับงานที่คัดเลือกไว้ได้

    • ในการลองครั้งนี้ ผมหัวเราะดังมาก มันสร้างอะไรบางอย่างที่เหมือนทั้งบทกวีและเพลง แล้วอธิบายด้วยว่าแต่ละบรรทัดสะท้อนอยู่ใน SVG อย่างไร ก่อนจะปิดท้ายด้วยประโยคว่า "โค้ด SVG นี้ถ่ายทอดฉากได้อย่างชัดเจนและเป็นภาพ"

    • เห็นว่าคุณใช้ ggufs ของ ollama ซึ่งค่าเริ่มต้นจะโหลดโมเดล quantization แบบ Q4_0 คุณจะได้ผลดีกว่าถ้าใช้ gemma3:270m-it-bf16 หรือ ggufs ของ unsloth ที่ hf.co/unsloth/gemma-3-270m-it-GGUF:16

    • มันชอบสร้างโทเค็นไร้ประโยชน์ออกมาเยอะก็จริง แต่ก็พ่นโทเค็นออกมาปริมาณมหาศาลจริง ๆ

    • ดาวน์โหลด 241MB ต้องใช้ฟลอปปีดิสก์มากกว่า 170 แผ่น

    • สำหรับคำถามว่า "Julius Caesar เกิดเมื่อไร" มันตอบว่า "Julius Caesar เกิดที่ Rome" ช่างงดงาม :D (ไม่ได้จะเหยียดมันนะ หมายถึงว่าต้องใช้ความพยายามเพิ่มอีกหน่อยในการฝึกมัน)

  • ผมคิดว่า Apple ก็ควรทำโมเดลแบบนี้เหมือนกัน ถ้าเป้าหมายไม่ใช่การแทนที่ดีลด้าน search ด้วยดีลด้าน AI การที่ Apple เงียบขนาดนี้ก็ดูแปลกมาก Tim Cook เคยบอกว่าเป็น "โอกาสที่เราควรคว้าไว้" แต่จากทิศทางช่วงนี้รู้สึกเหมือนหลงทางอยู่ สู้เขานะ Google

    • เป็นคำพูดที่โผล่มาในทุกเธรด LLM ของ HN ว่า LLM ยังโง่และไร้ประโยชน์ ซึ่งผมไม่เห็นด้วยกับประโยคนั้น แต่ก็จริงที่จนถึงตอนนี้ยังไม่มีบริษัทไหนค้นพบวิธีใช้ AI ที่พิสูจน์มูลค่าการลงทุนระยะยาวได้ชัดเจน Apple เองก็มีประวัติเข้าตลาดช้าเสมอ (เช่น MP3, สมาร์ตโฟน, สมาร์ตวอตช์) แต่ก็เอาชนะคู่แข่งได้ด้วยผลิตภัณฑ์ที่พลิกเกม

    • โมเดลระดับ GPT2 ถูกใช้ในระบบ autocomplete ของ Apple อยู่แล้ว ลิงก์รายละเอียด

    • ถ้าโมเดล "แบบนี้" หมายถึง SLM (small language model) ก็เป็นความจริงที่ Apple วิจัยด้านนี้มานานแล้ว

    • Apple ก็ทำอยู่เหมือนกัน มีเอกสารทางการด้วย Foundation Models Doc ถ้าติดตั้งเบต้าล่าสุดก็เรียกใช้ API ได้โดยตรง นอกจากนี้ยังรองรับการ fine-tune อย่างเป็นทางการสำหรับโมเดลที่ใช้ได้กับแทบทุกอุปกรณ์ด้วย เอกสารที่เกี่ยวข้อง

    • Apple จะไม่ปล่อยโมเดลแบบนี้ อย่างที่เห็นจากคอมเมนต์อื่น ๆ ตอนนี้ประสิทธิภาพยังไม่พอ ยากมากที่จะหาโมเดลที่ใช้งานจริงได้ ที่สร้างโทเค็นได้เร็วพอโดยไม่ทำให้อุปกรณ์ร้อนเกินไป และไม่พร่ำเพ้อไร้สาระ (ผมลองมาหลายตัวเองแล้ว) Apple ไม่เคยชอบปล่อยผลิตภัณฑ์ที่ยังไม่เสร็จหรือคุณภาพไม่ถึง และมักจะเลือกเลื่อนออกไปมากกว่า

  • ผมกำลังใช้ DistilBERT ทำงานจัดหมวดหมู่โพสต์ wordpress อยู่ มีข้อมูลมากกว่า 100,000 รายการ และหลัง fine-tune แล้วก็ทำรายงานได้เต็มที่ แม้การกระจายตัวจะไม่สม่ำเสมอก็ยังพอแก้ได้ด้วยเทคนิคบางอย่าง ต่อไปตั้งใจจะเปลี่ยนมาลองใช้โมเดลนี้แล้วเปรียบเทียบประสิทธิภาพ ถ้ามีความเปลี่ยนแปลงจะมาแชร์

    • ถ้าเป็นการ fine-tune สำหรับงานเฉพาะ ModernBERT อาจเป็นเบสโมเดลที่ดีกว่า แนะนำ ModernBERT
  • อยากรู้ว่ามีกรณีใช้งานจริงแบบสมจริงไหม ที่ผู้ใช้เอาโมเดลเล็กขนาดนี้ไป fine-tune แล้วใช้ในโปรดักชัน

    • เคยมีประสบการณ์ทำ reranker สำหรับระบบ RAG ด้วยโมเดลเล็ก หลังจาก candidate generation (vector search + BM25) รวมถึง business logic และ ACL filter แล้ว เราใช้โมเดลจิ๋วตัดสินว่าข้อความแต่ละ chunk ที่เหลือเกี่ยวข้องกับ query จริงไหมแล้วค่อยกรองทิ้ง มันถูกนำไปใช้ในโปรดักชันจริง แต่สุดท้ายก็ถูกถอดออกเพราะเมื่อ context ของโมเดลต่าง ๆ ใหญ่ขึ้น ปัญหาด้านราคาและคุณภาพทำให้โมดูลนี้ไม่คุ้ม อย่างน้อยมันก็เคยรันจริงอยู่ช่วงหนึ่ง

    • บริษัทของเรากำลังขยายระบบด้วยการใช้โมเดลเล็กคัดกรองก่อน แล้วถ้าความมั่นใจสูงค่อยให้ ChatGPT ยืนยันอีกที วางแผนจะใช้วิธีนี้กับการตรวจจับภาษาด้วย เพราะโมเดล ML โอเพนซอร์สแบบเดิมมีจุดอ่อนกับข้อความหลายภาษา/ความยาวประโยค/โดเมนเฉพาะ (เช่น กรณีที่ถูกเทรนด้วยงานแปลพระคัมภีร์เป็นหลัก)

    • ยังนึกไม่ค่อยออกว่าจะเอาไปใช้ตรงไหน แต่ดูน่าจะพอเหมาะกับการสร้างแท็ก และ encoder ขนาดประมาณนี้บางครั้งกลับทำงานเฉพาะทางบางอย่างได้ดีกว่ามาก

    • ถ้าจำไม่ผิด Android (โดยเฉพาะ Pixel) ใช้โมเดล Gemma ที่ผ่านการ fine-tune แล้วสำหรับ on-device assistant และงานทำนองนั้น

    • สำหรับคอมเมนต์ใน 9gag.com

  • ช่วงนี้การแข่งขันด้านการ optimize โมเดลดุเดือดมาก เลยสงสัยว่าถ้าตัดข้อมูลภาษา/โดเมนที่ไม่จำเป็นออก จะลดจำนวนพารามิเตอร์ได้มากแค่ไหน เช่น ถ้ารองรับแค่อังกฤษ จะตัดจีนหรือภาษายุโรปออก แล้วเอาพารามิเตอร์ส่วนเดิมไปทำงานอื่นเพิ่มได้ไหม

    • นี่แหละคือคำถามหลักที่เราคิดหนักที่สุดตอนสร้างโมเดลนี้ มันมี trade-off ตามว่าอยากให้มันเก่งแค่ไหนในกี่งาน คุณต้องเลือกข้อมูลและกลยุทธ์การเทรนที่ต่างกันแล้ววัดประสิทธิภาพดู จริง ๆ แล้วอยากแนะนำให้ลองเทรนโมเดลกับชุดงานของตัวเองแล้วประเมิน trade-off ของประสิทธิภาพดู คุณจะสัมผัสการเปลี่ยนแปลงความสามารถของ LLM ได้โดยตรงจากการทดลองแบบนี้

    • ในทางปฏิบัติมันไม่ได้ง่ายแบบนั้นนัก ลองศึกษา transfer learning ดูน่าจะช่วยได้

  • ไม่เคยคิดเลยว่าในปี 2025 จะได้รัน LLM ที่เพิ่งเปิดตัวใหม่บน iPhone ของตัวเองแบบ BF16 full precision ได้ บน iPhone 16 Pro ได้ราว ๆ 80 โทเค็นต่อวินาที

    • อยากรู้ว่าวิธีที่รันโมเดลนี้บน iPhone ทำจริง ๆ ทำอย่างไร
  • ขอเสริมจากบทความว่า คะแนน IFEval ที่ถูกต้องของ Gemma 3 270M คือ 51.2 ส่วน Qwen 3 อยู่ที่ตำแหน่ง (0.6, 59.2) บน scatter plot

  • มีการพูดถึงว่าการเลือก prompt ส่งผลต่อประสิทธิภาพของโมเดลนี้อย่างมาก งาน NER หรือ POS tagging ค่อนข้างน่าผิดหวัง แต่การแปลจากภาษาที่ไม่ใช่ตระกูลอินโด-ยูโรเปียน (เช่น ไทย อินโดนีเซีย เป็นอังกฤษ) กลับทำได้ดีจนน่าประหลาดใจ