Needle - โมเดล 26 ล้านพารามิเตอร์ที่กลั่นการเรียกใช้เครื่องมือของ Gemini

(github.com/cactus-compute)

1 คะแนน โดย GN⁺ 2 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Needle เป็นโมเดลทดลองที่กลั่นจาก Gemini 3.1 มาเป็น Simple Attention Network ขนาด 26 ล้านพารามิเตอร์ และสามารถทำโลคัลไฟน์จูนบน Mac/PC ได้
เป้าหมายคือการนิยามใหม่ของ AI ขนาดเล็กสำหรับใช้งานบน อุปกรณ์ผู้บริโภค เช่น โทรศัพท์ นาฬิกา และแว่นตา โดยโฟกัสที่การเรียกใช้เครื่องมือแบบรันครั้งเดียวสำหรับ AI ส่วนบุคคล
ในโปรดักชัน โมเดลทำงานอยู่บน Cactus และทำความเร็วได้ prefill 6000 toks/sec, decode 1200
เวตถูกเปิดสู่สาธารณะทั้งหมดที่ Cactus-Compute/needle และมีการเปิดเผยขั้นตอน การสร้างชุดข้อมูล มาพร้อมกัน
การพรีเทรนทำบน 16 TPU v6e ด้วยโทเค็น 200B เป็นเวลา 27 ชั่วโมง และการเทรนต่อภายหลังใช้เวลา 45 นาทีด้วยชุดข้อมูลการเรียกฟังก์ชันแบบรันครั้งเดียวขนาด 2B โทเค็น
สำหรับการเรียกฟังก์ชันแบบรันครั้งเดียว มีการระบุว่าทำได้ดีกว่า FunctionGemma-270m, Qwen-0.6B, Graninte-350m, LFM2.5-350m แต่โมเดลเหล่านั้นมีขอบเขตและขนาดที่กว้างกว่า และเด่นกว่าในสภาพแวดล้อมแบบสนทนา
โมเดลขนาดเล็กอาจใช้งานได้ยาก จึงแนะนำเวิร์กโฟลว์ให้ทดสอบด้วยเครื่องมือของตนเองผ่าน เว็บ UI ที่ให้มา และทำการไฟน์จูนแบบปรับแต่งเองได้ด้วยการคลิกปุ่ม
needle playground จะเปิดเว็บ UI ที่ http://127.0.0.1:7860 โดยจะดาวน์โหลดเวตให้อัตโนมัติเพื่อใช้ทดสอบและไฟน์จูน
หากใช้ Python สามารถใส่คำค้นและสคีมาเครื่องมือผ่าน SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer เพื่อสร้าง JSON การเรียกใช้เครื่องมือ อย่าง get_weather ได้
CLI มี playground, finetune, run, train, pretrain, eval, tokenize, generate-data, tpu สำหรับงานอนุมาน การเทรน การประเมิน การสร้างข้อมูล และการจัดการ TPU
การตั้งค่าโมเดลคือ d=512, 8H/4KV, BPE=8192 และใช้เอนโค้ดเดอร์ 12 ชั้นกับดีโค้ดเดอร์ 8 ชั้น พร้อม GQA+RoPE, cross attention, gated residual, tied linear, shared embedding

1 ความคิดเห็น

GN⁺ 2 시간 전

ความเห็นจาก Hacker News

สงสัยว่ามีตัวอย่างหรือข้อมูลเกี่ยวกับความสามารถในการแยกแยะของโมเดลที่ใช้เครื่องมือไหม
ตัวอย่างเช่น “อากาศที่ซานฟรานซิสโกเป็นยังไง” และเครื่องมือที่ส่งให้ก็ประมาณ tools='[{"name":"get_weather","parameters":{"location":"string"}}]'
เมื่อกว่า 10 ปีก่อนเคยสร้างสิ่ง[1]ที่จัดการปัญหาแบบนี้ด้วย SPARQL และ knowledge graph
สิ่งที่อยากรู้จริง ๆ คือมันจัดการกับความกำกวมได้ดีแค่ไหน
ถ้าส่งข้อความอย่าง “พรุ่งนี้ 10 โมงมาเจอกันดื่มกาแฟนะ” และคำสั่งอย่าง “บันทึกอันนี้ไว้” มันจะเลือกการทำงาน “เพิ่มกำหนดการ” ได้หรือไม่ จากบรรดาเครื่องมือที่เป็นไปได้หลายสิบตัว แม้จะไม่ถึงหลายร้อยก็ตาม
[1] https://github.com/nlothian/Acuitra/wiki/About
- ลองทดสอบกับ Hugging Face ที่ลิงก์ไว้ด้านล่างแล้ว แต่ไม่ค่อยน่าประทับใจ
  พรอมป์ต์คือ “ต้องติดต่อหัวหน้าว่าจะไปสาย” และผลลัพธ์คือ 20mins [{"name":"set_timer","arguments":{"time_human":"20 minutes"}}]
  มันไม่ได้ใช้เครื่องมืออีเมล และลองถามอีก 2–3 แบบก็ได้ผลคล้ายกัน
สงสัยว่าไม่กังวลกับการตอบโต้ของ Google หรือ
มีรายงานว่า Google ตอบโต้ความพยายามในการกลั่นโมเดลด้วย “การป้องกันเชิงรุกแบบเรียลไทม์ที่อาจลดประสิทธิภาพของ student model”
ถ้าตรวจจับได้ ก็อาจจงใจป้อน Gemini เวอร์ชันที่ดูน่าเชื่อถือแต่โง่ลงให้: https://cloud.google.com/blog/topics/threat-intelligence/dis...
แต่โมเดลนี้เล็กและโฟกัสแค่การใช้เครื่องมือ จึงอาจยังห่างไกลมากในแง่การใช้โทเคน เมื่อเทียบกับคนที่พยายามกลั่นทั้งโมเดล
- จะกลั่นจากโมเดล Gemmaที่รันในเครื่องก็ได้ และโมเดลอื่นที่ใช้เครื่องมือได้ก็เช่นกัน
- ในมุมของข้อมูลฝึก มันก็ให้ความรู้สึกเหมือนขโมยจากโจรเหมือนกัน
อาจเป็นไปได้ที่จะสร้างอะไรอย่างโปรแกรมบรรทัดคำสั่งที่ให้ระบุอาร์กิวเมนต์แบบเลือกได้ด้วยภาษาธรรมชาติ
แน่นอนว่าจะมีหลายคนที่คัดค้านการเพิ่มขนาด 14MB และการคำนวณเข้าไปเพื่อ “พาร์ส” และถ้าทุกคนเริ่มทำแบบนี้กันหมดก็คงไม่ค่อยดีนัก
แต่ถึงอย่างนั้น การที่ตอนนี้มันทำได้แล้วก็น่าสนใจมาก
สามารถใส่โมเดลที่ fine-tune ให้เข้าใจวิธีใช้โปรแกรมไว้ด้วยกันได้
เช่น > toolcli what can you do ก็ไปรัน toolcli --help summary และ toolcli add tom to teamfutz group ก็กลายเป็น toolcli --gadd teamfutz tom
- Needle ถูกฝึกมาสำหรับINT4 และสิ่งที่เห็นใน playground ก็เป็น INT4 เช่นกัน เลยมีขนาดแค่ 14MB
  แต่โจทย์แบบเดียวกันก็ยังคงอยู่
น่าจะดีถ้าเปิดเดโมสดของ “needle playground”
ด้วยขนาดที่เล็ก ค่าใช้จ่ายในการรันบน VPS เล็ก ๆ ที่ไหนสักแห่งก็น่าจะค่อนข้างถูก
- ดูเหมือนจะทำผ่าน WebGPU ได้เร็วและง่ายด้วย
- ปัญหาคือการรองรับสเกลเท่านั้น และโครงสร้างพื้นฐานแบบพร้อมใช้ยังไม่พร้อม
  ถึงอย่างนั้นใคร ๆ ก็ทำได้ และก็รันบนโน้ตบุ๊กได้ง่ายมากเช่นกัน
  จะลองแนวทาง VPS ดูด้วย
- จะลองเอาไปลงบน chonklm.com
ข้อสังเกตที่ว่า “งานค้นหาไม่ต้องใช้ FFN” น่าสนใจ
ถ้าความรู้อยู่ในบริบท ก็แทบจะเป็นการบอกว่าสำหรับงานนั้นน้ำหนัก FFNเป็นส่วนเกิน
สงสัยว่ามันจะทั่วไปไปถึงการเรียกใช้เครื่องมือหลายเทิร์นที่ต้องติดตามสถานะข้ามหลายครั้งได้หรือไม่ หรือจะพังตรงนั้น
การเรียกครั้งเดียวเป็นกรณีที่ง่าย
น่าสนใจ และสอดคล้องกับสิ่งที่เคยสังเกตตอนใช้ Claude Code ในช่วงแรก
Sonnet มักเรียกเครื่องมือเร็วเพื่อรวบรวมบริบทเพิ่ม ส่วน Opus มักใช้เวลาคิดนานกว่าเพื่อแก้ปัญหาจากบริบทที่มีอยู่
เรื่องนี้ทำให้เกิดฟังก์ชันซ้ำมากมายและทำให้การพัฒนาช้าลง แต่ในโมเดลใหม่อย่าง GPT-5.5 และ Opus 4.6 ปัญหานี้ดูเหมือนจะลดลง
ข้อสรุปของฉันคือโมเดลที่ “โง่กว่า” หรือก็คือเล็กกว่า อาจดีกว่าสำหรับการเป็นเปลือกสำหรับรันเอเจนต์ และอย่างน้อยในหลายปัญหาก็อาจใช้งานได้จริงกว่าในด้านต้นทุนและความเร็ว
ไม่ได้รู้สึกว่า Gemini เก่งเป็นพิเศษกับช่วงการเรียกเครื่องมือที่ยาว
ถ้ากลั่นจากร่องรอยที่มีสายการเรียกเครื่องมือยาวระหว่างคำถามของผู้ใช้ แบบเซสชัน Codex หรือ Claude Code จริง ๆ ก็น่าจะน่าสนใจ
ส่วนตัวอยากได้โมเดลที่ใหญ่ขึ้นอีกนิด แต่ยังรันได้ง่ายบนเครื่องอย่าง 32GB M2 MacBook Pro และมีreinforcement learning สำหรับการเรียกใช้เครื่องมือเป็นเป้าหมายหลัก
โมเดลน้ำหนักเปิดอย่าง Kimi หรือ Qwen กำลังเข้าใกล้จุดนั้น แต่ดูเหมือนการควอนไทซ์ที่ต้องใช้เพื่อให้พอดีกับอุปกรณ์เล็กจะทำให้ประสิทธิภาพตกลงมาก
- ประเด็นสำคัญคืออย่าเอา LLM ไปรันเป็นลูปวนซ้ำ
  กระแส agent framework ทุกวันนี้ดูงี่เง่า และฉันคิดว่าส่วนใหญ่มีไว้เพื่อเพิ่มรายได้ให้บริษัท LLM
  โดยทั่วไป LLM มีประโยชน์จำกัด แต่ถ้าจับคู่กับการใช้เครื่องมือเพียงครั้งเดียว จะมีประโยชน์และเชื่อถือได้มากขึ้นมาก
  ฉันทำชุดเครื่องมือเฉพาะงานมาก ๆ ของตัวเองบน openrouter API
  กดปุ่มแล้วให้ LLM ทำงานที่มีประโยชน์หนึ่งอย่าง ไม่ใช่กดปุ่มแล้วหวังให้ LLM วนลูปเรียกเครื่องมือ 5 นาทีและจัดลำดับให้ถูกต้อง
  ถ้าต้องเรียกหลายเครื่องมือ ก็เชื่อมมันแบบกำหนดแน่นอนในโค้ด
  เพราะสามารถตรวจผลลัพธ์จาก A ก่อนแล้วค่อยไป B หรือ C ได้ จึงเชื่อถือได้กว่ามาก และยังประหยัดเวลาและโทเคนกว่า
  ฉันมองว่า agent loop แทบจะเป็นการหลอกลวงขนาดใหญ่
- อยากให้บริษัท AI ยักษ์ใหญ่เลิกเสียเวลาไปกับการอุดช่องโหว่ของ “เครื่องมือ” ของตัวเองที่ปล่อยค้างไว้แบบนั้น
  ไม่เข้าใจว่าทำไมเราต้องพยายามทุกวิถีทางเพื่อ “ทำให้มันพอใช้ได้”
  Google, MS, Meta, OpenAI ฯลฯ ตอนนี้พยายามเรียกเครื่องมือของตัวเองแบบอ้อม ๆ ว่า “Intelligence” ทั้งที่ไม่ใช่แม้แต่ “Artificial Intelligence” ด้วยซ้ำ ถ้าอย่างนั้นทำไมมันถึงไม่ฉลาดและทำไมมันถึงใช้การไม่ได้
  มีเงินลงทุนเกิน 1 ล้านล้านดอลลาร์แล้ว แต่เรายังต้องมาคิดคาถาและการตั้งค่าที่ดีที่สุดเพื่อให้เครื่องผลิตขยะสร้างผลลัพธ์ที่พอใช้ได้อยู่เลยหรือ
  ทั้งที่ผู้นำเทคโนโลยีบางคนยังขู่กันอย่างเปิดเผยว่าจะทำให้เราสยบอยู่ใต้ภาพฝัน “อารยธรรม” ประหลาด ๆ ของพวกเขา
  ฉันคิดว่าเราควรเอาสมองที่ดีกว่าของเราไปใช้กับอย่างอื่น และไม่ลดตัวเองลงไปเป็นผู้ช่วยไร้พลังของคำพยากรณ์วิเศษ
ผลทดลอง Cactus ที่ว่า “ตราบใดที่โมเดลยังพึ่งพาแหล่งความรู้ภายนอก ก็สามารถตัด MLP ออกจากเครือข่ายทรานส์ฟอร์เมอร์ได้ทั้งหมด” น่าสนใจ
บังเอิญว่าวันนี้นักศึกษาของฉันคนหนึ่งก็เพิ่งนำเสนอผลวิจัยที่ยืนยันเรื่องนี้
เมื่อตัดMLPออกจาก Qwen โมเดลยังคงทำงานแปลงข้อมูลตามอินพุตได้ แต่สูญเสียความรู้ไป
ความต่างระหว่าง M กับ B มันละเอียดเกินไป
ขอเสนอให้เขียนเป็น 0.026B แทน
- การเขียนแบบ “M” มีใช้มาตั้งแต่ยุค BERT และ T5/FLAN เป็นอย่างน้อย
  ถึงตอนนี้นักพัฒนา LLM จะคุ้นกับโมเดลระดับพันล้านพารามิเตอร์มากกว่า แต่วิธีเขียนนี้ก็ยังใช้ได้อยู่
- หลายคอมเมนต์ในโพสต์นี้ทำให้สับสนมาก ขอบคุณที่ทำให้รู้ว่าบางคนอ่านเป็น 26B เลยทำให้คอมเมนต์ดูไม่สมเหตุสมผล
น่าตื่นเต้นมาก งานยอดเยี่ยม
โมเดล edge ของ Gemma4 ถูกวางตัวว่าจะเหมาะกับการใช้งานแบบเอเจนต์ แต่ในการทดสอบทุกอย่างที่ฉันลองกลับน่าผิดหวังมาก
มันล้มเหลวแม้แต่ในสถานการณ์การใช้เครื่องมือพื้นฐานที่สุด
สงสัยว่าได้รันเบนช์มาร์กการใช้เครื่องมือกับ Needle แล้วหรือยัง หรือมีแผนจะทำไหม
ถ้ามี อยากให้เพิ่มผลลัพธ์ไว้ในรีโพซิทอรี
เพิ่งลองตั้งนาฬิกาปลุกกับเพิ่มรายการซื้อของไป มันทำได้ดีกว่า Siri

Needle - โมเดล 26 ล้านพารามิเตอร์ที่กลั่นการเรียกใช้เครื่องมือของ Gemini

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News