18 คะแนน โดย GN⁺ 2025-05-02 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • ใช้ ไลบรารี MLX เพื่อรันบน Mac ได้โดยตรง และ เสิร์ฟแบบโลคัล ด้วยโมเดลล่าสุดที่ทรงพลังอย่าง Qwen3-30B-A3B-8bit
  • เชื่อมต่อเข้ากับ Localforge ในรูปแบบ OpenAI API เพื่อสร้าง agent loop
  • เพิ่มการตั้งค่า โมเดลเสริมบนพื้นฐาน ollama (Gemma3) เพื่อแยกบทบาทผู้ช่วยของเอเจนต์และทำให้ใช้เครื่องมือได้อย่างมีประสิทธิภาพ
  • หลังตั้งค่าเอเจนต์ใน UI ของ Localforge แล้ว สามารถทำได้ตั้งแต่ "รันเครื่องมือ LS", สร้างเว็บไซต์ ไปจนถึงรันเกมงูอัตโนมัติ
  • ทุกขั้นตอนนี้ ฟรีและสามารถทำงานแบบอัตโนมัติเต็มรูปแบบบนเครื่องโลคัลได้, เป็นโปรเจกต์ที่ผู้ใช้ Mac น่าลองทำตาม

รัน Qwen3 แบบโลคัลบน Mac

  • เป้าหมาย: รันโมเดล Qwen3 รุ่นล่าสุดบน Mac และทำให้เป็นเอเจนต์ด้วย Localforge เพื่อทดลองระบบอัตโนมัติสำหรับงานเขียนโค้ด
  • Qwen3 ถูกเผยแพร่บน Ollama และ HuggingFace MLX community
  • ขั้นตอนที่ 1: ติดตั้งสภาพแวดล้อม MLX

    pip install mlx  
    pip install mlx-lm  
    
  • ขั้นตอนที่ 2: รันโมเดลเซิร์ฟเวอร์

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • โมเดลจะถูกดาวน์โหลดอัตโนมัติและรันเป็น API server บนพอร์ต 8082
    • หากมีข้อความ "Starting httpd..." ปรากฏในล็อก แปลว่ารันได้ตามปกติ

การตั้งค่า Localforge

  • เว็บไซต์ทางการ: https://localforge.dev
  • หลังติดตั้งแล้ว ต้องตั้งค่าดังนี้:
  • เพิ่ม provider

    • a) provider ของ Ollama (โมเดลเสริม)
      • ชื่อ: LocalOllama
      • ประเภท: ollama
      • ต้องติดตั้ง: โมเดล gemma3:latest (เหมาะกับงานประมวลผลภาษาที่ไม่ซับซ้อน)
    • b) provider ของ Qwen3 (โมเดลหลัก)

  • สร้างเอเจนต์

    • ชื่อ: qwen3-agent
    • โมเดลหลัก: qwen3:mlx:30b (ชื่อโมเดล: mlx-community/Qwen3-30B-A3B-8bit)
    • โมเดลเสริม: LocalOllama (ชื่อโมเดล: gemma3:latest)

สรุป

  • บน Mac สามารถ รันโมเดลขนาดใหญ่แบบโลคัลฟรีเพื่อทำระบบเขียนโค้ดอัตโนมัติแบบเอเจนต์ได้
  • หากเลือกโมเดลหรือปรับแต่ง system prompt ก็สามารถได้ผลลัพธ์ที่ละเอียดขึ้นอีก
  • Localforge + MLX + Qwen3 เป็นชุดผสานที่ มีประโยชน์มากสำหรับการทดลอง LLM ส่วนบุคคล

3 ความคิดเห็น

 
ragingwind 2025-05-02

ถ้ารัน 30b บนเครื่องโลคัลได้ก็น่าประทับใจมากเลยนะ? Qwen2.5-Coder ไม่ค่อยดีเท่าไหร่ แต่ตัวนี้ก็น่าลองดูครับ

 
GN⁺ 2025-05-02
ความคิดเห็นบน Hacker News
  • กำลังใช้งานโมเดล Qwen3-30B-A3B แบบโลคัลอยู่ และน่าประทับใจมาก สำหรับคนที่รอ GPT-4 อยู่ก็น่าจะเป็นทางเลือกได้ บน M3 Max ได้ความเร็ว 70 tok/s เลยใช้งานได้ดีมาก

    • ประทับใจเป็นพิเศษที่โมเดล 0.6B ก็ยังนำไปใช้กับงานที่ไม่สำคัญมากได้ แม้จะอยู่ในกลุ่มโมเดลต่ำกว่า 1B
    • โดยรวมแล้วน่าประทับใจมาก และกำลังประเมินอยู่ว่าจะผสานเข้ากับการตั้งค่าปัจจุบันได้อย่างไร
  • การรัน qwen3 แล้วเรียกใช้เครื่องมือ ls ไม่ใช่ "vibe coding" มันดูเหมือนโฆษณาให้ LocalForge มากกว่า

    • ในงานที่ต้องมีความเป็นอัตโนมัติจริง ๆ เช่น อ่านหลายไฟล์ สำรวจไดเรกทอรี และหาว่าควรแก้ตรงไหน มันคงทำงานได้ไม่ดีนัก
  • อยากชม MLX และ MLX-LM กำลังใช้มันปรับจูน Gemma 3 แบบโลคัล และไลบรารีกับเครื่องมือที่นักพัฒนา Apple สร้างมาก็จัดวางมาอย่างดี

  • บังเอิญทำให้ Qwen3 ติดลูปด้วยพรอมป์ต์ง่าย ๆ

    • ใช้พรอมป์ต์ว่า "สร้าง Python decorator ที่ใช้ trie สำหรับ mqtt topic routing"
    • phi4-reasoning ทำงานได้ แต่ดูเหมือนโค้ดจะมีบั๊ก
    • phi4-mini-reasoning ดูสับสน
    • qwen3:30b ติดลูปและลืม decorator ไปเลย
    • mistral-small จับประเด็นได้ทันที และโค้ดก็ดูทำงานปกติ
    • ใช้โมเดล Copilot เป็นประจำ และ Claude 3.7 กับ Gemini ก็สร้างโค้ดที่ใช้งานได้พร้อมเทสต์ แต่ดูเหมือนโมเดลแบบโลคัลยังไปไม่ถึงระดับนั้น
  • มีใครรู้จักการตั้งค่าที่ทำให้ local LLM ทำงานร่วมกันผ่าน MCP ได้บ้างไหม ไม่ว่าจะช่วยกันทำงาน บีบอัดคอนเท็กซ์ หรือร่วมมือกับคลาวด์เอเจนต์

    • การให้เครื่อง M3 ตัวใหม่คอยเรนเดอร์แค่ UI แล้วให้คลาวด์ LLM รีแฟกเตอร์โค้ดเบสดูจะไร้เหตุผล น่าจะมีวิธีให้พวกมันประสานงานกันได้
  • อยากแชร์ทิวทอเรียลสั้น ๆ สำหรับการรัน autonomous agent จริง ๆ บนเครื่องโลคัลให้ทำงานง่าย ๆ ได้

    • ตอนนี้กำลังหาการตั้งค่า MLX ที่ถูกต้องหรือเวอร์ชันโมเดลที่เหมาะสมอยู่ แต่เฟรมเวิร์กของแนวทางนี้ดูแข็งแรงดี
  • ดีใจที่ได้เจอ LocalForge และมีคำถามเกี่ยวกับมัน สามารถเอาเอเจนต์สองตัวมารวมกันได้ไหม เพื่อส่งภาพไปให้ multimodal agent ที่จะสร้าง html/css แล้วให้อีกเอเจนต์เขียนโค้ดส่วนที่เหลือ

    • ในโพสต์พูดถึง Gemma3 (multimodal) กับ Qwen3 (non-multimodal) ใช้งานแบบข้างต้นได้ไหม
    • สงสัยว่า LocalForge รู้ได้อย่างไรว่าควรจะ route พรอมป์ต์ไปที่เอเจนต์ตัวไหน
  • น่าประทับใจมาก ไม่จำเป็นต้องดีเท่ากับโมเดลโทเค็นแบบเสียเงินก็ได้

    • อย่างเช่น เดือนที่แล้วใช้เงินอย่างน้อย $300 ไปกับ vibe coding เพราะอยากรู้ว่าเครื่องมือคู่แข่งมีอะไรบ้าง และหลังจากทำ implementation ของ side project เสร็จแล้วก็อยากเขียนใหม่ด้วยภาษาโปรแกรมอื่น
    • ต่อให้พักจากตรงนี้ไปหน่อย โน้ตบุ๊ก Nvidia มือสองสภาพรีเฟอร์บิชก็น่าจะคืนทุนได้ภายใน 1 ปี น่าเสียดายที่ Ollama ยังจัดการฟลูว์ทั้งหมดไม่ได้ ทั้งที่น่าจะทำได้ด้วยคำสั่งเดียว
  • ดูดีเลย กำลังหา IDE ช่วยเขียนโค้ดแบบ AI ที่เน้นโลคัลเป็นหลักเพื่อใช้กับ Gemma 3 27B ของ Google

    • คิดว่าควรเปิดเผยว่า LocalForge เป็นโปรเจกต์ของตัวเอง
  • การรันโมเดลบนเครื่องเริ่มน่าสนใจขึ้นแล้ว โดยเฉพาะเวอร์ชัน 30B-A3B ที่ดูไปในทิศทางที่มีอนาคต แม้บน VRAM 16 GB จะยังเอาไม่ถึง แต่ก็ถือว่าเข้าถึงได้พอสมควร

    • กำลังรอการ์ด Nvidia RTX รุ่นใหม่ที่มี VRAM 24/32 GB คิดว่าอีกไม่กี่ปีก็น่าจะไปถึงระดับ GPT-4 ได้ ซึ่งน่าจะมีประโยชน์กับหลายงาน