1 คะแนน โดย GN⁺ 2025-07-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Cerebras เปิดตัวโมเดล AI Qwen3-235B พร้อมประสิทธิภาพการอนุมานแบบตอบสนองทันทีด้วยการสร้าง 1,500 โทเค็นต่อวินาที
  • ให้ ประสิทธิภาพการทำงานและการสร้างโค้ด ที่เร็วขึ้น 30 เท่า ด้วยต้นทุนเพียง 1/10 เมื่อเทียบกับโมเดลปิดแบบเดิม
  • รองรับคอนเท็กซ์ 131K เพื่อรองรับ โค้ดเบสขนาดใหญ่และการประมวลผลเอกสารซับซ้อน
  • ร่วมมือกับ Cline เพื่อขยายประสบการณ์การสร้างโค้ดแบบเรียลไทม์ใน Microsoft VS Code
  • การเปิดตัวครั้งนี้ทำให้เกิดทางเลือกแบบโอเพนซอร์สที่มีประสิทธิภาพสูงและต้นทุนสมเหตุสมผล แทน OpenAI และ Anthropic

Qwen3-235B: การเปิดตัวโมเดล AI สำหรับการอนุมานความเร็วสูงพิเศษของ Cerebras และผลลัพธ์สำคัญ

โมเดล AI สำหรับการอนุมานที่เร็วที่สุดในโลก เปิดตัวบน Cerebras Inference Cloud

  • Cerebras Systems เปิดตัว Qwen3-235B อย่างเป็นทางการเมื่อวันที่ 8 กรกฎาคม 2025 พร้อมเผยโฉมโมเดล AI สำหรับการอนุมานรุ่นใหม่ที่รองรับคอนเท็กซ์ได้สูงสุด 131K อย่างเต็มรูปแบบ
  • โมเดลนี้ผสาน ความสามารถระดับฟรอนเทียร์ของปัญญาประดิษฐ์และสมรรถนะการอนุมานความเร็วสูงพิเศษ เข้ากับ ต้นทุนเพียง 1/10 เมื่อเทียบกับทางเลือกแบบปิด และนำเสนอการเปลี่ยนแปลงต่อการนำ AI ไปใช้ในองค์กร

ความฉลาดระดับโมเดลฟรอนเทียร์

  • Qwen3-235B ของ Alibaba ได้รับการยืนยันจากการประเมินอิสระของ Artificial Analysis ว่ามี ประสิทธิภาพบนเบนช์มาร์กด้านวิทยาศาสตร์ โค้ด และความรู้ทั่วไป ทัดเทียมกับโมเดลชั้นนำอย่าง Claude 4 Sonnet, Gemini 2.5 Flash และ DeepSeek R1
  • ด้วยสถาปัตยกรรม Mixture-of-Experts ที่เพิ่มประสิทธิภาพการคำนวณสูงสุด จึงให้บริการในราคา 0.60 ดอลลาร์ต่อโทเค็นอินพุต 1 ล้านโทเค็น และ 1.20 ดอลลาร์ต่อโทเค็นเอาต์พุต 1 ล้านโทเค็น ทำให้ใช้งานได้ในต้นทุนที่ต่ำมากเมื่อเทียบกับโมเดลปิดเดิม

ความเร็วในการอนุมาน: พลิกจากระดับนาทีสู่ระดับวินาที

  • AI สำหรับการอนุมานแบบดั้งเดิมมักใช้เวลาหลายนาทีแม้กับคำถามทั่วไป
  • ด้วยการใช้ Wafer Scale Engine ทำให้ Qwen3-235B สามารถสร้างเอาต์พุตได้ 1,500 โทเค็นต่อวินาที ลดเวลาตอบคำถามจาก 1–2 นาทีเหลือ 0.6 วินาที
  • ส่งผลให้ การสร้างโค้ด การให้เหตุผล และเวิร์กโฟลว์ RAG ขนาดใหญ่ ตอบสนองได้ทันที และสร้างมาตรฐานใหม่ให้กับสมรรถนะ AI แบบเรียลไทม์
  • จากผลการวัดของ Artificial Analysis โมเดลนี้ได้รับการประเมินว่าเป็น โมเดล AI ระดับฟรอนเทียร์เพียงรายเดียวในโลกที่สร้างได้เกิน 1,000 โทเค็นต่อวินาที

คอนเท็กซ์ 131K: รองรับการสร้างโค้ดในสภาพแวดล้อมจริง

  • พร้อมกับการเปิดตัว Qwen3-235B ทาง Cerebras ยังขยายการรองรับ จากคอนเท็กซ์เดิม 32K เป็น 131K หรือเพิ่มขึ้น 4 เท่า
  • สิ่งนี้ทำให้สามารถอนุมานโค้ดเบสขนาดใหญ่และเอกสารซับซ้อนได้ในครั้งเดียว และเพิ่มศักยภาพของ การพัฒนาสำหรับสภาพแวดล้อมโปรดักชัน อย่างมาก ด้วยการสร้างโค้ดพร้อมกันจากหลายสิบไฟล์หรือหลายหมื่นบรรทัด
  • หากคอนเท็กซ์ 32K เดิมรองรับได้เพียงการสร้างโค้ดแบบง่าย ๆ คอนเท็กซ์ 131K ก็รองรับการพัฒนาแอปพลิเคชันขนาดใหญ่ได้โดยตรง
  • ด้วยเหตุนี้ จึงสามารถตอบโจทย์ ตลาดการสร้างโค้ดสำหรับองค์กร ซึ่งเป็นหนึ่งในภาคส่วนที่ใหญ่ที่สุดและเติบโตเร็วที่สุดของ generative AI ได้โดยตรง

เสริมประสบการณ์การผสานรวมกับ VS Code ผ่านความร่วมมือเชิงกลยุทธ์กับ Cline

  • Cerebras จับมือเป็นพาร์ตเนอร์กับ Cline ซึ่งเป็นเอเจนต์สำหรับเขียนโค้ดบน VS Code ที่มีการติดตั้งมากกว่า 1.8 ล้านครั้ง
  • ผู้ใช้ Cline ทุกคนสามารถใช้งาน Qwen3-32B (คอนเท็กซ์ 64K, ฟรี) ได้โดยตรงจากเอดิเตอร์ และมีแผนรองรับ Qwen3-235B (คอนเท็กซ์ 131K) ในลำดับถัดไป
  • คาดว่าจะให้ ความเร็วในการสร้างโค้ดเร็วกว่า 10–20 เท่า เมื่อเทียบกับคู่แข่งอย่าง DeepSeek R1
  • Saoud Rizwan ซีอีโอของ Cline เน้นว่า “ด้วยการอนุมานแบบเรียลไทม์ นักพัฒนาสามารถสำรวจโค้ดและปัญหาต่าง ๆ พร้อมรักษาเวิร์กโฟลว์ให้เดินหน้าไปด้วยความเร็วเดียวกับกระบวนการคิด”

มอบทางเลือก AI ระดับฟรอนเทียร์ที่เร็วกว่า 30 เท่าและมีต้นทุนเพียง 1/10

  • การเปิดตัวครั้งนี้ของ Cerebras มอบทางเลือกใหม่ให้แก่นักพัฒนาที่ต้องการ ความฉลาดและการสร้างโค้ดของโมเดลแบบโอเพน ในระดับใกล้เคียงกับโมเดลเชิงพาณิชย์อย่าง OpenAI และ Anthropic
  • โดยเฉพาะอย่างยิ่ง บริษัทอ้างว่าเป็นรายเดียวในโลกที่ทำ ความเร็วการอนุมานแบบตอบสนองทันทีเกิน 1,500 โทเค็นต่อวินาที ได้สำเร็จ และเพิ่ม ประสิทธิภาพการทำงาน 10 เท่า เมื่อเทียบกับระบบที่ใช้ GPU
  • ต้นทุนต่อโทเค็นยังต่ำกว่าคู่แข่งถึง 1/10 หรือน้อยกว่า จึงมอบ AI ความเร็วสูงพิเศษในราคาที่สมเหตุสมผล

เกี่ยวกับ Cerebras Systems

  • Cerebras Systems คือทีมผู้เชี่ยวชาญด้าน สถาปัตยกรรมคอมพิวเตอร์ ดีปเลิร์นนิง งานวิจัย และวิศวกรรม ที่มุ่งเน้นการปฏิวัติโครงสร้างพื้นฐานการประมวลผลขนาดใหญ่สำหรับ AI
  • ผลิตภัณฑ์หลัก CS-3 system ติดตั้งโปรเซสเซอร์ AI เชิงพาณิชย์ที่ใหญ่ที่สุดในโลก (Wafer-Scale Engine-3) และสามารถสร้างซูเปอร์คอมพิวเตอร์ AI ขนาดใหญ่ได้ผ่านการคลัสเตอร์ที่ง่ายและรวดเร็ว
  • Cerebras Inference มอบความเร็วในการอนุมานที่ล้ำหน้า และถูกใช้งานในสถาบันวิจัย องค์กร และภาครัฐ สำหรับการพัฒนาโมเดลเฉพาะทางประสิทธิภาพสูงและการเทรนแบบโอเพนซอร์ส
  • ให้บริการโซลูชันทั้งบน Cerebras Cloud และสภาพแวดล้อมแบบ on-premises

1 ความคิดเห็น

 
GN⁺ 2025-07-24
ความคิดเห็นบน Hacker News
  • ข่าวนี้อาจเป็น "ข่าวเก่า" ดูเหมือนว่าจะออกมาตั้งแต่วันที่ 8 กรกฎาคม และน่าจะถูกนำมาแนะนำแบบสับสนกับการเปิดตัว Qwen 3 coder 405B ที่ประกาศเมื่อวานนี้ สเปกของทั้งสองโมเดลไม่เหมือนกัน

    • ตอนแรกผมนึกว่านี่คือ Qwen3-235B-A22B-Instruct-2507 ที่ประกาศเมื่อสองวันก่อน (ลิงก์) โมเดลนั้นเป็นโมเดลที่ไม่มี reasoning แต่ประกาศของ Cerebras พูดถึง reasoning เลยทำให้รู้ว่าข่าวนี้น่าจะหมายถึง Qwen3-235B-A22B ที่ออกมาในเดือนเมษายน ชื่อโมเดลชวนสับสนมาก
  • ถ้านี่เป็นการ quantize แบบ fp16 เต็มรูปแบบจริง การใช้งานด้วยคอนเท็กซ์เต็ม 131k จะต้องใช้หน่วยความจำ 2TB เนื่องจากชิป Cerebras หนึ่งตัวมี SRAM 44GB จึงต้องต่ออนุกรม 45 ตัว และถ้าตัวละ $3M ก็รวมเป็น $135M เทียบกันแล้ว DGX B200 สองเครื่องก็ให้ได้ 2.8TB และใช้เงินเพียง $1M หรือก็คือ $1M เทียบกับ $135M ดังนั้นถ้าไม่ใช่งานมูลค่าสูงที่ต้องการความเร็ว inference ระดับมหาศาลจริง ๆ เช่น hedge fund หรือการเงินตลาดทุน ก็ดูไม่คุ้มเท่าไร ถ้าวันหนึ่งสามารถรันโมเดลระดับ Claude Opus 4 (หรือดีกว่านั้น) ด้วยคอนเท็กซ์หลายสิบล้านโทเค็นที่ 1500 โทเค็นต่อวินาทีได้ในราคาถูกมาก คงนึกภาพไม่ออกเลยว่าจะเกิดอะไรขึ้น ดูเหมือนฮาร์ดแวร์ยังต้องพัฒนาไปอีกหลายเจเนอเรชัน

    • การคำนวณแบบ “SRAM 44GB ต่อชิป Cerebras, ต้องใช้ 45 ตัวต่ออนุกรม, รวม $135M” นั้นผิด 44GB คือ SRAM หรือหน่วยความจำบนชิป ขณะที่พารามิเตอร์โมเดลส่วนใหญ่เก็บไว้ใน HBM ตัวอย่างเช่น GB200 มี SRAM แค่ 126MB เท่านั้น ถ้าคำนวณจำนวนชิปที่ต้องใช้กับโมเดล 2TB โดยดูจากขนาดแคชอย่างเดียว ผลลัพธ์ก็จะเพี้ยนหนักมาก Cerebras สามารถขยาย HBM แยกจากตัวชิปได้ และเชื่อมต่อกับระบบอย่าง MemoryX ได้เกือบถึง 2PB (บทความที่เกี่ยวข้อง) ผมไม่ถึงขั้นเป็นผู้เชี่ยวชาญ แต่จากสถาปัตยกรรมของ Cerebras ข้อจำกัดด้านหน่วยความจำนั้นกว้างกว่ามาก
    • SRAM บนชิปเป็นเพียงหน่วยความจำชั่วคราวสำหรับงานเท่านั้น ไม่จำเป็นต้องเก็บน้ำหนักโมเดลทั้งหมดไว้ Cerebras ใช้วิธี sparse weights โดยสตรีมเฉพาะข้อมูลที่จำเป็นจากหน่วยความจำภายนอกเข้ามา และคอร์ทำงานแบบ trigger-on-transfer
    • มองแค่ว่า “ใช้งานได้/ใช้งานไม่ได้” เป็นมุมมองที่ง่ายเกินไป ในโลกจริงประเด็นสำคัญคือ throughput ที่สามารถแบ่งทั้งระบบให้ผู้ใช้หลายคนพร้อมกันได้ รถกอล์ฟกับรถไฟต่างก็วิ่งจากฝั่งตะวันออกไปฝั่งตะวันตกได้เหมือนกัน แต่ความคุ้มค่าทางเศรษฐศาสตร์ต่างกัน ขนาดขั้นต่ำของการ deploy ก็สำคัญ แต่ถ้าจะขายโทเค็นผ่านคลาวด์ API ขนาดใหญ่ ลูกค้าก็ไม่ได้สนใจเรื่องนั้นมากนัก
    • ไม่จำเป็นต้องรัน inference ด้วย fp16 แบบตายตัว ทุกวันนี้ฟอร์แมตการ quantize สามารถกำหนดความละเอียดต่างกันในแต่ละเลเยอร์ได้ ทำให้โดยเฉลี่ย 6 บิตต่อพารามิเตอร์ก็แทบไม่รู้สึกถึงความต่างเลย ต่อให้บีบหนัก ๆ 8 บิตต่อพารามิเตอร์ก็เพียงพอแล้ว นี่ช่วยประหยัดหน่วยความจำได้มหาศาล
    • ชิปของเราไม่ได้ราคา $3M ต่อชิป ผมไม่รู้ว่าตัวเลขนั้นมาจากไหน แต่มันเป็นข้อมูลที่ผิดทั้งหมด
  • ผมลองตั้งค่า litellm proxy แล้วเชื่อม Aider เข้ากับ Cerebras API ตัวใหม่ที่มี Qwen-235B เพื่อทดสอบ ดูแล้วอาจยังไม่ดีเท่า Claude code แต่เร็วมาก ผมยังลองรัน Aider ด้วย leaked claude code prompt ด้วย แต่ทำงานไม่ได้ตามที่อยากได้ ดูเหมือน Claude code prompt จะถูกปรับมาสำหรับ Claude โดยเฉพาะ ถึงอย่างนั้นก็ยังคุ้มที่จะลอง และรู้สึกว่ามีศักยภาพสูง Aider พ่นข้อความออกมาเร็วมาก ติดตั้งของ เรียกเว็บ แล้วก็จบ แทบจะทันทีเลย ถ้าอยากจำลองสภาพแวดล้อมของผม ใช้การตั้งค่าดังนี้:

    model_list:
     - model_name: qwen3-235b
      litellm_params:
       model: cerebras/qwen-3-235b-a22b
       api_key: os.environ/CEREBRAS_API_KEY
       api_base: https://api.cerebras.ai/v1
    

    วิธีรัน:

    litellm --config config.yaml --port 4000 --debug
    

    แล้วก็

    aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
    

    แพ็กเกจที่ต้องใช้ให้ติดตั้งด้วย pip หรือวิธีอื่นตามสะดวก ส่วน prompt.txt ให้ไปหา leaked claude code prompt แล้วบันทึกไว้เอง

  • ผมรอให้ Qwen 3 coder ได้รับการรองรับบน Cerebras อย่างใจจดใจจ่อ ผมรัน agent loop บ่อยมาก และความเร็วในการรันให้ผลเหมือนการบีบอัดเวลาอย่างมาก ถ้าได้โมเดลระดับ Claude 4 Sonnet ที่วิ่งได้ 1000~1500 โทเค็นต่อวินาที นั่นจะเป็นนวัตกรรมเปลี่ยนเกมจริง ๆ ถ้าอยากสัมผัสความเร็วแบบนี้ ลองใช้หน้า Cerebras Inference หรือ API หรือแม้แต่ "Flash Answers" ของ Mistral / Le Chat (ที่ทำงานบน Cerebras) ได้เลย พอวนลูปรันโค้ดที่ 1000tok/s แล้วมันเหมือนเวทมนตร์

    • นี่แหละ ใช่เลย ด้วยความเร็วระดับนี้ ประสิทธิภาพการทำงานของผมเพิ่มขึ้นมาก ทุกครั้งที่ต้องรอ agent สมาธิและบริบทของงานจะขาดตอน ถ้ารันแบบขนานก็เร็วขึ้นจริง แต่ก็ต้องแลกกับสมาธิ ถ้าได้ลูปการทำงานที่เกือบจะตอบสนองทันทีใน IDE อย่าง Cursor มันจะยิ่งให้ความรู้สึกเหมือนเวทมนตร์กว่าเดิม และเมื่อเร็วถึงระดับนี้ วิธีทำงานเองก็จะเปลี่ยนไป IDE แบบอินเทอร์แอกทีฟอย่าง Cursor จะรู้สึกเป็นธรรมชาติกว่า Claude code ที่อยู่บน command line มาก
    • ผมก็คิดเหมือนกัน แต่ API ของ Cerebras ต้องเข้ากันได้กับ OpenAI มากกว่านี้ ผมลองเอาโมเดลเดิมไปใช้กับ code agent หลายตัว (รวมถึง Cline) แล้วใช้ไม่ได้เลย เจอทั้ง 400 error และปัญหารูปแบบ tool calling น่าผิดหวังมาก
    • เมื่อไม่กี่วันก่อนผมลองตั้ง Kimi K2 บน Groq แล้วตกใจกับความเร็ว ตอนนี้เลยกำลังคิดว่าจะย้ายไปใช้ Qwen 3 กับ Cerebras ดีไหม (นอกเรื่องนิดหนึ่ง แต่ชื่อมันทำให้นึกถึง cerebrate ในลำดับชั้นของ zerg ใน Starcraft เลยชวนให้นึกถึงความทรงจำสมัยเด็ก)
    • ถ้าความเร็วของ LLM agent เพิ่มขึ้นแบบนี้ สุดท้ายอาจเกิดสถานการณ์ที่เวลา compile กลายเป็นคอขวดของกระบวนการพัฒนา และนั่นจะสร้างแรงจูงใจทางเศรษฐกิจให้ปรับปรุงประสิทธิภาพของคอมไพเลอร์
  • ความเร็วนี้น่าประทับใจจริง แต่จากประสบการณ์ของผม การจะได้ rate limit หรือโควตาโทเค็นในระดับพร้อมใช้งานจริงบนโปรดักชันจาก Cerebras นั้นยากมาก เพราะอย่างนี้เราจึงออกแบบระบบบนพวกเขาไม่ได้และต้องไปใช้ผู้ให้บริการรายอื่น ผมคุยกับทีมเซลส์หลายครั้งแล้ว แต่ก็ได้คำตอบว่าไม่ได้

  • มีใครที่ใช้ Claude Code กับ sonnet-4 บ่อย ๆ แล้วเคยเทียบกับ Qwen3-Coder บน Claude Code บ้างไหม ผมสนใจความเร็วที่ Cerebras ให้มาก แต่ถึงจะเร็วแค่ไหน ถ้าคุณภาพโมเดลแย่กว่า ผมก็ยังไม่คิดจะย้าย

    • ผมยังไม่ได้ใช้ Qwen แต่เคยลองบริการ inference แบบ “instant token” และ diffusion model ของ Groq รวมถึงตัวสร้างโค้ดสาย LLaMA แล้วผลยังไม่น่าพอใจนัก ถ้าโมเดลระดับ Gemini 2.5 pro หรือ Sonnet 4 สามารถปล่อยโค้ดยาวหลายหมื่นบรรทัดออกมาจาก Cerebras ภายในไม่กี่วินาทีได้จริง เกมจะเปลี่ยนเลย
  • บอกว่าเป็นคอนเท็กซ์ "Full 131k" แต่จริง ๆ แล้วมันคือ 262144 ซึ่งมากกว่าสองเท่า และถ้าใช้ YaRN แบบ 8x ก็ไปได้ถึง 2 ล้าน ดูเหมือนว่า Cerebras เองก็มีข้อจำกัดเชิงทฤษฎีเรื่องความยาวคอนเท็กซ์อยู่เหมือนกัน ซึ่งเป็นข้อจำกัดของสถาปัตยกรรม Transformer เพราะความต้องการหน่วยความจำโตเกือบเชิงเส้น และความต้องการคำนวณโตแบบกำลังสอง ดังนั้นจึงดูเหมือนว่า Cerebras ก็ยังใช้ความยาวคอนเท็กซ์ได้ไม่เต็ม 100% เพราะข้อจำกัดนี้เหมือนกัน อีกอย่างผมก็สงสัยว่าลูกค้ารู้ได้ไหมว่าใช้วิธี quantize แบบไหนกันแน่

    • ในหน้าโมเดลระบุว่า native คือ 32768 และมีการทดสอบประสิทธิภาพที่ 4x YaRN แล้ว (ลิงก์) ซึ่งก็ดูจะสอดคล้องกับ 131k พอสมควร
  • ความเร็วนี้น่าประทับใจมาก ขอยกอีกประเด็นที่ต่างออกไปเล็กน้อย ผมสงสัยว่าโมเดลอย่าง Qwen หรือ Kimi มีการเซ็นเซอร์หรืออคติจากประเทศต้นทางมากน้อยแค่ไหน

    • มีคนมองว่า Qwen เป็นหนึ่งในโอเพนโมเดลที่คุณภาพสูงมาก โดยเฉพาะในสถาปัตยกรรม MoE แต่ในขณะเดียวกันก็มีการเซ็นเซอร์หนักมาก ถ้าถามตั้งแต่ "เกิดอะไรขึ้นที่ Tiananmen Square" ไปจนถึง "การประท้วงสำคัญ" หรือแม้แต่ "เกี่ยวกับรถถังหรือเปล่า" มันก็จะเลี่ยงตอบด้วยทำนองว่าจัตุรัสนั้นสวยงามและมีประวัติศาสตร์ยาวนาน
  • Cerebras เป็นหนึ่งในความสำเร็จทางเทคนิคที่บ้าคลั่งที่สุด (ในทางที่ดี) จากซิลิคอนวัลเลย์ตลอดสิบปีที่ผ่านมา ตอนผมเจอ Andy เมื่อ 7~8 ปีก่อน เขาพูดถึงชิปขนาดเท่าจานอาหารค่ำกับการหนีบยึดหนัก 6 ตัน ตอนนั้นผมคิดว่าเป็นไปไม่ได้เลย แต่พวกเขาก็ทำได้จริง และตอนนี้พอมองย้อนกลับไป มันเป็นการมองอนาคตได้ไกลมาก

    • แนวคิดมันเท่มาก แต่มีใครใช้ Cerebras แทน Nvidia จริง ๆ บ้างไหม
    • ที่จริงมันออกแบบมาสำหรับ hpc และ FLOPS ดังนั้นสำหรับ llm inference แล้ว memory bandwidth น่าจะสำคัญกว่าในท้ายที่สุด
    • นี่คือการตีความสมัยใหม่ของแนวคิดเก่า ผมเคยเห็นงานวิจัยยุโรปเกี่ยวกับ wafer-scale, analog และ neural network มาก่อน แล้วก็ยังไปเจออีกโปรเจกต์หนึ่งด้วย (บทความ 1, บทความ 2) บทความที่สองตีพิมพ์ตั้งแต่ปี 1989 ดังนั้นสิทธิบัตรต่าง ๆ ก็น่าจะหมดอายุไปหมดแล้ว
    • wafer-scale integration เองก็มีการลองทำมาตั้งแต่หลายสิบปีก่อนแล้ว
  • ผมกำลังหาสภาพแวดล้อมพัฒนา qwen แบบโลคัลบน Macbook อยู่ ลองใช้ localforge + mlx_lm.server แล้ว แม้หน้าเว็บจะบอกว่ามี proof-of-concept ที่สำเร็จ แต่ของจริงกลับเจอข้อผิดพลาด “empty response” ถ้าใครมีประสบการณ์คล้ายกัน รบกวนแนะนำหน่อย

    • อาจเป็นไปได้ว่าผมเข้าใจคำถามคุณผิด แต่ผมใช้ ollama รัน local inference ของ qwen บน Macbook Pro (32GB) ได้ดีมาก