Lemonade by AMD: เซิร์ฟเวอร์ LLM แบบโลคัลโอเพนซอร์สที่รวดเร็วด้วย GPU และ NPU
(lemonade-server.ai)- เป็น แพลตฟอร์มโอเพนซอร์ส สำหรับ เซิร์ฟเวอร์ AI แบบโลคัลที่รองรับ AMD โดยใช้ GPU และ NPU เพื่อประมวลผล ข้อความ·ภาพ·เสียง ได้อย่างรวดเร็ว
- ให้ความสำคัญกับ การรันบนเครื่องโลคัลและความเป็นส่วนตัว และเข้ากันได้กับ มาตรฐาน OpenAI API จึงเชื่อมต่อกับแอปต่าง ๆ ได้ทันที
- มอบสภาพแวดล้อม AI แบบโลคัลที่ใช้งานได้จริงด้วย แบ็กเอนด์น้ำหนักเบาที่พัฒนาด้วย C++, การตั้งค่าฮาร์ดแวร์อัตโนมัติ และ การรันหลายโมเดลพร้อมกัน
- รองรับ Chat, Vision, Image Generation, Transcription, Speech Generation ผ่าน API แบบรวมศูนย์ เพียงชุดเดียว
- มอบสภาพแวดล้อมเดียวกันบน Windows, Linux, macOS(beta) และมี GUI ในตัวที่ช่วยให้ดาวน์โหลดและสลับโมเดลได้สะดวก
คุณสมบัติหลัก
-
การออกแบบแบบโอเพนซอร์สและเน้นโลคัล
- พัฒนาบนแนวคิดที่ว่า Local AI ควรเป็นอิสระ เปิดกว้าง รวดเร็ว และเป็นส่วนตัว
- สร้างขึ้นโดยมี ชุมชน Local AI เป็นแรงขับเคลื่อนหลัก และสามารถรันได้บนพีซีทุกเครื่อง
- ให้ความสำคัญกับ การคุ้มครองความเป็นส่วนตัว และ สภาพแวดล้อมการทำงานที่เป็นอิสระ
-
ติดตั้งรวดเร็วและโครงสร้างน้ำหนักเบา
- มี One Minute Install สำหรับตั้งค่าทั้งสแตกโดยอัตโนมัติ
- แบ็กเอนด์เนทีฟ C++ เป็นบริการขนาดเล็กเพียงประมาณ 2MB
- ฟังก์ชัน ตั้งค่าฮาร์ดแวร์อัตโนมัติ จะจัดสภาพแวดล้อม GPU และ NPU ให้อัตโนมัติ
-
ความเข้ากันได้อย่างกว้างขวาง
- ด้วย ความเข้ากันได้กับ OpenAI API จึงเชื่อมต่อกับแอปได้หลายร้อยตัวในทันที
- รองรับเอนจินอนุมานหลายแบบ เช่น llama.cpp, Ryzen AI SW, FastFlowLM
- สามารถ รันหลายโมเดลพร้อมกัน เพื่อขับเคลื่อนหลายโมเดลแบบขนานได้
-
มี API แบบรวมศูนย์
- บริการโลคัลเพียงตัวเดียวรองรับทั้ง Chat, Vision, Image Generation, Transcription, Speech Generation
- ให้บริการในรูปแบบ REST API มาตรฐาน โดยสามารถเรียกโมเดลสนทนาได้ผ่านเอนด์พอยต์ตัวอย่าง
POST /api/v1/chat/completions - ในตัวอย่างคำขอ ใช้
"model": "Qwen3-0.6B-GGUF"เพื่อถามจำนวนประชากรของปารีส
-
อินเทอร์เฟซผู้ใช้และระบบนิเวศ
- มี แอป GUI ในตัวสำหรับดาวน์โหลด ทดสอบ และสลับโมเดลได้อย่างรวดเร็ว
- ใช้มาตรฐาน OpenAI API จึงเข้ากันได้กับแอปหลากหลายประเภทได้ทันที
- มีการปรับปรุงต่อเนื่องและขยายความสามารถผ่าน การมีส่วนร่วมของชุมชน
สเปกทางเทคนิคและตัวอย่างการใช้งาน
-
ฮาร์ดแวร์และประสิทธิภาพ
- ในสภาพแวดล้อมที่มี RAM แบบรวม 128GB สามารถรันโมเดลขนาดใหญ่ เช่น gpt-oss-120b, Qwen-Coder-Next ได้
- ตัวเลือก
--no-mmapช่วย ลดเวลาโหลด และ ขยายขนาดคอนเท็กซ์ (มากกว่า 64) ได้
-
ความสามารถด้านภาพและเสียง
- ตัวอย่างการสร้างภาพ: “ฟีเจอร์ Lemonade ในสไตล์ภาพวาดเรอเนซองส์”
- ตัวอย่างเสียง: “Hello, I am your AI assistant. What can I do for you today?”
รุ่นล่าสุด
- Lemonade ยังคงได้รับการปรับปรุงอย่างต่อเนื่อง และมีการส่งมอบฟีเจอร์ใหม่รวมถึงการเพิ่มประสิทธิภาพผ่านสายการออกรีลีส
- สามารถดูฟีเจอร์ใหม่และไฮไลต์ล่าสุดได้บนเว็บไซต์ทางการ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ใช้ Lemonade มาเกือบ 1 ปีแล้ว บน Strix Halo ใช้แค่นี้ตัวเดียวโดยไม่ต้องพึ่งเครื่องมืออื่น AMD Strix Halo Toolboxes ของ kyuz0 ก็ใช้ได้เหมือนกัน แต่ Lemonade ทำได้ทั้ง TTS, STT, สร้างข้อความ·รูปภาพ และแก้ไขรูปภาพ รองรับแบ็กเอนด์หลากหลายทั้ง ROCm, Vulkan, CPU, GPU, NPU ฯลฯ และความเร็วในการพัฒนาก็ ใช้งานได้จริงและรวดเร็ว ถ้าใช้ฮาร์ดแวร์ AMD ขอแนะนำอย่างมาก
ด้วย endpoint ที่เข้ากันได้กับ OpenAI และ Ollama จึงใช้กับ VSCode Copilot หรือ Open Web UI ได้ทันที
ผมรัน local LLM บน 7900 XTX มาหลายเดือนแล้ว และ ประสบการณ์กับ ROCm ค่อนข้างหนักหน่วง การที่ AMD ออก inference server อย่างเป็นทางการมาแก้ปัญหาไดรเวอร์·dependencies ถือเป็นความก้าวหน้าครั้งใหญ่ แต่ก็ยังสงสัยว่าในทางปฏิบัติ NPU จะให้ throughput ที่มีความหมายจริงไหม ในการทดสอบของผม นอกจากโมเดลเล็ก ๆ แล้วมันกลายเป็นคอขวด
สงสัยว่าชื่อ ‘Lemonade’ หมายถึง การใช้มะนาวให้คุ้มที่สุด หรือเปล่า
Lemonade ให้ความรู้สึกเหมือนอยู่กึ่งกลางระหว่าง Ollama กับ LM Studio จุดที่น่าสนใจคือมันไม่ได้โฟกัสแค่การเสิร์ฟโมเดลแบบง่าย ๆ แต่เน้นไปที่ runtime แบบรวมศูนย์ หัวใจคือการทำ orchestration หลายโมดาลิตีพร้อมกัน ทั้งข้อความ รูปภาพ เสียง ฯลฯ สงสัยว่าในทางปฏิบัติมันเป็น abstraction จริง ๆ หรือแค่เอาเครื่องมือหลายตัวมามัดรวมกัน และก็ยังสงสัยว่าการปรับแต่งเพื่อ AMD/NPU อาจทำให้ ความสามารถในการพกพา แย่ลงหรือไม่
ผมรันมันบน NAS ร่วมกับ home assistant และนอกจาก Strix Halo แล้วก็ยังดูแลเซิร์ฟเวอร์ที่ใช้การ์ด CUDA แยกอีกเครื่อง
น่าเสียดายที่โมเดล·เคอร์เนล NPU ที่ Lemonade ใช้เป็น แบบปิด อยากให้มีการรองรับแบบเปิดมากกว่านี้
จุดแข็งที่แท้จริงของ Lemonade คือ การรวมมัลติโมดัล ไว้ด้วยกัน มันสามารถจัดการทั้งการสร้างข้อความ การสร้างภาพ และการรู้จำเสียง ซึ่งปกติต้องใช้ 3 บริการที่มี API และการจัดการโมเดลแยกกัน ให้กลายเป็นเซิร์ฟเวอร์เดียวผ่าน endpoint ที่เข้ากันได้กับ OpenAI ส่งผลต่อ คุณภาพในการทำต้นแบบ อย่างมาก
NPU มีประโยชน์กับโมเดลเล็กที่ต้องเปิดค้างตลอดเวลาหรือการ offload งาน prefill แต่สำหรับแชตบอตทั่วไปก็มีส่วนที่ถูกพูดเกินจริงอยู่
ถ้า AMD ทำให้การจัดตาราง GPU+NPU โปร่งใสจนฝั่งนักพัฒนาไม่ต้องสนใจฮาร์ดแวร์ได้ มันก็มีโอกาสสูงที่จะกลายเป็น ตัวเลือกตั้งต้น
ผมรัน Lemonade อยู่บน Strix Halo มันรวมหลายแบ็กเอนด์อย่าง diffusion, llama ฯลฯ แต่ผมใช้แค่ llama.cpp ROCm build (ลิงก์) เท่านั้น ไม่ได้แตะงานภาพหรือเสียง สำหรับ GPT OSS 120B ได้ความเร็วราว 50 โทเค็นต่อวินาที NPU มีไว้สำหรับโมเดลพลังงานต่ำที่เปิดค้างไว้ตลอด จึงไม่ได้มีข้อดีมากนักสำหรับแชตบอตทั่วไป
อ่านทั้งเว็บไซต์และประกาศข่าวแล้ว แต่ก็ยังสับสนว่า Lemonade คืออะไรกันแน่ เป็นตัวแทน LM Studio หรือไม่ และรองรับ MLX หรือ Metal บน Mac ไหม ถ้าโฟกัสที่การปรับแต่งสำหรับ AMD เป็นหลัก ก็อยากรู้ว่าบน GPU อื่น ๆ จะ เสียเปรียบหรือไม่
แปลกใจที่คู่มือติดตั้งเซิร์ฟเวอร์บน Linux ไม่มีตัวเลือก Docker/Podman มีแค่ Snap/PPA กับ RPM อาจหมายความว่าคนใช้คอนเทนเนอร์ต้องไป build เอง
มีใครเทียบกับ Ollama บ้างไหม ผมใช้ Ollama กับ 9070 XT บน ROCm 7.4 ได้ดีอยู่