Lemonade by AMD: เซิร์ฟเวอร์ LLM แบบโลคัลโอเพนซอร์สที่รวดเร็วด้วย GPU และ NPU

(lemonade-server.ai)

11 คะแนน โดย GN⁺ 27 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็น แพลตฟอร์มโอเพนซอร์ส สำหรับ เซิร์ฟเวอร์ AI แบบโลคัลที่รองรับ AMD โดยใช้ GPU และ NPU เพื่อประมวลผล ข้อความ·ภาพ·เสียง ได้อย่างรวดเร็ว
ให้ความสำคัญกับ การรันบนเครื่องโลคัลและความเป็นส่วนตัว และเข้ากันได้กับ มาตรฐาน OpenAI API จึงเชื่อมต่อกับแอปต่าง ๆ ได้ทันที
มอบสภาพแวดล้อม AI แบบโลคัลที่ใช้งานได้จริงด้วย แบ็กเอนด์น้ำหนักเบาที่พัฒนาด้วย C++, การตั้งค่าฮาร์ดแวร์อัตโนมัติ และ การรันหลายโมเดลพร้อมกัน
รองรับ Chat, Vision, Image Generation, Transcription, Speech Generation ผ่าน API แบบรวมศูนย์ เพียงชุดเดียว
มอบสภาพแวดล้อมเดียวกันบน Windows, Linux, macOS(beta) และมี GUI ในตัวที่ช่วยให้ดาวน์โหลดและสลับโมเดลได้สะดวก

คุณสมบัติหลัก

การออกแบบแบบโอเพนซอร์สและเน้นโลคัล
- พัฒนาบนแนวคิดที่ว่า Local AI ควรเป็นอิสระ เปิดกว้าง รวดเร็ว และเป็นส่วนตัว
- สร้างขึ้นโดยมี ชุมชน Local AI เป็นแรงขับเคลื่อนหลัก และสามารถรันได้บนพีซีทุกเครื่อง
- ให้ความสำคัญกับ การคุ้มครองความเป็นส่วนตัว และ สภาพแวดล้อมการทำงานที่เป็นอิสระ
ติดตั้งรวดเร็วและโครงสร้างน้ำหนักเบา
- มี One Minute Install สำหรับตั้งค่าทั้งสแตกโดยอัตโนมัติ
- แบ็กเอนด์เนทีฟ C++ เป็นบริการขนาดเล็กเพียงประมาณ 2MB
- ฟังก์ชัน ตั้งค่าฮาร์ดแวร์อัตโนมัติ จะจัดสภาพแวดล้อม GPU และ NPU ให้อัตโนมัติ
ความเข้ากันได้อย่างกว้างขวาง
- ด้วย ความเข้ากันได้กับ OpenAI API จึงเชื่อมต่อกับแอปได้หลายร้อยตัวในทันที
- รองรับเอนจินอนุมานหลายแบบ เช่น llama.cpp, Ryzen AI SW, FastFlowLM
- สามารถ รันหลายโมเดลพร้อมกัน เพื่อขับเคลื่อนหลายโมเดลแบบขนานได้
มี API แบบรวมศูนย์
- บริการโลคัลเพียงตัวเดียวรองรับทั้ง Chat, Vision, Image Generation, Transcription, Speech Generation
- ให้บริการในรูปแบบ REST API มาตรฐาน โดยสามารถเรียกโมเดลสนทนาได้ผ่านเอนด์พอยต์ตัวอย่าง POST /api/v1/chat/completions
- ในตัวอย่างคำขอ ใช้ "model": "Qwen3-0.6B-GGUF" เพื่อถามจำนวนประชากรของปารีส
อินเทอร์เฟซผู้ใช้และระบบนิเวศ
- มี แอป GUI ในตัวสำหรับดาวน์โหลด ทดสอบ และสลับโมเดลได้อย่างรวดเร็ว
- ใช้มาตรฐาน OpenAI API จึงเข้ากันได้กับแอปหลากหลายประเภทได้ทันที
- มีการปรับปรุงต่อเนื่องและขยายความสามารถผ่าน การมีส่วนร่วมของชุมชน

สเปกทางเทคนิคและตัวอย่างการใช้งาน

ฮาร์ดแวร์และประสิทธิภาพ
- ในสภาพแวดล้อมที่มี RAM แบบรวม 128GB สามารถรันโมเดลขนาดใหญ่ เช่น gpt-oss-120b, Qwen-Coder-Next ได้
- ตัวเลือก --no-mmap ช่วย ลดเวลาโหลด และ ขยายขนาดคอนเท็กซ์ (มากกว่า 64) ได้
ความสามารถด้านภาพและเสียง
- ตัวอย่างการสร้างภาพ: “ฟีเจอร์ Lemonade ในสไตล์ภาพวาดเรอเนซองส์”
- ตัวอย่างเสียง: “Hello, I am your AI assistant. What can I do for you today?”

รุ่นล่าสุด

Lemonade ยังคงได้รับการปรับปรุงอย่างต่อเนื่อง และมีการส่งมอบฟีเจอร์ใหม่รวมถึงการเพิ่มประสิทธิภาพผ่านสายการออกรีลีส
สามารถดูฟีเจอร์ใหม่และไฮไลต์ล่าสุดได้บนเว็บไซต์ทางการ

1 ความคิดเห็น

GN⁺ 27 일 전

ความคิดเห็นจาก Hacker News

ใช้ Lemonade มาเกือบ 1 ปีแล้ว บน Strix Halo ใช้แค่นี้ตัวเดียวโดยไม่ต้องพึ่งเครื่องมืออื่น AMD Strix Halo Toolboxes ของ kyuz0 ก็ใช้ได้เหมือนกัน แต่ Lemonade ทำได้ทั้ง TTS, STT, สร้างข้อความ·รูปภาพ และแก้ไขรูปภาพ รองรับแบ็กเอนด์หลากหลายทั้ง ROCm, Vulkan, CPU, GPU, NPU ฯลฯ และความเร็วในการพัฒนาก็ ใช้งานได้จริงและรวดเร็ว ถ้าใช้ฮาร์ดแวร์ AMD ขอแนะนำอย่างมาก
ด้วย endpoint ที่เข้ากันได้กับ OpenAI และ Ollama จึงใช้กับ VSCode Copilot หรือ Open Web UI ได้ทันที
- สงสัยว่าถ้ารันโมเดล Qwen3.5-122B บน Strix Halo ด้วย Lemonade จะ เร็วขึ้น เท่าไรเมื่อเทียบกับ llama.cpp ที่ใช้ Vulkan
- อยากรู้ว่ามีใครเคยใช้ร่วมกับ agents หรือ Claw บ้างไหม และรันโมเดลอะไรกัน
ผมรัน local LLM บน 7900 XTX มาหลายเดือนแล้ว และ ประสบการณ์กับ ROCm ค่อนข้างหนักหน่วง การที่ AMD ออก inference server อย่างเป็นทางการมาแก้ปัญหาไดรเวอร์·dependencies ถือเป็นความก้าวหน้าครั้งใหญ่ แต่ก็ยังสงสัยว่าในทางปฏิบัติ NPU จะให้ throughput ที่มีความหมายจริงไหม ในการทดสอบของผม นอกจากโมเดลเล็ก ๆ แล้วมันกลายเป็นคอขวด
- อยากรู้ว่าอะไรทำให้ลำบากขนาดนั้น ผมรันโมเดลโลคัลด้วย Ollama บน RX 7900 XTX และแทบไม่มีปัญหาเรื่อง ROCm เลย น่าเสียดายแค่ติดที่ VRAM 24GB กำลังคิดอยู่ว่าจะเปลี่ยนไป Radeon Pro เพื่อได้ VRAM มากขึ้นดีไหม
- บนเคอร์เนล 7.0.0 ประสิทธิภาพ Vulkan ดีกว่า ROCm มาก, เร็วขึ้นประมาณ 20%+
- NPU มีไว้เพื่อ ประสิทธิภาพพลังงาน ตอนใช้แบตเตอรี่ ไม่ได้มาแทน GPU
สงสัยว่าชื่อ ‘Lemonade’ หมายถึง การใช้มะนาวให้คุ้มที่สุด หรือเปล่า
- การออกเสียง “L-L-M” คล้ายกับ “lemon” เลยดูเหมือนเป็นมุกคำว่า LLM-aid → lemonade
- ถ้าชีวิตยังคงโยนมะนาวมาให้ ก็สู้ทำ มะนาวระเบิด ไปเลยดีกว่า
- ผมใช้ ฮาร์ดแวร์ AMD เท่านั้น สำหรับงาน local inference ในมุมผู้บริโภค ผมคิดว่ามันดีกว่า Nvidia ทั้งเรื่องไดรเวอร์แบบเปิด ประสิทธิภาพพลังงาน และราคา
- เขาว่าชื่อ ‘Lemonsqueeze’ ถูกตัดทิ้งเพราะดูรุนแรงเกินไป
Lemonade ให้ความรู้สึกเหมือนอยู่กึ่งกลางระหว่าง Ollama กับ LM Studio จุดที่น่าสนใจคือมันไม่ได้โฟกัสแค่การเสิร์ฟโมเดลแบบง่าย ๆ แต่เน้นไปที่ runtime แบบรวมศูนย์ หัวใจคือการทำ orchestration หลายโมดาลิตีพร้อมกัน ทั้งข้อความ รูปภาพ เสียง ฯลฯ สงสัยว่าในทางปฏิบัติมันเป็น abstraction จริง ๆ หรือแค่เอาเครื่องมือหลายตัวมามัดรวมกัน และก็ยังสงสัยว่าการปรับแต่งเพื่อ AMD/NPU อาจทำให้ ความสามารถในการพกพา แย่ลงหรือไม่
- มัน bundle การเลือกเครื่องมือและโมเดลหลายตัว รวมถึงความสามารถด้านการจัดการ ติดตั้งแบบ CPU หรือ Vulkan backend ได้ แต่โดยพื้นฐานรองรับแค่ ROCm build และ AMD NPU ถ้าจะรันด้วย CUDA ต้อง override เวอร์ชันของ llama.cpp เอง ทำให้ดูแลจัดการยุ่งยาก ถ้าต้องการรันโมเดลโลคัลบนเครื่อง AMD แบบง่าย ๆ นี่น่าจะง่ายที่สุด
  ผมรันมันบน NAS ร่วมกับ home assistant และนอกจาก Strix Halo แล้วก็ยังดูแลเซิร์ฟเวอร์ที่ใช้การ์ด CUDA แยกอีกเครื่อง
น่าเสียดายที่โมเดล·เคอร์เนล NPU ที่ Lemonade ใช้เป็น แบบปิด อยากให้มีการรองรับแบบเปิดมากกว่านี้
- ในเอกสารระบุว่า “สามารถลงทะเบียนโมเดล Hugging Face กับ Lemonade Server ได้”
- ผมซื้ออุปกรณ์โดยรู้อยู่แล้วว่าอาจใช้ NPU ไม่ได้ แต่พอได้ยินข่าวแบบนี้ก็ยัง หงุดหงิด อยู่ดี
จุดแข็งที่แท้จริงของ Lemonade คือ การรวมมัลติโมดัล ไว้ด้วยกัน มันสามารถจัดการทั้งการสร้างข้อความ การสร้างภาพ และการรู้จำเสียง ซึ่งปกติต้องใช้ 3 บริการที่มี API และการจัดการโมเดลแยกกัน ให้กลายเป็นเซิร์ฟเวอร์เดียวผ่าน endpoint ที่เข้ากันได้กับ OpenAI ส่งผลต่อ คุณภาพในการทำต้นแบบ อย่างมาก
NPU มีประโยชน์กับโมเดลเล็กที่ต้องเปิดค้างตลอดเวลาหรือการ offload งาน prefill แต่สำหรับแชตบอตทั่วไปก็มีส่วนที่ถูกพูดเกินจริงอยู่
ถ้า AMD ทำให้การจัดตาราง GPU+NPU โปร่งใสจนฝั่งนักพัฒนาไม่ต้องสนใจฮาร์ดแวร์ได้ มันก็มีโอกาสสูงที่จะกลายเป็น ตัวเลือกตั้งต้น
ผมรัน Lemonade อยู่บน Strix Halo มันรวมหลายแบ็กเอนด์อย่าง diffusion, llama ฯลฯ แต่ผมใช้แค่ llama.cpp ROCm build (ลิงก์) เท่านั้น ไม่ได้แตะงานภาพหรือเสียง สำหรับ GPT OSS 120B ได้ความเร็วราว 50 โทเค็นต่อวินาที NPU มีไว้สำหรับโมเดลพลังงานต่ำที่เปิดค้างไว้ตลอด จึงไม่ได้มีข้อดีมากนักสำหรับแชตบอตทั่วไป
- แม้จะเป็น NPU ขนาดเล็กก็ยังสามารถ offload การคำนวณ prefill บางส่วนได้ แต่ใน ขั้นตอน decoding จะขึ้นอยู่กับแบนด์วิดท์หน่วยความจำและการรองรับการคำนวณภายใน เช่น Apple Neural Engine รองรับแค่ INT8/FP16 จึงไม่ได้ช่วยมากนัก
อ่านทั้งเว็บไซต์และประกาศข่าวแล้ว แต่ก็ยังสับสนว่า Lemonade คืออะไรกันแน่ เป็นตัวแทน LM Studio หรือไม่ และรองรับ MLX หรือ Metal บน Mac ไหม ถ้าโฟกัสที่การปรับแต่งสำหรับ AMD เป็นหลัก ก็อยากรู้ว่าบน GPU อื่น ๆ จะ เสียเปรียบหรือไม่
- ตาม roadmap บน GitHub macOS beta เสร็จแล้ว และกำลังพัฒนา MLX support อยู่
- มันเป็น โซลูชันแบบครบจบในที่เดียว สำหรับติดตั้งและดูแล local AI stack ได้ง่าย มีทั้ง STT, TTS, การสร้างภาพ, LLM endpoint ในครั้งเดียว และมี WebUI ของตัวเองด้วย รองรับ endpoint ที่เข้ากันได้กับ OpenAI, Ollama, Anthropic ด้วย
- มันทำ abstraction หลาย runtime แบบ LM Studio แต่ใช้ FastFlowML runtime ของ AMD เพื่อใช้งาน NPU ของ Ryzen AI CPU บน Linux ได้
- LM Studio มอบหมายการรัน LLM จริงให้ซอฟต์แวร์อื่น และถ้าซอฟต์แวร์นั้นไม่รองรับ NPU ประสิทธิภาพก็จะตก ดูเหมือนว่า Lemonade จะทำหน้าที่เป็น แบ็กเอนด์ ประเภทนั้น
แปลกใจที่คู่มือติดตั้งเซิร์ฟเวอร์บน Linux ไม่มีตัวเลือก Docker/Podman มีแค่ Snap/PPA กับ RPM อาจหมายความว่าคนใช้คอนเทนเนอร์ต้องไป build เอง
- จริง ๆ มี ตัวเลือกติดตั้ง Docker อยู่ ถ้ามีเพิ่มไว้ในหน้า release ก็น่าจะดี
มีใครเทียบกับ Ollama บ้างไหม ผมใช้ Ollama กับ 9070 XT บน ROCm 7.4 ได้ดีอยู่
- Lemonade รองรับหลาย API และมี build เฉพาะสำหรับ AMD GPU·NPU AMD เป็นผู้ดูแลเอง ภายในทั้งคู่ใช้ llama.cpp เหมือนกัน แต่ Lemonade มี build ที่ปรับแต่งตาม GPU แต่ละตัว
- ตอนทดสอบบน MacBook M1 Max (RAM 64GB) ด้วยโมเดล qwen3.59b, Ollama ใช้เวลา 1 นาที 44 วินาที ส่วน Lemonade ใช้เวลา 1 นาที 14 วินาที Lemonade เร็วกว่า
- ผมเองก็อยากรู้เหมือนกันว่าเทียบกับ vLLM แล้วเป็นอย่างไร
- ตอนนี้ผมใช้ Ollama อยู่ แต่ก็สงสัยเรื่อง ความต่างด้านประสิทธิภาพ กับ Lemonade
- อยากรู้เหมือนกันว่ามันดีกว่า Vulkan ไหม

Lemonade by AMD: เซิร์ฟเวอร์ LLM แบบโลคัลโอเพนซอร์สที่รวดเร็วด้วย GPU และ NPU

คุณสมบัติหลัก

การออกแบบแบบโอเพนซอร์สและเน้นโลคัล

ติดตั้งรวดเร็วและโครงสร้างน้ำหนักเบา

ความเข้ากันได้อย่างกว้างขวาง

มี API แบบรวมศูนย์

อินเทอร์เฟซผู้ใช้และระบบนิเวศ

สเปกทางเทคนิคและตัวอย่างการใช้งาน

ฮาร์ดแวร์และประสิทธิภาพ

ความสามารถด้านภาพและเสียง

รุ่นล่าสุด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News