คู่มือ Llama.cpp – วิธีรัน LLMs แบบโลคัลตั้งแต่เริ่มต้นบนฮาร์ดแวร์ทุกประเภท

(steelph0enix.github.io)

2 คะแนน โดย GN⁺ 2024-11-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

1 ความคิดเห็น

GN⁺ 2024-11-30

ความคิดเห็นจาก Hacker News

เป็นเรื่องดีที่มีการเขียนบล็อกเพิ่มขึ้น แต่รู้สึกว่าวิธี build llama.cpp ค่อนข้างซับซ้อน
- สามารถใช้คำสั่ง ccmake . เพื่อตั้งค่าพารามิเตอร์ให้เหมาะกับฮาร์ดแวร์แล้วจึง build ได้
แชร์ประสบการณ์ว่ารัน Llama.cpp สำเร็จบนโน้ตบุ๊ก Dell รุ่นเก่า
- ใช้งานได้แม้สเปกขั้นต่ำ แม้จะช้าแต่ให้คำตอบที่แม่นยำ
- อยากลองรันโมเดลที่ใหญ่กว่านี้บนฮาร์ดแวร์ที่ดีกว่า
อยากติดตั้ง Llama.cpp แต่สุดท้ายไปติดตั้ง kobold.cpp เพราะ UX ดีกว่า
แชร์ประสบการณ์การพยายาม build บน Windows และ AMD
- ใช้ Vulkan กับ MSYS2 แล้วรันได้ง่ายที่สุด
ถามถึงข้อจำกัดของ LLM ที่ Llama.cpp รองรับ
- สงสัยว่ารองรับเฉพาะโมเดล transformer บางประเภทหรือไม่
แชร์ประสบการณ์ว่าย้ายไปใช้ Ollama แล้ว
- การตั้งค่าเซิร์ฟเวอร์และไคลเอนต์ของ Ollama ใช้งานได้อย่างง่ายดาย
ย้ำว่า Ollama ไม่ได้เป็นแค่ wrapper ธรรมดาของ llama.cpp
- Ollama มีฟีเจอร์หลากหลายสำหรับอินเทอร์เฟซโมเดลและการแพ็กเกจ
ถามว่าทำไมถึงใช้ Llama.cpp แทนเว็บอินเทอร์เฟซของ ChatGPT
- สงสัยว่าเหตุผลหลักคือเรื่องความเป็นส่วนตัวหรือไม่
ใช้ ChatGPT และ Claude ทุกวัน แต่ยังหาสาเหตุไม่เจอว่าจะใช้ LLM นอกเหนือจากบริการอื่น ๆ ไปทำไม
มีการพูดคุยเรื่อง Ollama กับการรัน llama.cpp โดยตรง
- การตั้งค่า CUDA ไม่ได้ง่ายเสมอไป และการทำ local inference อาจเร็วกว่า
- การรันด้วย PyTorch ทำได้ง่ายกว่า และโมเดล AWQ ก็ติดตั้งได้ไม่ยาก

คู่มือ Llama.cpp – วิธีรัน LLMs แบบโลคัลตั้งแต่เริ่มต้นบนฮาร์ดแวร์ทุกประเภท

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News