Cactus - Ollama สำหรับสมาร์ตโฟน

(github.com/cactus-compute)

22 คะแนน โดย xguru 2025-08-05 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เฟรมเวิร์กข้ามแพลตฟอร์ม ที่ทำให้สามารถรัน โมเดล GGUF ได้โดยตรงบนอุปกรณ์หลากหลายประเภท (สมาร์ตโฟน, โน้ตบุ๊ก, ทีวี, กล้อง ฯลฯ)
- ใช้ได้กับโมเดล GGUF ใดก็ได้ที่มีให้บน Huggingface; Qwen, Gemma, Llama, DeepSeek เป็นต้น
- ดีพลอยและรันโมเดล LLM/VLM/TTS ได้โดยตรงภายในแอป
รองรับ Flutter, React-Native, Kotlin Multiplatform และสามารถรันโมเดลได้หลายประเภทแบบออนดีไวซ์ เช่น ข้อความ, วิชัน, เอ็มเบดดิง, โมเดล TTS
รองรับตั้งแต่ FP32 ไปจนถึงโมเดลแบบ quantization 2 บิต ทำให้ ทำงานได้อย่างมีประสิทธิภาพสูงและใช้พลังงานต่ำในสภาพแวดล้อมมือถือ
รองรับ chat template (Jinja2), token streaming, การ fallback อัตโนมัติระหว่างคลาวด์-โลคัล, Speech-To-Text เป็นต้น
แบ็กเอนด์ของ Cactus เขียนด้วย C/C++ จึง ทำงานได้โดยตรงในแทบทุกสภาพแวดล้อม เช่น มือถือ, พีซี, ระบบฝังตัว, IoT
บนสมาร์ตโฟนรุ่นใหม่ Gemma3 1B Q4 ทำงานที่ความเร็ว 20~50 โทเคน/วินาที และ Qwen3 4B Q4 ที่ 7~18 โทเคน/วินาที
ดาวน์โหลดโมเดลแนะนำได้ที่ HuggingFace Cactus-Compute

จุดเด่นและข้อได้เปรียบในการใช้งาน

ต่างจากเฟรมเวิร์ก LLM แบบออนดีไวซ์เดิม ๆ ตรงที่ รองรับหลายแพลตฟอร์มแบบรวมศูนย์ ทำให้สร้างสถาปัตยกรรมไฮบริดโลคัล-คลาวด์ได้ง่าย
สามารถ ใช้งาน LLM/VLM/TTS รุ่นใหม่บนอุปกรณ์มือถือได้ด้วยประสิทธิภาพสูงและใช้พลังงานต่ำ
เหมาะกับทั้ง B2C/B2B หลากหลายสถานการณ์ เช่น การประมวลผลข้อมูลส่วนตัวภายในแอป/บริการ, การใช้ AI แบบออฟไลน์, และการลดต้นทุน

Cactus - Ollama สำหรับสมาร์ตโฟน

จุดเด่นและข้อได้เปรียบในการใช้งาน

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น