- เฟรมเวิร์กข้ามแพลตฟอร์ม ที่ทำให้สามารถรัน โมเดล GGUF ได้โดยตรงบนอุปกรณ์หลากหลายประเภท (สมาร์ตโฟน, โน้ตบุ๊ก, ทีวี, กล้อง ฯลฯ)
- ใช้ได้กับโมเดล GGUF ใดก็ได้ที่มีให้บน Huggingface; Qwen, Gemma, Llama, DeepSeek เป็นต้น
- ดีพลอยและรันโมเดล LLM/VLM/TTS ได้โดยตรงภายในแอป
- รองรับ Flutter, React-Native, Kotlin Multiplatform และสามารถรันโมเดลได้หลายประเภทแบบออนดีไวซ์ เช่น ข้อความ, วิชัน, เอ็มเบดดิง, โมเดล TTS
- รองรับตั้งแต่ FP32 ไปจนถึงโมเดลแบบ quantization 2 บิต ทำให้ ทำงานได้อย่างมีประสิทธิภาพสูงและใช้พลังงานต่ำในสภาพแวดล้อมมือถือ
- รองรับ chat template (Jinja2), token streaming, การ fallback อัตโนมัติระหว่างคลาวด์-โลคัล, Speech-To-Text เป็นต้น
- แบ็กเอนด์ของ Cactus เขียนด้วย C/C++ จึง ทำงานได้โดยตรงในแทบทุกสภาพแวดล้อม เช่น มือถือ, พีซี, ระบบฝังตัว, IoT
- บนสมาร์ตโฟนรุ่นใหม่ Gemma3 1B Q4 ทำงานที่ความเร็ว 20~50 โทเคน/วินาที และ Qwen3 4B Q4 ที่ 7~18 โทเคน/วินาที
- ดาวน์โหลดโมเดลแนะนำได้ที่ HuggingFace Cactus-Compute
จุดเด่นและข้อได้เปรียบในการใช้งาน
- ต่างจากเฟรมเวิร์ก LLM แบบออนดีไวซ์เดิม ๆ ตรงที่ รองรับหลายแพลตฟอร์มแบบรวมศูนย์ ทำให้สร้างสถาปัตยกรรมไฮบริดโลคัล-คลาวด์ได้ง่าย
- สามารถ ใช้งาน LLM/VLM/TTS รุ่นใหม่บนอุปกรณ์มือถือได้ด้วยประสิทธิภาพสูงและใช้พลังงานต่ำ
- เหมาะกับทั้ง B2C/B2B หลากหลายสถานการณ์ เช่น การประมวลผลข้อมูลส่วนตัวภายในแอป/บริการ, การใช้ AI แบบออฟไลน์, และการลดต้นทุน
ยังไม่มีความคิดเห็น