• เฟรมเวิร์กข้ามแพลตฟอร์ม ที่ทำให้สามารถรัน โมเดล GGUF ได้โดยตรงบนอุปกรณ์หลากหลายประเภท (สมาร์ตโฟน, โน้ตบุ๊ก, ทีวี, กล้อง ฯลฯ)
    • ใช้ได้กับโมเดล GGUF ใดก็ได้ที่มีให้บน Huggingface; Qwen, Gemma, Llama, DeepSeek เป็นต้น
    • ดีพลอยและรันโมเดล LLM/VLM/TTS ได้โดยตรงภายในแอป
  • รองรับ Flutter, React-Native, Kotlin Multiplatform และสามารถรันโมเดลได้หลายประเภทแบบออนดีไวซ์ เช่น ข้อความ, วิชัน, เอ็มเบดดิง, โมเดล TTS
  • รองรับตั้งแต่ FP32 ไปจนถึงโมเดลแบบ quantization 2 บิต ทำให้ ทำงานได้อย่างมีประสิทธิภาพสูงและใช้พลังงานต่ำในสภาพแวดล้อมมือถือ
  • รองรับ chat template (Jinja2), token streaming, การ fallback อัตโนมัติระหว่างคลาวด์-โลคัล, Speech-To-Text เป็นต้น
  • แบ็กเอนด์ของ Cactus เขียนด้วย C/C++ จึง ทำงานได้โดยตรงในแทบทุกสภาพแวดล้อม เช่น มือถือ, พีซี, ระบบฝังตัว, IoT
  • บนสมาร์ตโฟนรุ่นใหม่ Gemma3 1B Q4 ทำงานที่ความเร็ว 20~50 โทเคน/วินาที และ Qwen3 4B Q4 ที่ 7~18 โทเคน/วินาที
  • ดาวน์โหลดโมเดลแนะนำได้ที่ HuggingFace Cactus-Compute

จุดเด่นและข้อได้เปรียบในการใช้งาน

  • ต่างจากเฟรมเวิร์ก LLM แบบออนดีไวซ์เดิม ๆ ตรงที่ รองรับหลายแพลตฟอร์มแบบรวมศูนย์ ทำให้สร้างสถาปัตยกรรมไฮบริดโลคัล-คลาวด์ได้ง่าย
  • สามารถ ใช้งาน LLM/VLM/TTS รุ่นใหม่บนอุปกรณ์มือถือได้ด้วยประสิทธิภาพสูงและใช้พลังงานต่ำ
  • เหมาะกับทั้ง B2C/B2B หลากหลายสถานการณ์ เช่น การประมวลผลข้อมูลส่วนตัวภายในแอป/บริการ, การใช้ AI แบบออฟไลน์, และการลดต้นทุน

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น