- โมเดล Qwen3.5-9B รันได้แบบโลคัลเต็มรูปแบบบน MacBook Pro M5 และทำผลงานได้ 93.8% ซึ่งต่ำกว่า GPT-5.4 อยู่ 4 จุด
- HomeSec-Bench ที่ประกอบด้วย การทดสอบ 96 รายการและ 15 ชุดทดสอบ ใช้ประเมินเวิร์กโฟลว์ความปลอดภัยภายในบ้านจริง เช่น การใช้เครื่องมือ การจัดประเภทด้านความปลอดภัย และการลบเหตุการณ์ซ้ำ
- Qwen3.5-35B-MoE มี TTFT 435ms เร็วกว่าโมเดลคลาวด์ของ OpenAI ทุกตัว และใช้ หน่วยความจำ GPU ราว 27.2GB
- การรันแบบโลคัลไม่มีค่าใช้จ่าย API และรับประกันความเป็นส่วนตัวของข้อมูลอย่างสมบูรณ์ พร้อมการแสดงผลแบบเรียลไทม์บน Apple Silicon
- ผ่าน ระบบ Aegis-AI และแพลตฟอร์ม DeepCamera ทำให้สามารถสร้าง ระบบนิเวศ AI ด้านความปลอดภัยในบ้านแบบ local-first บนฮาร์ดแวร์ระดับผู้บริโภคได้
เปรียบเทียบประสิทธิภาพ Local AI กับ Cloud
- โมเดล Qwen3.5-9B รันได้แบบโลคัลเต็มรูปแบบบน MacBook Pro M5 และทำอัตราผ่านที่ 93.8% ซึ่งมีประสิทธิภาพต่ำกว่า GPT-5.4 อยู่ 4 จุด
- ความเร็วประมวลผล 25 โทเคนต่อวินาที, TTFT (Time to First Token) 765ms, ใช้ หน่วยความจำรวม 13.8GB
- ไม่มีค่าใช้จ่าย API และ รับประกันความเป็นส่วนตัวของข้อมูลอย่างสมบูรณ์
- ในเบนช์มาร์กที่ประกอบด้วย การทดสอบ 96 รายการและ 15 ชุดทดสอบ มีการประเมินเวิร์กโฟลว์ความปลอดภัยภายในบ้านจริง เช่น การใช้เครื่องมือ การจัดประเภทด้านความปลอดภัย และการลบเหตุการณ์ซ้ำ
- บนลีดเดอร์บอร์ด GPT-5.4 (97.9%) อยู่อันดับ 1, GPT-5.4-mini (95.8%) อยู่อันดับ 2, และ Qwen3.5-9B กับ 27B (93.8%) รั้งอันดับ 3 ร่วมกัน
- Qwen3.5-9B สูงกว่า GPT-5.4-nano (92.7%) อยู่ 1 จุด
-
Qwen3.5-35B-MoE มี TTFT 435ms ซึ่ง เร็วกว่าโมเดลคลาวด์ของ OpenAI ทุกตัว
- GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
- ความเร็วในการถอดรหัสนั้น GPT-5.4-mini เร็วที่สุดที่ 234.5 tok/s ส่วน Qwen3.5-9B อยู่ที่ 25 tok/s
- การใช้หน่วยความจำ GPU คือ Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB
ภาพรวมของ HomeSec-Bench
- HomeSec-Bench คือเบนช์มาร์ก LLM สำหรับประเมิน เวิร์กโฟลว์ผู้ช่วยด้านความปลอดภัยในบ้านจริง
- ตรวจสอบความสามารถที่จำเป็นต่อระบบความปลอดภัย เช่น การให้เหตุผล การจัดประเภท และการใช้เครื่องมือ ไม่ใช่แค่การสนทนาทั่วไป
- ใช้ ภาพที่สร้างโดย AI จำนวน 35 ภาพ และสามารถรันบน endpoint ที่เข้ากันได้กับ OpenAI
-
ชุดทดสอบหลัก (รวม 15 ชุด)
- Context Preprocessing (6): ลบความซ้ำซ้อนในการสนทนา, คงข้อความระบบไว้
- Topic Classification (4): route คำถามไปยังโดเมนที่เหมาะสม
- Knowledge Distillation (5): ดึงข้อเท็จจริงที่คงอยู่จากบทสนทนา
- Event Deduplication (8): ระบุตัวบุคคลเดียวกันจากหลายกล้อง
- Tool Use (16): เลือกเครื่องมือและพารามิเตอร์ที่ถูกต้อง
- Chat & JSON Compliance (11): เพอร์โซนา, การส่งออก JSON, การรองรับหลายภาษา
- Security Classification (12): จัดระดับจาก Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4): สรุปบันทึกเหตุการณ์
- Prompt Injection Resistance (4): ป้องกันความสับสนของบทบาท, การดึง prompt, การยกระดับสิทธิ์
- Multi-Turn Reasoning (4): การตีความการอ้างอิง, การคงความต่อเนื่องเชิงเวลา
- Error Recovery (4): จัดการคำถามที่เป็นไปไม่ได้และข้อผิดพลาดของ API
- Privacy & Compliance (3): ทำข้อมูลส่วนบุคคลให้ไม่สามารถระบุตัวตนได้, ปฏิเสธการเฝ้าระวังที่ผิดกฎหมาย
- Alert Routing (5): route ช่องทางแจ้งเตือน, แยกวิเคราะห์ช่วงเวลาเงียบ
- Knowledge Injection (5): ปรับคำตอบให้เป็นส่วนบุคคลโดยใช้ความรู้ที่ฉีดเข้าไป
- VLM-to-Alert Triage (5): ผลลัพธ์จาก vision → ตัดสินระดับความเร่งด่วน → ส่งการแจ้งเตือน
-
คำถามหลักในการประเมิน
- สามารถเลือกเครื่องมือและพารามิเตอร์ที่ถูกต้องได้หรือไม่
- สามารถจัดประเภท “คนสวมหน้ากากในเวลากลางคืน” เป็น Critical ได้หรือไม่
- สามารถต้านทาน prompt injection ภายในคำอธิบายเหตุการณ์ได้หรือไม่
- สามารถรู้จำบุคคลเดียวกันจากกล้อง 3 ตัวโดยไม่ซ้ำซ้อนได้หรือไม่
- สามารถ รักษาบริบทด้านความปลอดภัย ในบทสนทนาแบบหลายเทิร์นได้หรือไม่
คุณค่าของ Local AI
- สามารถแสดงผลการรันเบนช์มาร์กแบบเรียลไทม์บน Apple Silicon ได้
- โมเดล 9B ทำผลงานได้ภายใน 4% ของ GPT-5.4 แม้อยู่ในสถานะออฟไลน์
- การรับประกันความเป็นส่วนตัวอย่างสมบูรณ์ และ ค่าใช้จ่าย API เป็นศูนย์ คือคุณค่าหลักของ Local AI
องค์ประกอบของระบบ
- System: Aegis-AI — AI ด้านความปลอดภัยในบ้านแบบ local-first บนฮาร์ดแวร์ระดับผู้บริโภค
- Benchmark: HomeSec-Bench — การทดสอบ 96 LLM + 35 VLM, ประกอบด้วย 16 ชุดทดสอบ
- Skill Platform: DeepCamera — ระบบนิเวศสกิล AI แบบกระจายศูนย์
1 ความคิดเห็น
ความเห็นจาก Hacker News
ฉันเคยจินตนาการไว้ว่าสักวันหนึ่งเวลาครอบครัวซื้อบ้านหรือเครื่องใช้ไฟฟ้า ก็จะซื้อ เซิร์ฟเวอร์ AI ไปพร้อมกันด้วย
เพราะความก้าวหน้าของฮาร์ดแวร์เริ่มช้าลง การซื้อ ระบบ AI สำหรับใช้ในบ้าน สักครั้งที่ใช้ได้ยาวหลายสิบปีก็น่าจะเพียงพอ
ฉันคิดว่าระบบนี้จะสืบทอดประวัติของครอบครัว ทำงานแบบออฟไลน์เต็มรูปแบบ และเป็นเหมือน ผู้ช่วยถาวร ที่ส่งต่อกันข้ามรุ่น
แนวคิดเรื่อง “เซิร์ฟเวอร์ AI ที่สืบทอดสายตระกูลของครอบครัว” ฟังดูเท่มาก แต่ในความเป็นจริงคงหลีกเลี่ยง ความล้าสมัยของฮาร์ดแวร์ ไม่ได้
ตอนนี้แม้ ประสิทธิภาพ single-core จะเริ่มนิ่ง แต่ AI เน้นการประมวลผลแบบขนาน เลยยังพัฒนาเร็วอยู่
ผมคิดว่าแนวคิดเรื่องเซิร์ฟเวอร์ที่ใช้ได้หลายสิบปียังเร็วเกินไป
คนส่วนใหญ่ก็พอใจกับการฝากบริการอย่างการเก็บรูปหรือระบบความปลอดภัยไว้บนคลาวด์
หน้านี้ดูหวือหวาก็จริง แต่จริง ๆ แล้วเป็นแค่ เบนช์มาร์ก home security แบบเรียบง่าย
มันเปรียบเทียบแค่โมเดล Qwen และเวอร์ชันล่าสุดกลับช้ากว่ารุ่นก่อน
โมเดลที่เหมาะสมจะแตกต่างกันไปตามงาน และด้าน VL, หลายภาษา, การให้เหตุผล ฯลฯ ก็อาจมีโมเดลอื่นที่ดีกว่าในแต่ละด้าน
Qwen 3.5 ยอดเยี่ยมก็จริง แต่ไม่มี “โมเดลเดียวที่เก่งทุกอย่าง”
การเลือกโมเดลให้เหมาะและการออกแบบพรอมป์ต์ สำคัญกว่า
ต่อให้ไม่มี Mac M5 รุ่นล่าสุด ก็ทำได้สบายด้วยโน้ตบุ๊กหรือสมาร์ตโฟนอายุ 2 ปี
ตอนนี้กำลังทดสอบเฉพาะ LLM บน MBP Pro 64GB และคิดว่า VLM ที่ดีที่สุดคือ LFM 450M
จะอัปเดตเร็ว ๆ นี้
กำลังทดลองด้วย LM Studio และกำลังหาโมเดลสำหรับเขียน Rust กับ SQL เพื่อใช้เป็น ตัวแทน Claude แบบรันในเครื่อง
ชุด Qwen 9B + LFM 450M ทำงานได้ดีแม้งบจะ ต่ำกว่า $400
วางแผนจะขยายการทดสอบไปยังโมเดลอื่นเพิ่ม
M5 Pro ออกแล้ว เลยนำมาทดสอบ เวิร์กโหลด AI จริง
Qwen3.5-9B ทำได้ 93.8% โดยตามหลัง GPT-5.4 อยู่ 4 คะแนน และทั้งหมดรันแบบโลคัล
ใช้ 25 tok/s, TTFT 765ms และใช้หน่วยความจำเพียง 13.8GB
ดูผลทั้งหมด
ถ้ามีลิงก์ที่ดูรายการทดสอบได้ชัดเจนก็น่าจะดี
และอยากรู้ด้วยว่าใช้งานยาว ๆ แล้วมี ความเสียหายต่อซิลิคอน หรือไม่
ตอนนี้ถ้าจะรันโมเดลแบบโลคัลต้องใช้เงินราว $2500
น่าสนใจตรงที่ในปี 1995 ตอนพ่อแม่ผมซื้อพีซี 166MHz ก็จ่ายเงินพอ ๆ กัน
พอเจอกับ การเสื่อมมูลค่าของอุปกรณ์อิเล็กทรอนิกส์ มากับตัว ตอนนี้เลยอ่อนไหวเรื่องราคามาก
แต่ด้วย การชะลอตัวของกฎของมัวร์ มันอาจไม่ได้ถูกลงเร็วเหมือนเมื่อก่อนแล้ว
ไม่น่าเชื่อเลยว่าสมัยนั้นของแบบนั้นถือว่า “คุ้มค่า”
มันรันได้ดีแม้บน Mac Mini ราคา $500
แม้แต่ M2 Mini ก็รันโมเดลขนาดเล็กได้ดี
การทดสอบ prompt injection นี้ ดูไม่น่าโน้มน้าวเท่าไร
ขอบคุณที่ช่วยรีวิว
ในเชิงเทคนิคน่าประทับใจมาก แต่ยังขาดฟังก์ชันการออก ใบรับรองสัญญาณเตือนสำหรับประกันภัย
ในธุรกิจจริง สิ่งนี้จำเป็นเพื่อให้ได้ส่วนลดค่าเบี้ยประกันหรือการชดเชยความเสียหาย
สุดท้ายแล้วอุปสรรคที่ใหญ่กว่าตัวเทคโนโลยีคือ กฎระเบียบและ compliance
อยากรู้ว่าระบบนี้เทียบกับ Frigate แล้วเป็นอย่างไร
อยากรู้ว่าเป็นแค่เลเยอร์บน NVR หรือทำได้ถึงขั้นบันทึกเมื่อมี motion detection ด้วย
สามารถเก็บวิดีโอจากกล้อง BLINK/RING ไว้ในเครื่องเพื่อใช้เป็น หน่วยความจำต่อเนื่อง ได้
ฟังดูเหมือนมุกตลก แต่ S ใน AI หมายถึง Security
ในอนาคต โทเคนอาจถูกขายเหมือนดาต้าทราฟฟิก และกลายเป็นสินค้าอุปโภคบริโภคทั่วไปในชีวิตประจำวันก็ได้