3 คะแนน โดย GN⁺ 2026-03-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล Qwen3.5-9B รันได้แบบโลคัลเต็มรูปแบบบน MacBook Pro M5 และทำผลงานได้ 93.8% ซึ่งต่ำกว่า GPT-5.4 อยู่ 4 จุด
  • HomeSec-Bench ที่ประกอบด้วย การทดสอบ 96 รายการและ 15 ชุดทดสอบ ใช้ประเมินเวิร์กโฟลว์ความปลอดภัยภายในบ้านจริง เช่น การใช้เครื่องมือ การจัดประเภทด้านความปลอดภัย และการลบเหตุการณ์ซ้ำ
  • Qwen3.5-35B-MoE มี TTFT 435ms เร็วกว่าโมเดลคลาวด์ของ OpenAI ทุกตัว และใช้ หน่วยความจำ GPU ราว 27.2GB
  • การรันแบบโลคัลไม่มีค่าใช้จ่าย API และรับประกันความเป็นส่วนตัวของข้อมูลอย่างสมบูรณ์ พร้อมการแสดงผลแบบเรียลไทม์บน Apple Silicon
  • ผ่าน ระบบ Aegis-AI และแพลตฟอร์ม DeepCamera ทำให้สามารถสร้าง ระบบนิเวศ AI ด้านความปลอดภัยในบ้านแบบ local-first บนฮาร์ดแวร์ระดับผู้บริโภคได้

เปรียบเทียบประสิทธิภาพ Local AI กับ Cloud

  • โมเดล Qwen3.5-9B รันได้แบบโลคัลเต็มรูปแบบบน MacBook Pro M5 และทำอัตราผ่านที่ 93.8% ซึ่งมีประสิทธิภาพต่ำกว่า GPT-5.4 อยู่ 4 จุด
    • ความเร็วประมวลผล 25 โทเคนต่อวินาที, TTFT (Time to First Token) 765ms, ใช้ หน่วยความจำรวม 13.8GB
    • ไม่มีค่าใช้จ่าย API และ รับประกันความเป็นส่วนตัวของข้อมูลอย่างสมบูรณ์
  • ในเบนช์มาร์กที่ประกอบด้วย การทดสอบ 96 รายการและ 15 ชุดทดสอบ มีการประเมินเวิร์กโฟลว์ความปลอดภัยภายในบ้านจริง เช่น การใช้เครื่องมือ การจัดประเภทด้านความปลอดภัย และการลบเหตุการณ์ซ้ำ
  • บนลีดเดอร์บอร์ด GPT-5.4 (97.9%) อยู่อันดับ 1, GPT-5.4-mini (95.8%) อยู่อันดับ 2, และ Qwen3.5-9B กับ 27B (93.8%) รั้งอันดับ 3 ร่วมกัน
    • Qwen3.5-9B สูงกว่า GPT-5.4-nano (92.7%) อยู่ 1 จุด
  • Qwen3.5-35B-MoE มี TTFT 435ms ซึ่ง เร็วกว่าโมเดลคลาวด์ของ OpenAI ทุกตัว

    • GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
    • ความเร็วในการถอดรหัสนั้น GPT-5.4-mini เร็วที่สุดที่ 234.5 tok/s ส่วน Qwen3.5-9B อยู่ที่ 25 tok/s
    • การใช้หน่วยความจำ GPU คือ Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB

ภาพรวมของ HomeSec-Bench

  • HomeSec-Bench คือเบนช์มาร์ก LLM สำหรับประเมิน เวิร์กโฟลว์ผู้ช่วยด้านความปลอดภัยในบ้านจริง
    • ตรวจสอบความสามารถที่จำเป็นต่อระบบความปลอดภัย เช่น การให้เหตุผล การจัดประเภท และการใช้เครื่องมือ ไม่ใช่แค่การสนทนาทั่วไป
    • ใช้ ภาพที่สร้างโดย AI จำนวน 35 ภาพ และสามารถรันบน endpoint ที่เข้ากันได้กับ OpenAI
  • ชุดทดสอบหลัก (รวม 15 ชุด)

    • Context Preprocessing (6): ลบความซ้ำซ้อนในการสนทนา, คงข้อความระบบไว้
    • Topic Classification (4): route คำถามไปยังโดเมนที่เหมาะสม
    • Knowledge Distillation (5): ดึงข้อเท็จจริงที่คงอยู่จากบทสนทนา
    • Event Deduplication (8): ระบุตัวบุคคลเดียวกันจากหลายกล้อง
    • Tool Use (16): เลือกเครื่องมือและพารามิเตอร์ที่ถูกต้อง
    • Chat & JSON Compliance (11): เพอร์โซนา, การส่งออก JSON, การรองรับหลายภาษา
    • Security Classification (12): จัดระดับจาก Normal → Monitor → Suspicious → Critical
    • Narrative Synthesis (4): สรุปบันทึกเหตุการณ์
    • Prompt Injection Resistance (4): ป้องกันความสับสนของบทบาท, การดึง prompt, การยกระดับสิทธิ์
    • Multi-Turn Reasoning (4): การตีความการอ้างอิง, การคงความต่อเนื่องเชิงเวลา
    • Error Recovery (4): จัดการคำถามที่เป็นไปไม่ได้และข้อผิดพลาดของ API
    • Privacy & Compliance (3): ทำข้อมูลส่วนบุคคลให้ไม่สามารถระบุตัวตนได้, ปฏิเสธการเฝ้าระวังที่ผิดกฎหมาย
    • Alert Routing (5): route ช่องทางแจ้งเตือน, แยกวิเคราะห์ช่วงเวลาเงียบ
    • Knowledge Injection (5): ปรับคำตอบให้เป็นส่วนบุคคลโดยใช้ความรู้ที่ฉีดเข้าไป
    • VLM-to-Alert Triage (5): ผลลัพธ์จาก vision → ตัดสินระดับความเร่งด่วน → ส่งการแจ้งเตือน
  • คำถามหลักในการประเมิน

    • สามารถเลือกเครื่องมือและพารามิเตอร์ที่ถูกต้องได้หรือไม่
    • สามารถจัดประเภท “คนสวมหน้ากากในเวลากลางคืน” เป็น Critical ได้หรือไม่
    • สามารถต้านทาน prompt injection ภายในคำอธิบายเหตุการณ์ได้หรือไม่
    • สามารถรู้จำบุคคลเดียวกันจากกล้อง 3 ตัวโดยไม่ซ้ำซ้อนได้หรือไม่
    • สามารถ รักษาบริบทด้านความปลอดภัย ในบทสนทนาแบบหลายเทิร์นได้หรือไม่

คุณค่าของ Local AI

  • สามารถแสดงผลการรันเบนช์มาร์กแบบเรียลไทม์บน Apple Silicon ได้
  • โมเดล 9B ทำผลงานได้ภายใน 4% ของ GPT-5.4 แม้อยู่ในสถานะออฟไลน์
  • การรับประกันความเป็นส่วนตัวอย่างสมบูรณ์ และ ค่าใช้จ่าย API เป็นศูนย์ คือคุณค่าหลักของ Local AI

องค์ประกอบของระบบ

  • System: Aegis-AI — AI ด้านความปลอดภัยในบ้านแบบ local-first บนฮาร์ดแวร์ระดับผู้บริโภค
  • Benchmark: HomeSec-Bench — การทดสอบ 96 LLM + 35 VLM, ประกอบด้วย 16 ชุดทดสอบ
  • Skill Platform: DeepCamera — ระบบนิเวศสกิล AI แบบกระจายศูนย์

1 ความคิดเห็น

 
GN⁺ 2026-03-21
ความเห็นจาก Hacker News
  • ฉันเคยจินตนาการไว้ว่าสักวันหนึ่งเวลาครอบครัวซื้อบ้านหรือเครื่องใช้ไฟฟ้า ก็จะซื้อ เซิร์ฟเวอร์ AI ไปพร้อมกันด้วย
    เพราะความก้าวหน้าของฮาร์ดแวร์เริ่มช้าลง การซื้อ ระบบ AI สำหรับใช้ในบ้าน สักครั้งที่ใช้ได้ยาวหลายสิบปีก็น่าจะเพียงพอ
    ฉันคิดว่าระบบนี้จะสืบทอดประวัติของครอบครัว ทำงานแบบออฟไลน์เต็มรูปแบบ และเป็นเหมือน ผู้ช่วยถาวร ที่ส่งต่อกันข้ามรุ่น

    • ไม่เห็นด้วย แค่ดู การเปรียบเทียบ M1 กับ M5 ก็เห็นแล้วว่าในเวลา 5 ปี ความเร็วด้าน CPU/GPU, AI, 3D rendering และแทบทุกด้านเพิ่มขึ้นมากกว่า 6 เท่า
      แนวคิดเรื่อง “เซิร์ฟเวอร์ AI ที่สืบทอดสายตระกูลของครอบครัว” ฟังดูเท่มาก แต่ในความเป็นจริงคงหลีกเลี่ยง ความล้าสมัยของฮาร์ดแวร์ ไม่ได้
    • ถ้าซื้อเซิร์ฟเวอร์มาตั้งไว้ที่บ้านเมื่อ 10 ปีก่อน ก็คงยังไม่มี GPU หรือ AI accelerator เลยด้วยซ้ำ
      ตอนนี้แม้ ประสิทธิภาพ single-core จะเริ่มนิ่ง แต่ AI เน้นการประมวลผลแบบขนาน เลยยังพัฒนาเร็วอยู่
      ผมคิดว่าแนวคิดเรื่องเซิร์ฟเวอร์ที่ใช้ได้หลายสิบปียังเร็วเกินไป
    • แนวคิดที่เสนอมาก็แทบไม่ต่างจาก homelab
      คนส่วนใหญ่ก็พอใจกับการฝากบริการอย่างการเก็บรูปหรือระบบความปลอดภัยไว้บนคลาวด์
    • การคาดการณ์ว่าเป็น “เซิร์ฟเวอร์ที่ใช้ได้หลายสิบปี” ฟังดูเป็นข้ออ้างที่ อ่อนเกินไป
    • ยิ่งไปกว่านั้น สินค้าแบบนี้ไม่มี โมเดลรายได้จากการสมัครสมาชิก จึงมีแรงจูงใจน้อยสำหรับบริษัทที่จะสร้างมันขึ้นมา
  • หน้านี้ดูหวือหวาก็จริง แต่จริง ๆ แล้วเป็นแค่ เบนช์มาร์ก home security แบบเรียบง่าย
    มันเปรียบเทียบแค่โมเดล Qwen และเวอร์ชันล่าสุดกลับช้ากว่ารุ่นก่อน
    โมเดลที่เหมาะสมจะแตกต่างกันไปตามงาน และด้าน VL, หลายภาษา, การให้เหตุผล ฯลฯ ก็อาจมีโมเดลอื่นที่ดีกว่าในแต่ละด้าน
    Qwen 3.5 ยอดเยี่ยมก็จริง แต่ไม่มี “โมเดลเดียวที่เก่งทุกอย่าง”
    การเลือกโมเดลให้เหมาะและการออกแบบพรอมป์ต์ สำคัญกว่า
    ต่อให้ไม่มี Mac M5 รุ่นล่าสุด ก็ทำได้สบายด้วยโน้ตบุ๊กหรือสมาร์ตโฟนอายุ 2 ปี

    • ขอบคุณสำหรับฟีดแบ็ก :) พอเห็นว่า Qwen3.5 ช้าลงก็เลยปิด thinking mode ไป
      ตอนนี้กำลังทดสอบเฉพาะ LLM บน MBP Pro 64GB และคิดว่า VLM ที่ดีที่สุดคือ LFM 450M
      จะอัปเดตเร็ว ๆ นี้
    • อยากเรียนรู้ว่าโมเดลไหนเหมาะกับงานแบบไหน
      กำลังทดลองด้วย LM Studio และกำลังหาโมเดลสำหรับเขียน Rust กับ SQL เพื่อใช้เป็น ตัวแทน Claude แบบรันในเครื่อง
    • ผมก็ใช้ Mac mini M2 16GB รันกล้องหลายตัวอยู่เหมือนกัน
      ชุด Qwen 9B + LFM 450M ทำงานได้ดีแม้งบจะ ต่ำกว่า $400
      วางแผนจะขยายการทดสอบไปยังโมเดลอื่นเพิ่ม
  • M5 Pro ออกแล้ว เลยนำมาทดสอบ เวิร์กโหลด AI จริง
    Qwen3.5-9B ทำได้ 93.8% โดยตามหลัง GPT-5.4 อยู่ 4 คะแนน และทั้งหมดรันแบบโลคัล
    ใช้ 25 tok/s, TTFT 765ms และใช้หน่วยความจำเพียง 13.8GB
    ดูผลทั้งหมด

    • ขอบคุณที่แชร์ผล แต่ทั้งหน้าเว็บและคอมเมนต์ใช้ สำนวนที่เหมือน AI เขียนและดูเวอร์เกินจริง เลยทำให้เข้าใจได้ยากว่าจริง ๆ ทดสอบอะไรไปบ้าง
      ถ้ามีลิงก์ที่ดูรายการทดสอบได้ชัดเจนก็น่าจะดี
    • ถ้าเป็น “ระบบ home security แบบโลคัลเต็มรูปแบบ” ก็สงสัยว่าต้องปล่อย GPU ฟูลโหลดตลอด 24 ชั่วโมง หรือเปล่า
      และอยากรู้ด้วยว่าใช้งานยาว ๆ แล้วมี ความเสียหายต่อซิลิคอน หรือไม่
  • ตอนนี้ถ้าจะรันโมเดลแบบโลคัลต้องใช้เงินราว $2500
    น่าสนใจตรงที่ในปี 1995 ตอนพ่อแม่ผมซื้อพีซี 166MHz ก็จ่ายเงินพอ ๆ กัน

    • ผมก็จำได้ว่าเคยซื้อพีซีราคาหลายพันดอลลาร์ในยุค 80~90
      พอเจอกับ การเสื่อมมูลค่าของอุปกรณ์อิเล็กทรอนิกส์ มากับตัว ตอนนี้เลยอ่อนไหวเรื่องราคามาก
      แต่ด้วย การชะลอตัวของกฎของมัวร์ มันอาจไม่ได้ถูกลงเร็วเหมือนเมื่อก่อนแล้ว
    • ปี 1989 ผมซื้อ 386sx มาในราคา $3800 ซึ่งถ้าคิดเป็นมูลค่าปัจจุบันก็เกือบ $10,000
      ไม่น่าเชื่อเลยว่าสมัยนั้นของแบบนั้นถือว่า “คุ้มค่า”
    • โมเดลโลคัลตัวท็อปในเบนช์มาร์กอย่าง Qwen3.5-9B (Q4_K_M) เป็นโมเดล 9B พารามิเตอร์ที่ควอนไทซ์ 4.5 บิต
      มันรันได้ดีแม้บน Mac Mini ราคา $500
    • ถ้าจะเริ่มต้น Mac Mini 16GB (<$499) ก็เพียงพอแล้ว
      แม้แต่ M2 Mini ก็รันโมเดลขนาดเล็กได้ดี
  • การทดสอบ prompt injection นี้ ดูไม่น่าโน้มน้าวเท่าไร

    • อันนี้ใช้หลัก ๆ สำหรับตรวจจับ การโจมตีแบบ man-in-the-middle
      ขอบคุณที่ช่วยรีวิว
  • ในเชิงเทคนิคน่าประทับใจมาก แต่ยังขาดฟังก์ชันการออก ใบรับรองสัญญาณเตือนสำหรับประกันภัย
    ในธุรกิจจริง สิ่งนี้จำเป็นเพื่อให้ได้ส่วนลดค่าเบี้ยประกันหรือการชดเชยความเสียหาย
    สุดท้ายแล้วอุปสรรคที่ใหญ่กว่าตัวเทคโนโลยีคือ กฎระเบียบและ compliance

    • ใช่ ดูเหมือนว่า มาตรฐานนั้นสูงมาก
  • อยากรู้ว่าระบบนี้เทียบกับ Frigate แล้วเป็นอย่างไร
    อยากรู้ว่าเป็นแค่เลเยอร์บน NVR หรือทำได้ถึงขั้นบันทึกเมื่อมี motion detection ด้วย

    • ถ้าซื้อ Coral TPU สำหรับ Frigate ก็สามารถ offload งาน inference จำนวนมากได้ในราคาถูก
    • Aegis รองรับ การเชื่อมต่อกล้อง ONVIF, การบันทึกเมื่อมี motion detection และ การเข้าใจบริบทด้วย VLM
      สามารถเก็บวิดีโอจากกล้อง BLINK/RING ไว้ในเครื่องเพื่อใช้เป็น หน่วยความจำต่อเนื่อง ได้
  • ฟังดูเหมือนมุกตลก แต่ S ใน AI หมายถึง Security

  • ในอนาคต โทเคนอาจถูกขายเหมือนดาต้าทราฟฟิก และกลายเป็นสินค้าอุปโภคบริโภคทั่วไปในชีวิตประจำวันก็ได้