- หลังจากมีการเพิ่มเอเจนต์ไว้เหนือ LLM ก็ได้เกิด เลเยอร์ Claws ที่รับหน้าที่ด้าน การออร์เคสเทรต การจัดตาราง การจัดการคอนเท็กซ์ การเรียกใช้เครื่องมือ และการคงอยู่ของสถานะ
- เป็นการยกระดับนามธรรมของโครงสร้างการทำงานของเอเจนต์ขึ้นอีกขั้น เพื่อให้ได้ ระบบอัตโนมัติและความสามารถในการประกอบปรับแต่งในระดับที่สูงขึ้น
- OpenClaw มีขนาดประมาณ 400,000 บรรทัดของโค้ด และมีความกังวลเกี่ยวกับโครงสร้างที่ต้องมอบหมายข้อมูลส่วนตัวและคีย์ให้ระบบ
- มีความเสี่ยงด้านความปลอดภัยหลายประการปรากฏขึ้น เช่น รายงานอินสแตนซ์ที่ถูกเปิดเผย, ช่องโหว่ RCE, การปนเปื้อนซัพพลายเชน, และกรณี skills ในรีจิสทรีที่เป็นอันตรายหรือเสียหาย
- ปัจจุบันระบบนิเวศนี้ยังใกล้เคียงกับ ‘ไวลด์เวสต์’ และแทบจะเป็นฝันร้ายด้านความปลอดภัย
- NanoClaw มี คอร์เอนจินราว 4,000 บรรทัด จึงเป็นโครงสร้างที่ค่อนข้างเล็ก
- ขนาดโค้ดเล็กพอที่จะทำความเข้าใจได้ทั้งระบบ จึงได้เปรียบในด้านการดูแล การตรวจสอบ และความยืดหยุ่น
- โดยพื้นฐานแล้วจะรันทุกการทำงานใน สภาพแวดล้อมคอนเทนเนอร์
- ใช้ แนวทางการกำหนดค่าผ่าน skills แทนไฟล์ตั้งค่า
- คำสั่ง
/add-telegram จะสั่งเอเจนต์ถึงวิธีแก้ไขโค้ดจริง
- เป็นแนวทางใหม่ที่ขับเคลื่อนด้วย AI เพื่อลดไฟล์คอนฟิกที่ซับซ้อนและโครงสร้างเงื่อนไขแตกแขนง
- แนวคิดเมตาที่ทำให้รีโพซิทอรีถูกฟอร์กได้ง่ายที่สุด และให้ skills แปลงมันไปเป็นการตั้งค่าหลากหลายแบบนั้นยอดเยี่ยมมาก
- มีโปรเจกต์แตกแขนงหลายตัวเกิดขึ้น เช่น nanobot, zeroclaw, ironclaw, picoclaw
- มีทางเลือกแบบคลาวด์โฮสติ้งด้วยเช่นกัน แต่สภาพแวดล้อมโลคัลเหมาะกับการทดลองและการขยายต่อมากกว่า
- รวมถึงเชื่อมต่อกับอุปกรณ์โฮมออโตเมชันบนเครือข่ายภายในได้ง่ายด้วย
- มีเสน่ห์เชิงแนวคิดในฐานะดิจิทัลเอเจนต์ส่วนบุคคลที่ทำงานอยู่บนอุปกรณ์จริง
- Claws กำลังกลายเป็น เลเยอร์ใหม่ของ AI สแตก และกำหนดโครงสร้างของขั้นถัดไปหลังยุคเอเจนต์
- แม้การตั้งค่าปลายทางที่เฉพาะเจาะจงของฉันยังไม่ลงตัว แต่ก็มีความคาดหวังสูงต่อมันในฐานะโครงสร้างที่ทดลองได้และขยายต่อได้
2 ความคิดเห็น
NanoClaw – Claude Assistant ที่พัฒนาด้วย TypeScript เพียง 500 บรรทัดซึ่งรันอยู่ในสภาพแวดล้อมแยกคอนเทนเนอร์ของ Apple
ตอนเปิดตัวมี 500 บรรทัด แต่ตอนนี้น่าจะกลายเป็น 4000 บรรทัดแล้ว ??
ความคิดเห็นจาก Hacker News
มีการพบ การโจมตีส่วนบุคคล ในหลายคอมเมนต์จึงลบออก
ใน HN ถึงจะเห็นต่างกันก็ห้ามโจมตีตัวบุคคลโดยเด็ดขาด เพราะทำลายจุดประสงค์ของเว็บ
ถ้าไม่นานมานี้ยังไม่ได้อ่าน แนวทางปฏิบัติ แนะนำให้กลับไปอ่านอีกครั้ง
ถ้ามองด้านความปลอดภัย การมี Claw ก็คล้ายกับการมีผู้ช่วยส่วนตัวหรือที่ปรึกษาเป็นมนุษย์
เหมือนกับที่เราไม่ให้สิทธิ์เข้าถึงอีเมลส่วนตัวหรือบัญชีธนาคาร แต่จะตั้งค่าให้ใช้อีเมลแยกต่างหากและ บัตรบริษัท ที่จำกัดสิทธิ์แทน
ถึงจะไม่ให้บัญชีธนาคาร แต่บางครั้งก็ให้สิทธิ์เข้าถึงกับ นักบัญชีหรือที่ปรึกษาการเงิน
ตอนที่ผมสร้าง เครื่องมือเอเจนต์ แบบ CLI ผมใส่กลไกความปลอดภัยไว้แบบหนึ่ง
ถ้าจะทำพฤติกรรมที่เสี่ยง เช่น ส่งอีเมลจำนวนมาก จะต้องใช้ รหัสผ่านใช้ครั้งเดียว (OTP)
เครื่องมือจะสั่งให้เอเจนต์ขอ OTP จากผู้ใช้ และถ้าไม่มีการกรอกก็ไปต่อไม่ได้
ผมยังไม่ได้ลองใช้ Claw แต่คิดว่าโครงสร้างที่ให้มนุษย์เข้ามาแทรกแบบนี้เป็นสิ่งจำเป็น
เพราะแบบนี้ผมเลยสร้าง CLI สำหรับเอเจนต์ทั้งหมดเองเพื่อให้ควบคุมได้มากขึ้น
ถ้า Claw มีมาตั้งแต่ก่อนหน้านี้ อินเทอร์เน็ตอาจจะแตกต่างออกไป
โครงสร้างแบบเมนูที่อิง โปรโตคอล Gopher แบบเรียบง่ายอาจเหมาะกับ LLM มากกว่า
ต่อไปถ้าปฏิสัมพันธ์ที่มีเอเจนต์ฝั่งผู้ใช้เป็นศูนย์กลางเพิ่มขึ้น ก็อาจวิวัฒน์ไปในทิศทางนี้ได้
ถ้า YouTube, Gmail, HN, ธนาคาร, บริษัทไฟฟ้าทุกอย่างเป็น API ผู้ใช้ก็จะจัดอินเทอร์เฟซได้ตามที่ตัวเองต้องการ
บริษัทต่าง ๆ คงคัดค้านเพราะการผูกขาดจะพังลง แต่เทคโนโลยีจะทำกำไรน้อยลงและมีคุณค่ามากขึ้น
foo-www,foo-httpตอนที่ข้อเสนอ CGI ออกมา ผมคิดว่า “ไม่มีใครใช้ของนี้หรอก” แต่สุดท้ายทุกคนก็รองรับสเปกนั้นกันหมด เสียดายที่พลาด ความยืดหยุ่นในยุคแรกเริ่ม ไป
ผมคุยกับอินสแตนซ์ OpenClaw บน Mac ของผมผ่าน Telegram อยู่แล้ว เท่ากับว่าตอนนี้ผมใช้อินเทอร์เฟซแบบใหม่แทน UI ของแอปอยู่
การสร้าง อินเทอร์เฟซที่มีเอเจนต์เป็นศูนย์กลาง แทนหน้าต่างที่มนุษย์มอง แล้วเหลือแค่อินเทอร์เฟซสำหรับตรวจสอบ น่าจะสมเหตุสมผลกว่า
แก่นแท้จริง ๆ ของ Claw คือมันเป็น เอเจนต์ที่ยึดผู้ใช้เป็นศูนย์กลาง
AI ที่คนไม่ชอบคือ AI ที่บริษัทเป็นผู้ควบคุม ส่วน Claw เป็นสิ่งที่ผู้ใช้เป็นเจ้าของและถึงขั้นตั้งชื่อให้มันได้
มันเหมือนความต่างระหว่างเพื่อนร่วมทางอย่าง R2D2 กับหุ่นโคลนที่พยายามขายของให้ผม
ผมสงสัยว่า “Claw” คืออะไรกันแน่
มันคือ AI ที่เข้าถึงข้อมูลส่วนตัวอย่างอีเมลหรือเปล่า?
ถ้ารันด้วย local LLM ในคอนเทนเนอร์จะปลอดภัยไหม?
สามารถรันได้ทั้งบนฮาร์ดแวร์ฝั่งผู้บริโภคหรือ VPS ตลาดใหม่กำลังเปิดขึ้น
มันใช้ข้อมูลรับรองของผมแบบ asynchronous เพื่อทำงาน เป็นอะไรที่เรียบง่ายแต่ก็น่าสนใจ
สรุปของผม: OpenClaw มี ความเสี่ยงด้านความปลอดภัยระดับ 5/5
ต่อให้เป็น NanoClaw ที่ audit สมบูรณ์แล้วก็ยังน่าจะอยู่แถว 4/5
ถ้ามีมนุษย์เข้ามาแทรกก็ดีขึ้น แต่ประโยชน์ใช้สอยจะลดลงอย่างมาก
LLM เหมาะกับการสร้าง guardrail จากสเปกภาษา หรือจากการทดสอบ แต่ผมคิดว่าความเสถียรสำคัญกว่า
คิดว่าชื่อ “Claw” จะ ติดตลาด กลายเป็นคำเรียก AI เอเจนต์ส่วนตัวแบบ OpenClaw และพวกเดียวกัน
กระแสเวิร์กโฟลว์เอเจนต์ช่วงนี้กำลังมองข้ามปัญหาพื้นฐานเรื่อง การไม่มีขอบเขตความปลอดภัย
เมื่อ LLM มีสิทธิ์เข้าถึงเชลล์แบบไม่จำกัดและดึงข้อมูลที่ไม่น่าเชื่อถือเข้ามา ก็หลีกเลี่ยง indirect prompt injection ไม่ได้
นอกจากนี้การยัด system prompt ขนาดใหญ่และ schema ของเครื่องมือเข้าไปในบริบทยังทำให้ความสามารถในการให้เหตุผลพื้นฐานของโมเดลลดลง และเพิ่มความเปราะบาง
Claw แบรนด์ร้านค้า ออกมาก่อน GTA VI เสียอีก
ผมลองทำเองแล้ว ใช้โค้ดแค่ 50 บรรทัดก็พอ
มีแค่ไม่กี่บรรทัดของไลบรารี Telegram กับ
claude -p prooomptก็ได้แล้วดู โค้ดตัวอย่าง ULTRON ได้
แน่นอนว่าตัวเอเจนต์ถูกมอบหมายออกไปภายนอก แต่แค่ Bash 50 บรรทัดก็ให้ผลลัพธ์ที่แทบสมบูรณ์แบบได้