- Anthropic ประกาศ Claude 3.5 Sonnet ที่อัปเกรดแล้ว และ Claude 3.5 Haiku ซึ่งเป็นโมเดลใหม่
- เพิ่มฟีเจอร์ computer use แบบโอเพ่นเบต้า ที่ให้สั่ง Claude ใช้คอมพิวเตอร์ได้เหมือนมนุษย์
- ประสิทธิภาพโดยรวมดีขึ้น โดยยังคงราคาและความเร็วเดิม
แนะนำฟีเจอร์ Computer Use
- นักพัฒนาสามารถสั่งให้ Claude ใช้คอมพิวเตอร์ได้เหมือนคนจริงผ่าน API
- สามารถทำงานอย่างการดูหน้าจอ เลื่อนเคอร์เซอร์ คลิกปุ่ม และพิมพ์ข้อความได้
- ขณะนี้ยังอยู่ในขั้นทดลอง จึงอาจยังไม่สะดวกและเกิดข้อผิดพลาดได้เป็นครั้งคราว
- Asana, Canva, Cognition, DoorDash, Replit และ The Browser Company ได้เริ่มสำรวจความเป็นไปได้นี้แล้ว เพื่อทำงานที่ต้องมีหลายสิบขั้นตอน และบางครั้งอาจมากถึงหลายร้อยขั้นตอน
Claude 3.5 Sonnet: ความสามารถด้านวิศวกรรมซอฟต์แวร์ระดับแนวหน้าของอุตสาหกรรม
- Claude 3.5 Sonnet เวอร์ชันอัปเดตแสดงให้เห็นถึงการปรับปรุงอย่างกว้างขวางในเบนช์มาร์กของอุตสาหกรรม โดยเฉพาะงาน agent coding และการใช้เครื่องมือที่มีประสิทธิภาพดีขึ้นอย่างมาก
- บน SWE-bench Verified คะแนนเพิ่มจาก 33.4% เป็น 49.0% ทำคะแนนได้สูงกว่าทุกโมเดลที่เปิดให้ใช้งานสาธารณะ
- บน TAU-bench ก็มีประสิทธิภาพดีขึ้นเช่นกัน จาก 62.6% เป็น 69.2% ในโดเมนค้าปลีก และจาก 36.0% เป็น 46.0% ในโดเมนสายการบิน
- ตามฟีดแบ็กเบื้องต้นจากลูกค้าอย่าง GitLab, Cognition และ The Browser Company ระบุว่า Claude 3.5 Sonnet เป็นก้าวกระโดดสำคัญของการเขียนโค้ดด้วย AI
Claude 3.5 Haiku: ผสานเทคโนโลยีล้ำสมัยเข้ากับความคุ้มค่าและความเร็ว
- Claude 3.5 Haiku คือเวอร์ชันถัดไปของโมเดลที่เร็วที่สุด
- ปรับปรุงดีขึ้นในทุกด้านทางเทคนิคด้วยต้นทุนเท่าเดิมและความเร็วใกล้เคียงกับ Haiku รุ่นก่อนหน้า และเหนือกว่า Claude 3 Opus ซึ่งเคยเป็นโมเดลขนาดใหญ่ที่สุด
- เด่นเป็นพิเศษในงานเขียนโค้ด โดยทำได้ 40.6% บน SWE-bench Verified แซงหน้าเอเจนต์จำนวนมากที่ใช้โมเดลล้ำสมัยแบบเปิดสาธารณะ รวมถึง Claude 3.5 Sonnet รุ่นเดิมและ GPT-4o
- ด้วยจุดเด่นอย่าง latency ต่ำ การทำตามคำสั่งที่ดีขึ้น และการใช้เครื่องมือได้แม่นยำกว่าเดิม จึงเหมาะกับผลิตภัณฑ์ที่เน้นผู้ใช้ งานย่อยแบบ specialist sub-agent และการสร้างประสบการณ์เฉพาะบุคคลจากข้อมูลจำนวนมหาศาล
สอนให้ Claude ท่องโลกคอมพิวเตอร์อย่างมีความรับผิดชอบ
- ฟีเจอร์ computer use เป็นการทดลองสิ่งใหม่ในระดับพื้นฐาน
- แทนที่จะสร้างเครื่องมือเฉพาะสำหรับทำงานแต่ละอย่าง Anthropic กำลังสอนทักษะการใช้คอมพิวเตอร์ทั่วไปให้ Claude
- นักพัฒนาสามารถใช้ความสามารถระยะแรกนี้เพื่อทำงานอัตโนมัติในกระบวนการซ้ำ ๆ สร้างและทดสอบซอฟต์แวร์ รวมถึงทำงานปลายเปิดอย่างการวิจัย
- ใน OSWorld นั้น Claude 3.5 Sonnet ทำได้ 14.9% ในหมวด screenshot-only ทิ้งห่างระบบ AI อันดับถัดไปที่ทำได้ 7.8% อย่างชัดเจน
- ฟีเจอร์ computer use ยังไม่สมบูรณ์ และอาจกลายเป็นช่องทางใหม่ของภัยคุกคาม เช่น สแปม ข้อมูลเท็จ และการฉ้อโกง จึงใช้แนวทางเชิงรุกเพื่อให้เปิดใช้งานได้อย่างปลอดภัย
อนาคตของ Computer Use
- การเรียนรู้จากการนำเทคโนโลยีระยะเริ่มต้นนี้ไปใช้งานจริง จะช่วยให้เข้าใจศักยภาพและผลกระทบของระบบ AI ที่ทรงพลังมากขึ้นเรื่อย ๆ ได้ดียิ่งขึ้น
- ขอเชิญให้ลองสำรวจโมเดลใหม่และ computer use เวอร์ชันโอเพ่นเบต้า พร้อมแบ่งปันฟีดแบ็ก
- Anthropic เชื่อว่าการพัฒนาเหล่านี้จะเปิดความเป็นไปได้ใหม่ ๆ ให้กับการทำงานร่วมกับ Claude
ความเห็นของ GN⁺
- ฟีเจอร์ computer use มีลักษณะคล้าย RPA (Robotic Process Automation) แต่ดูเหมือนจะให้แนวทางที่ยืดหยุ่นและ general มากกว่า
- คาดว่าจะช่วยงานอัตโนมัติที่ทำซ้ำในองค์กรได้มาก แต่ในช่วงแรกควรเริ่มจากงานที่มีความสำคัญต่ำก่อน โดยคำนึงถึงความเป็นไปได้ที่จะเกิดข้อผิดพลาด
- ฟีเจอร์นี้น่าจะแข่งขันกับเครื่องมือ RPA เดิมอย่าง Power Automate และ UiPath และในอนาคตเส้นแบ่งระหว่าง AI กับ RPA ก็น่าจะยิ่งเลือนลง
- ในมุมความปลอดภัย การมอบสิทธิ์ควบคุมคอมพิวเตอร์ให้ AI อาจสร้างความเสี่ยงรูปแบบใหม่ จึงน่าจะต้องมีการควบคุมสิทธิ์เข้าถึงและการติดตามตรวจสอบอย่างเข้มงวด
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News