Anthropic เปิดตัวฟีเจอร์ Computer Use และโมเดล Claude 3.5 Sonnet/Haiku

(anthropic.com)

10 คะแนน โดย GN⁺ 2024-10-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Anthropic ประกาศ Claude 3.5 Sonnet ที่อัปเกรดแล้ว และ Claude 3.5 Haiku ซึ่งเป็นโมเดลใหม่
เพิ่มฟีเจอร์ computer use แบบโอเพ่นเบต้า ที่ให้สั่ง Claude ใช้คอมพิวเตอร์ได้เหมือนมนุษย์
ประสิทธิภาพโดยรวมดีขึ้น โดยยังคงราคาและความเร็วเดิม

แนะนำฟีเจอร์ Computer Use

นักพัฒนาสามารถสั่งให้ Claude ใช้คอมพิวเตอร์ได้เหมือนคนจริงผ่าน API
สามารถทำงานอย่างการดูหน้าจอ เลื่อนเคอร์เซอร์ คลิกปุ่ม และพิมพ์ข้อความได้
ขณะนี้ยังอยู่ในขั้นทดลอง จึงอาจยังไม่สะดวกและเกิดข้อผิดพลาดได้เป็นครั้งคราว
Asana, Canva, Cognition, DoorDash, Replit และ The Browser Company ได้เริ่มสำรวจความเป็นไปได้นี้แล้ว เพื่อทำงานที่ต้องมีหลายสิบขั้นตอน และบางครั้งอาจมากถึงหลายร้อยขั้นตอน

Claude 3.5 Sonnet: ความสามารถด้านวิศวกรรมซอฟต์แวร์ระดับแนวหน้าของอุตสาหกรรม

Claude 3.5 Sonnet เวอร์ชันอัปเดตแสดงให้เห็นถึงการปรับปรุงอย่างกว้างขวางในเบนช์มาร์กของอุตสาหกรรม โดยเฉพาะงาน agent coding และการใช้เครื่องมือที่มีประสิทธิภาพดีขึ้นอย่างมาก
บน SWE-bench Verified คะแนนเพิ่มจาก 33.4% เป็น 49.0% ทำคะแนนได้สูงกว่าทุกโมเดลที่เปิดให้ใช้งานสาธารณะ
บน TAU-bench ก็มีประสิทธิภาพดีขึ้นเช่นกัน จาก 62.6% เป็น 69.2% ในโดเมนค้าปลีก และจาก 36.0% เป็น 46.0% ในโดเมนสายการบิน
ตามฟีดแบ็กเบื้องต้นจากลูกค้าอย่าง GitLab, Cognition และ The Browser Company ระบุว่า Claude 3.5 Sonnet เป็นก้าวกระโดดสำคัญของการเขียนโค้ดด้วย AI

Claude 3.5 Haiku: ผสานเทคโนโลยีล้ำสมัยเข้ากับความคุ้มค่าและความเร็ว

Claude 3.5 Haiku คือเวอร์ชันถัดไปของโมเดลที่เร็วที่สุด
ปรับปรุงดีขึ้นในทุกด้านทางเทคนิคด้วยต้นทุนเท่าเดิมและความเร็วใกล้เคียงกับ Haiku รุ่นก่อนหน้า และเหนือกว่า Claude 3 Opus ซึ่งเคยเป็นโมเดลขนาดใหญ่ที่สุด
เด่นเป็นพิเศษในงานเขียนโค้ด โดยทำได้ 40.6% บน SWE-bench Verified แซงหน้าเอเจนต์จำนวนมากที่ใช้โมเดลล้ำสมัยแบบเปิดสาธารณะ รวมถึง Claude 3.5 Sonnet รุ่นเดิมและ GPT-4o
ด้วยจุดเด่นอย่าง latency ต่ำ การทำตามคำสั่งที่ดีขึ้น และการใช้เครื่องมือได้แม่นยำกว่าเดิม จึงเหมาะกับผลิตภัณฑ์ที่เน้นผู้ใช้ งานย่อยแบบ specialist sub-agent และการสร้างประสบการณ์เฉพาะบุคคลจากข้อมูลจำนวนมหาศาล

สอนให้ Claude ท่องโลกคอมพิวเตอร์อย่างมีความรับผิดชอบ

ฟีเจอร์ computer use เป็นการทดลองสิ่งใหม่ในระดับพื้นฐาน
แทนที่จะสร้างเครื่องมือเฉพาะสำหรับทำงานแต่ละอย่าง Anthropic กำลังสอนทักษะการใช้คอมพิวเตอร์ทั่วไปให้ Claude
นักพัฒนาสามารถใช้ความสามารถระยะแรกนี้เพื่อทำงานอัตโนมัติในกระบวนการซ้ำ ๆ สร้างและทดสอบซอฟต์แวร์ รวมถึงทำงานปลายเปิดอย่างการวิจัย
ใน OSWorld นั้น Claude 3.5 Sonnet ทำได้ 14.9% ในหมวด screenshot-only ทิ้งห่างระบบ AI อันดับถัดไปที่ทำได้ 7.8% อย่างชัดเจน
ฟีเจอร์ computer use ยังไม่สมบูรณ์ และอาจกลายเป็นช่องทางใหม่ของภัยคุกคาม เช่น สแปม ข้อมูลเท็จ และการฉ้อโกง จึงใช้แนวทางเชิงรุกเพื่อให้เปิดใช้งานได้อย่างปลอดภัย

อนาคตของ Computer Use

การเรียนรู้จากการนำเทคโนโลยีระยะเริ่มต้นนี้ไปใช้งานจริง จะช่วยให้เข้าใจศักยภาพและผลกระทบของระบบ AI ที่ทรงพลังมากขึ้นเรื่อย ๆ ได้ดียิ่งขึ้น
ขอเชิญให้ลองสำรวจโมเดลใหม่และ computer use เวอร์ชันโอเพ่นเบต้า พร้อมแบ่งปันฟีดแบ็ก
Anthropic เชื่อว่าการพัฒนาเหล่านี้จะเปิดความเป็นไปได้ใหม่ ๆ ให้กับการทำงานร่วมกับ Claude

ความเห็นของ GN⁺

ฟีเจอร์ computer use มีลักษณะคล้าย RPA (Robotic Process Automation) แต่ดูเหมือนจะให้แนวทางที่ยืดหยุ่นและ general มากกว่า
คาดว่าจะช่วยงานอัตโนมัติที่ทำซ้ำในองค์กรได้มาก แต่ในช่วงแรกควรเริ่มจากงานที่มีความสำคัญต่ำก่อน โดยคำนึงถึงความเป็นไปได้ที่จะเกิดข้อผิดพลาด
ฟีเจอร์นี้น่าจะแข่งขันกับเครื่องมือ RPA เดิมอย่าง Power Automate และ UiPath และในอนาคตเส้นแบ่งระหว่าง AI กับ RPA ก็น่าจะยิ่งเลือนลง
ในมุมความปลอดภัย การมอบสิทธิ์ควบคุมคอมพิวเตอร์ให้ AI อาจสร้างความเสี่ยงรูปแบบใหม่ จึงน่าจะต้องมีการควบคุมสิทธิ์เข้าถึงและการติดตามตรวจสอบอย่างเข้มงวด

1 ความคิดเห็น

GN⁺ 2024-10-23

ความคิดเห็นจาก Hacker News

Sonnet ครองอันดับ 1 บนกระดานจัดอันดับการแก้ไขโค้ดของ aider ด้วย 84.2% และเมื่อใช้โหมด "architect" ก็ทำสถิติ SOTA ที่ 85.7% โดยใช้ DeepSeek เป็นโมเดล "editor"
- Sonnet ยังทำสถิติ SOTA ที่ 92.1% ในเบนช์มาร์กการรีแฟกเตอร์ที่ยากกว่าอีกด้วย
Claude 3.5 Opus ไม่ถูกกล่าวถึงในเอกสารทางการของ Anthropic อีกต่อไป ซึ่งบ่งชี้ว่าอาจเลื่อนการเปิดตัวหรือถูกยกเลิกไปแล้ว
ในฐานะคนที่พัฒนาผลิตภัณฑ์ AI SaaS เคยคิดว่าการผสานรวม API จะช่วยแก้ปัญหางานอัตโนมัติของ AI ได้เกือบทั้งหมด แต่ในความเป็นจริงกลับพบว่าซอฟต์แวร์จำนวนมากเชื่อมต่อกับมนุษย์โดยตรง
- ตัวอย่างเช่น พี่เขยที่เป็นแพทย์ใช้ซอฟต์แวร์เฉพาะทางที่ใช้ฟอร์ม MFC บน Windows และนักบัญชีใช้ซอฟต์แวร์ทรงพลังชื่อ Cantax
- ถ้าอยู่ในโลก SaaS ก็อาจเผลอเชื่อว่าทุกคนควรมี API ฝั่งแบ็กเอนด์แบบไคลเอนต์-เซิร์ฟเวอร์ แต่ความจริงไม่ใช่แบบนั้น
ความสามารถในการใช้งานคอมพิวเตอร์นั้นน่าประทับใจมาก
- นี่ไม่ใช่แค่เอเจนต์ที่ใช้คอมพิวเตอร์เป็นเครื่องมือ แต่เป็นเอเจนต์ให้เหตุผลอัตโนมัติที่เมื่อกำหนดเป้าหมายแล้วก็สามารถใช้คอมพิวเตอร์และเบราว์เซอร์เพื่อบรรลุเป้าหมายนั้นได้
- มีโอกาสเหนือกว่า OpenAI GPT-o1
จุดโฟกัสของ Anthropic เรื่องความปลอดภัยของ AI น่าสนใจ โดย AI มีความสามารถใช้คอมพิวเตอร์และเบราว์เซอร์เพื่อบรรลุเป้าหมายที่ร้องขอ
ตลอด 8 เดือนที่ผ่านมา Claude เหนือกว่า ChatGPT แต่มีฐานผู้ใช้น้อยกว่า
ยังไม่ชัดเจนว่าความแตกต่างระหว่าง Sonnet กับ Opus คืออะไร บนเว็บไซต์ของ Anthropic ระบุว่า Opus เป็นโมเดลที่ก้าวหน้าที่สุด แต่ในบางส่วนก็ระบุว่า Sonnet เป็นโมเดลที่ทั้งเร็วและก้าวหน้าที่สุด
- จากการทดสอบด้วยตนเองรู้สึกว่า Opus ให้คำตอบดีกว่านิดหน่อย แต่ก็ยังไม่มั่นใจ
เดโมการเขียนโค้ดด้วย Claude ควรได้รับการพูดถึงมากกว่านี้
- มีความเป็นไปได้ว่ายุคของการเขียนโปรแกรมโดยผู้ใช้ปลายทางอย่างแท้จริงและการเขียนโปรแกรมโดยผู้จัดการผลิตภัณฑ์จะมาถึงในไม่ช้า
มีเรื่องน่าสนุกเกิดขึ้นระหว่างการฝึกกับ API ใหม่
- เช่น Claude หยุดการบันทึกหน้าจอเป็นเวลานานจนทำให้วิดีโอหายทั้งหมด หรือระหว่างเดโมการเขียนโค้ดกลับไปดูภาพอุทยานแห่งชาติ Yellowstone

Anthropic เปิดตัวฟีเจอร์ Computer Use และโมเดล Claude 3.5 Sonnet/Haiku

แนะนำฟีเจอร์ Computer Use

Claude 3.5 Sonnet: ความสามารถด้านวิศวกรรมซอฟต์แวร์ระดับแนวหน้าของอุตสาหกรรม

Claude 3.5 Haiku: ผสานเทคโนโลยีล้ำสมัยเข้ากับความคุ้มค่าและความเร็ว

สอนให้ Claude ท่องโลกคอมพิวเตอร์อย่างมีความรับผิดชอบ

อนาคตของ Computer Use

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News