10 คะแนน โดย GN⁺ 2024-10-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anthropic ประกาศ Claude 3.5 Sonnet ที่อัปเกรดแล้ว และ Claude 3.5 Haiku ซึ่งเป็นโมเดลใหม่
  • เพิ่มฟีเจอร์ computer use แบบโอเพ่นเบต้า ที่ให้สั่ง Claude ใช้คอมพิวเตอร์ได้เหมือนมนุษย์
  • ประสิทธิภาพโดยรวมดีขึ้น โดยยังคงราคาและความเร็วเดิม

แนะนำฟีเจอร์ Computer Use

  • นักพัฒนาสามารถสั่งให้ Claude ใช้คอมพิวเตอร์ได้เหมือนคนจริงผ่าน API
  • สามารถทำงานอย่างการดูหน้าจอ เลื่อนเคอร์เซอร์ คลิกปุ่ม และพิมพ์ข้อความได้
  • ขณะนี้ยังอยู่ในขั้นทดลอง จึงอาจยังไม่สะดวกและเกิดข้อผิดพลาดได้เป็นครั้งคราว
  • Asana, Canva, Cognition, DoorDash, Replit และ The Browser Company ได้เริ่มสำรวจความเป็นไปได้นี้แล้ว เพื่อทำงานที่ต้องมีหลายสิบขั้นตอน และบางครั้งอาจมากถึงหลายร้อยขั้นตอน

Claude 3.5 Sonnet: ความสามารถด้านวิศวกรรมซอฟต์แวร์ระดับแนวหน้าของอุตสาหกรรม

  • Claude 3.5 Sonnet เวอร์ชันอัปเดตแสดงให้เห็นถึงการปรับปรุงอย่างกว้างขวางในเบนช์มาร์กของอุตสาหกรรม โดยเฉพาะงาน agent coding และการใช้เครื่องมือที่มีประสิทธิภาพดีขึ้นอย่างมาก
  • บน SWE-bench Verified คะแนนเพิ่มจาก 33.4% เป็น 49.0% ทำคะแนนได้สูงกว่าทุกโมเดลที่เปิดให้ใช้งานสาธารณะ
  • บน TAU-bench ก็มีประสิทธิภาพดีขึ้นเช่นกัน จาก 62.6% เป็น 69.2% ในโดเมนค้าปลีก และจาก 36.0% เป็น 46.0% ในโดเมนสายการบิน
  • ตามฟีดแบ็กเบื้องต้นจากลูกค้าอย่าง GitLab, Cognition และ The Browser Company ระบุว่า Claude 3.5 Sonnet เป็นก้าวกระโดดสำคัญของการเขียนโค้ดด้วย AI

Claude 3.5 Haiku: ผสานเทคโนโลยีล้ำสมัยเข้ากับความคุ้มค่าและความเร็ว

  • Claude 3.5 Haiku คือเวอร์ชันถัดไปของโมเดลที่เร็วที่สุด
  • ปรับปรุงดีขึ้นในทุกด้านทางเทคนิคด้วยต้นทุนเท่าเดิมและความเร็วใกล้เคียงกับ Haiku รุ่นก่อนหน้า และเหนือกว่า Claude 3 Opus ซึ่งเคยเป็นโมเดลขนาดใหญ่ที่สุด
  • เด่นเป็นพิเศษในงานเขียนโค้ด โดยทำได้ 40.6% บน SWE-bench Verified แซงหน้าเอเจนต์จำนวนมากที่ใช้โมเดลล้ำสมัยแบบเปิดสาธารณะ รวมถึง Claude 3.5 Sonnet รุ่นเดิมและ GPT-4o
  • ด้วยจุดเด่นอย่าง latency ต่ำ การทำตามคำสั่งที่ดีขึ้น และการใช้เครื่องมือได้แม่นยำกว่าเดิม จึงเหมาะกับผลิตภัณฑ์ที่เน้นผู้ใช้ งานย่อยแบบ specialist sub-agent และการสร้างประสบการณ์เฉพาะบุคคลจากข้อมูลจำนวนมหาศาล

สอนให้ Claude ท่องโลกคอมพิวเตอร์อย่างมีความรับผิดชอบ

  • ฟีเจอร์ computer use เป็นการทดลองสิ่งใหม่ในระดับพื้นฐาน
  • แทนที่จะสร้างเครื่องมือเฉพาะสำหรับทำงานแต่ละอย่าง Anthropic กำลังสอนทักษะการใช้คอมพิวเตอร์ทั่วไปให้ Claude
  • นักพัฒนาสามารถใช้ความสามารถระยะแรกนี้เพื่อทำงานอัตโนมัติในกระบวนการซ้ำ ๆ สร้างและทดสอบซอฟต์แวร์ รวมถึงทำงานปลายเปิดอย่างการวิจัย
  • ใน OSWorld นั้น Claude 3.5 Sonnet ทำได้ 14.9% ในหมวด screenshot-only ทิ้งห่างระบบ AI อันดับถัดไปที่ทำได้ 7.8% อย่างชัดเจน
  • ฟีเจอร์ computer use ยังไม่สมบูรณ์ และอาจกลายเป็นช่องทางใหม่ของภัยคุกคาม เช่น สแปม ข้อมูลเท็จ และการฉ้อโกง จึงใช้แนวทางเชิงรุกเพื่อให้เปิดใช้งานได้อย่างปลอดภัย

อนาคตของ Computer Use

  • การเรียนรู้จากการนำเทคโนโลยีระยะเริ่มต้นนี้ไปใช้งานจริง จะช่วยให้เข้าใจศักยภาพและผลกระทบของระบบ AI ที่ทรงพลังมากขึ้นเรื่อย ๆ ได้ดียิ่งขึ้น
  • ขอเชิญให้ลองสำรวจโมเดลใหม่และ computer use เวอร์ชันโอเพ่นเบต้า พร้อมแบ่งปันฟีดแบ็ก
  • Anthropic เชื่อว่าการพัฒนาเหล่านี้จะเปิดความเป็นไปได้ใหม่ ๆ ให้กับการทำงานร่วมกับ Claude

ความเห็นของ GN⁺

  • ฟีเจอร์ computer use มีลักษณะคล้าย RPA (Robotic Process Automation) แต่ดูเหมือนจะให้แนวทางที่ยืดหยุ่นและ general มากกว่า
  • คาดว่าจะช่วยงานอัตโนมัติที่ทำซ้ำในองค์กรได้มาก แต่ในช่วงแรกควรเริ่มจากงานที่มีความสำคัญต่ำก่อน โดยคำนึงถึงความเป็นไปได้ที่จะเกิดข้อผิดพลาด
  • ฟีเจอร์นี้น่าจะแข่งขันกับเครื่องมือ RPA เดิมอย่าง Power Automate และ UiPath และในอนาคตเส้นแบ่งระหว่าง AI กับ RPA ก็น่าจะยิ่งเลือนลง
  • ในมุมความปลอดภัย การมอบสิทธิ์ควบคุมคอมพิวเตอร์ให้ AI อาจสร้างความเสี่ยงรูปแบบใหม่ จึงน่าจะต้องมีการควบคุมสิทธิ์เข้าถึงและการติดตามตรวจสอบอย่างเข้มงวด

1 ความคิดเห็น

 
GN⁺ 2024-10-23
ความคิดเห็นจาก Hacker News
  • Sonnet ครองอันดับ 1 บนกระดานจัดอันดับการแก้ไขโค้ดของ aider ด้วย 84.2% และเมื่อใช้โหมด "architect" ก็ทำสถิติ SOTA ที่ 85.7% โดยใช้ DeepSeek เป็นโมเดล "editor"
    • Sonnet ยังทำสถิติ SOTA ที่ 92.1% ในเบนช์มาร์กการรีแฟกเตอร์ที่ยากกว่าอีกด้วย
  • Claude 3.5 Opus ไม่ถูกกล่าวถึงในเอกสารทางการของ Anthropic อีกต่อไป ซึ่งบ่งชี้ว่าอาจเลื่อนการเปิดตัวหรือถูกยกเลิกไปแล้ว
  • ในฐานะคนที่พัฒนาผลิตภัณฑ์ AI SaaS เคยคิดว่าการผสานรวม API จะช่วยแก้ปัญหางานอัตโนมัติของ AI ได้เกือบทั้งหมด แต่ในความเป็นจริงกลับพบว่าซอฟต์แวร์จำนวนมากเชื่อมต่อกับมนุษย์โดยตรง
    • ตัวอย่างเช่น พี่เขยที่เป็นแพทย์ใช้ซอฟต์แวร์เฉพาะทางที่ใช้ฟอร์ม MFC บน Windows และนักบัญชีใช้ซอฟต์แวร์ทรงพลังชื่อ Cantax
    • ถ้าอยู่ในโลก SaaS ก็อาจเผลอเชื่อว่าทุกคนควรมี API ฝั่งแบ็กเอนด์แบบไคลเอนต์-เซิร์ฟเวอร์ แต่ความจริงไม่ใช่แบบนั้น
  • ความสามารถในการใช้งานคอมพิวเตอร์นั้นน่าประทับใจมาก
    • นี่ไม่ใช่แค่เอเจนต์ที่ใช้คอมพิวเตอร์เป็นเครื่องมือ แต่เป็นเอเจนต์ให้เหตุผลอัตโนมัติที่เมื่อกำหนดเป้าหมายแล้วก็สามารถใช้คอมพิวเตอร์และเบราว์เซอร์เพื่อบรรลุเป้าหมายนั้นได้
    • มีโอกาสเหนือกว่า OpenAI GPT-o1
  • จุดโฟกัสของ Anthropic เรื่องความปลอดภัยของ AI น่าสนใจ โดย AI มีความสามารถใช้คอมพิวเตอร์และเบราว์เซอร์เพื่อบรรลุเป้าหมายที่ร้องขอ
  • ตลอด 8 เดือนที่ผ่านมา Claude เหนือกว่า ChatGPT แต่มีฐานผู้ใช้น้อยกว่า
  • ยังไม่ชัดเจนว่าความแตกต่างระหว่าง Sonnet กับ Opus คืออะไร บนเว็บไซต์ของ Anthropic ระบุว่า Opus เป็นโมเดลที่ก้าวหน้าที่สุด แต่ในบางส่วนก็ระบุว่า Sonnet เป็นโมเดลที่ทั้งเร็วและก้าวหน้าที่สุด
    • จากการทดสอบด้วยตนเองรู้สึกว่า Opus ให้คำตอบดีกว่านิดหน่อย แต่ก็ยังไม่มั่นใจ
  • เดโมการเขียนโค้ดด้วย Claude ควรได้รับการพูดถึงมากกว่านี้
    • มีความเป็นไปได้ว่ายุคของการเขียนโปรแกรมโดยผู้ใช้ปลายทางอย่างแท้จริงและการเขียนโปรแกรมโดยผู้จัดการผลิตภัณฑ์จะมาถึงในไม่ช้า
  • มีเรื่องน่าสนุกเกิดขึ้นระหว่างการฝึกกับ API ใหม่
    • เช่น Claude หยุดการบันทึกหน้าจอเป็นเวลานานจนทำให้วิดีโอหายทั้งหมด หรือระหว่างเดโมการเขียนโค้ดกลับไปดูภาพอุทยานแห่งชาติ Yellowstone