6 คะแนน โดย GN⁺ 2025-01-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เปิดตัว Operator ซึ่งเป็น AI agent ที่สามารถท่องเว็บและทำงานได้อย่างอิสระ
    • ใช้เบราว์เซอร์ของตัวเองเพื่อดูหน้าเว็บและโต้ตอบผ่านการพิมพ์ คลิก และเลื่อนหน้าจอ
  • ขณะนี้ยังอยู่ในขั้น research preview จึงยังมีข้อจำกัด และมีแผนพัฒนาต่อผ่านฟีดแบ็กจากผู้ใช้
  • เป็นหนึ่งในเอเจนต์รุ่นแรก ๆ ที่เป็น AI ซึ่งสามารถทำงานได้อย่างอิสระ โดยเมื่อผู้ใช้สั่งงานก็จะดำเนินการให้
  • ช่วยประหยัดเวลาด้วยการจัดการงานบนเบราว์เซอร์ที่ทำซ้ำ ๆ (เช่น กรอกฟอร์ม สั่งซื้อของชำ ทำมีม เป็นต้น)
  • เปิดให้ผู้ใช้ Pro ที่อาศัยอยู่ในสหรัฐฯ ใช้งานก่อน และในอนาคตอาจขยายไปยัง Plus, Team, Enterprise รวมถึงอาจผสานเข้ากับ ChatGPT

วิธีการทำงานของ Operator

  • ทำงานบนพื้นฐานของโมเดลใหม่ชื่อ Computer-Using Agent (CUA)
  • ผสานความสามารถด้านการมองเห็นของ GPT-4o เข้ากับการให้เหตุผลขั้นสูงที่อิง reinforcement learning เพื่อให้สามารถโต้ตอบกับ GUI (ปุ่ม เมนู ช่องข้อความ ฯลฯ) ได้
  • สามารถ “มอง” หน้าจอเบราว์เซอร์ผ่านภาพหน้าจอ และใช้เมาส์กับคีย์บอร์ดควบคุมเพื่อทำงานได้
  • หากพบข้อผิดพลาดหรืออุปสรรคระหว่างงาน จะใช้การให้เหตุผลแบบแก้ไขตนเอง หรือหากจำเป็นจะส่งต่อการควบคุมให้ผู้ใช้ในรูปแบบการทำงานร่วมกัน
  • แสดงประสิทธิภาพสูงในเบนช์มาร์กการใช้งานเบราว์เซอร์ เช่น WebArena และ WebVoyager โดยดูรายละเอียดเพิ่มเติมได้ในบล็อกงานวิจัย

วิธีใช้งาน

  • เพียงอธิบายงานที่ต้องการแบบสั้น ๆ แล้ว Operator จะดำเนินงานนั้นให้อัตโนมัติ
  • ผู้ใช้สามารถดึงสิทธิ์ควบคุมเบราว์เซอร์กลับมาจัดการเองได้ทุกเมื่อระหว่างทาง
  • ในขั้นตอนที่อ่อนไหว เช่น การล็อกอิน การกรอกข้อมูลการชำระเงิน หรือการแก้ CAPTCHA ผู้ใช้ต้องเป็นผู้ดำเนินการเอง โดย Operator จะไม่ทำแทน
  • สามารถตั้งค่ารายเว็บไซต์หรือทั้งระบบเพื่อสะท้อนรสนิยมและความชอบของผู้ใช้ได้
  • บันทึกพรอมป์ต์ที่ใช้บ่อยไว้ได้ เพื่อให้เรียกใช้งานที่ทำซ้ำประจำ (เช่น สั่งซื้อของชำซ้ำบน Instacart) ได้อย่างรวดเร็ว
  • สามารถทำหลายงานพร้อมกันได้เหมือนเปิดหลายแท็บ และแยกเซสชันสนทนาเพื่อทำงานต่างกันไปพร้อมกันได้

อีโคซิสเต็มและผู้ใช้

  • Operator พัฒนา AI จากการเป็นเพียงเครื่องมือ ไปสู่การเป็นผู้มีส่วนร่วมเชิงรุกในระบบนิเวศดิจิทัล
  • กำลังร่วมมือกับ DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack และ Uber เพื่อสะท้อนความต้องการจริงของผู้ใช้และมาตรฐานอุตสาหกรรม
  • ภาครัฐเองก็อยู่ระหว่างพิจารณาความเป็นไปได้ในการนำไปใช้เพื่อเพิ่มประสิทธิภาพการทำงานและการเข้าถึงบริการ โดยยกตัวอย่างการหารือกับ City of Stockton เกี่ยวกับการประยุกต์ใช้ในบริการภาครัฐของเมือง
  • Daniel Danker, Chief Product Officer ของ Instacart กล่าวในเชิงบวกต่อกระบวนการสั่งซื้อที่ทำได้ง่ายผ่าน Operator

ความปลอดภัยและความเป็นส่วนตัว

  • Operator ให้ความสำคัญกับความปลอดภัยเป็นอันดับแรก โดยมีมาตรการป้องกัน 3 ชั้น
    • การควบคุมโดยผู้ใช้: เมื่อต้องกรอกข้อมูลอ่อนไหว (เช่น ล็อกอิน การชำระเงิน) Operator จะขอ takeover เพื่อให้ผู้ใช้กรอกข้อมูลเอง
    • การยืนยันก่อนการกระทำสำคัญ: ก่อนทำงานสำคัญ เช่น ส่งคำสั่งซื้อหรือส่งอีเมล จะมีการขออนุมัติจากผู้ใช้ก่อน
    • การจำกัดงาน: Operator ถูกฝึกให้ปฏิเสธงานที่มีความอ่อนไหวสูง เช่น ธุรกรรมธนาคารหรือการตัดสินใจเกี่ยวกับการจ้างงาน
    • เมื่อเข้าถึงเว็บไซต์ที่อ่อนไหว ผู้ใช้สามารถติดตามการทำงานของ Operator ได้โดยตรงผ่านโหมด Watch
  • มีฟีเจอร์สำหรับจัดการความเป็นส่วนตัวของข้อมูล
    • หากปิด ‘Improve the model for everyone’ ข้อมูลของ Operator ก็จะไม่ถูกนำไปใช้ฝึกโมเดลเช่นกัน
    • ในส่วน Privacy ของการตั้งค่า สามารถลบข้อมูลการท่องเว็บ ออกจากระบบทุกเว็บไซต์ และลบประวัติการสนทนาได้อย่างสะดวก
  • มีระบบป้องกันเพื่อคุ้มครอง Operator จากเว็บไซต์ที่เป็นอันตราย
    • ออกแบบมาให้ตรวจจับและเพิกเฉยต่อ hidden prompt, โค้ดอันตราย และความพยายามฟิชชิง
    • มีโมเดลมอนิเตอร์เฉพาะคอยเฝ้าระวังพฤติกรรมที่น่าสงสัยแบบเรียลไทม์ และสามารถหยุดงานได้เมื่อจำเป็น
    • ใช้ทั้งระบบอัตโนมัติและการตรวจสอบโดยมนุษย์เพื่ออัปเดตมาตรการป้องกันอย่างรวดเร็วเมื่อพบภัยคุกคามใหม่
  • เพื่อป้องกันการนำเทคโนโลยีไปใช้ในทางที่เป็นอันตราย Operator จะปฏิเสธคำขอบางประเภท และหากมีการละเมิดนโยบายซ้ำ ๆ อาจมีการเตือนหรือระงับการเข้าถึง
  • เนื่องจากยังอยู่ในขั้น research preview จึงยังไม่สมบูรณ์ และมีแผนปรับปรุงอย่างต่อเนื่องจากฟีดแบ็กการใช้งานจริง

ข้อจำกัด

  • Operator ยังอยู่ในระยะเริ่มต้นในปัจจุบัน และอาจมีความยากลำบากกับงานบนอินเทอร์เฟซที่ซับซ้อน เช่น การสร้างสไลด์โชว์หรือการจัดการปฏิทิน
  • ฟีดแบ็กจากผู้ใช้จะถูกใช้เป็นทรัพยากรสำคัญในการปรับปรุงความแม่นยำ เสถียรภาพ และความปลอดภัย

แผนในอนาคต

  • มีแผนเปิด API ของ CUA เพื่อวางรากฐานให้นักพัฒนาสามารถสร้างเอเจนต์ของตนเองได้
  • จะยกระดับความสามารถของ Operator ในการจัดการงานระยะยาวและเวิร์กโฟลว์ที่ซับซ้อน
  • จะค่อย ๆ ขยายการใช้งานจากผู้ใช้ Pro ไปยัง Plus, Team, Enterprise และในระยะยาวจะผสานความสามารถนี้เข้ากับ ChatGPT เพื่อรองรับการทำงานทั้งแบบเรียลไทม์และอะซิงโครนัส

1 ความคิดเห็น

 
GN⁺ 2025-01-24
ความคิดเห็นจาก Hacker News
  • หลายคนมองว่าบริษัทอย่าง OpenAI ไม่ได้ทุ่มเงินเพื่อให้บริการผู้ช่วยส่วนตัวแก่ผู้ใช้ แต่กำลังฝึก AI เพื่อลดต้นทุนแรงงานในภายหลัง

    • พอถึงเวลาที่ AI จะมีประโยชน์ในฐานะผู้ช่วยส่วนตัว ฟีเจอร์นั้นก็น่าจะถูกเปิดตัวในราคาที่คนทั่วไปจ่ายไม่ไหว
  • ความเห็นต่อการเปิดตัว OpenAI Operator มีทั้งด้านบวกและลบ

    • มีทั้งมุมมองที่สงสัยต่อความสามารถปัจจุบัน ค่าใช้จ่าย และความเสี่ยงของการขยายตัวเกินจริง ขณะเดียวกันก็มีมุมมองเชิงบวกต่อการทำงานอัตโนมัติและโอกาสที่จะพัฒนาดีขึ้นเมื่อเวลาผ่านไป
    • มีการพูดคุยถึงประเด็นด้านจริยธรรม ความเป็นส่วนตัว และผลกระทบต่ออุตสาหกรรมด้วย
    • โดยรวมแล้วเป็นการมองโลกในแง่ดีอย่างระมัดระวัง พร้อมยอมรับทั้งความท้าทายและโอกาสในการปรับปรุง
  • Operator คล้ายกับเดโม Computer Use ของ Claude เมื่อไม่กี่เดือนก่อน และมีแนวทางสถาปัตยกรรมที่ต้องรัน VM รวมถึงมีแนวโน้มจะทำงานไม่แม่นยำ

    • การใช้งาน Computer Use ของ Claude ไม่ได้สร้างแรงกระเพื่อมครั้งใหญ่ในอุตสาหกรรม AI agent หลังจากการประกาศ
  • ในสไลด์เกี่ยวกับความเสี่ยงด้านความปลอดภัยและการบรรเทาของ Operator มีวลีว่า "ผู้ใช้มีการจัดแนวไม่ตรง"

    • มีความเห็นว่าอยากเห็นตัวอย่างเพิ่มเติมว่า OpenAI มองผู้ใช้แบบไหนว่า "มีการจัดแนวไม่ตรง"
  • มีความเห็นเชิงวิจารณ์ต่อการทุ่มเงิน 5 หมื่นล้านดอลลาร์กับงานอย่างการสร้างมีม

    • พร้อมแสดงความเสียดายที่ไม่ได้นำเงินไปลงทุนเพื่อทำให้โลกน่าอยู่ขึ้นสำหรับคนรุ่นถัดไป
  • CogAgent: ทางเลือกโอเพนซอร์สจากจีน

    • มีลิงก์ไปยังงานวิจัย โค้ด และโมเดล
  • มีความคาดหวังว่าในอนาคต เมื่อผลิตภัณฑ์และโมเดลพัฒนาดีขึ้นมากแล้ว เราจะสามารถคุยกับ ChatGPT เพื่อจัดการงานน่าเบื่อบนเว็บอย่างการจองมื้อเย็น จองตั๋วเครื่องบิน และซื้อของชำได้

    • หลายคนตั้งตารอฟีเจอร์ลักษณะนี้มาก
  • มีความเห็นว่าบริษัทอย่าง Instacart หรือ Doordash อาจเปิดทางสู่ทิศทาง UI แบบใหม่ผ่านการทำการตลาดที่ปรับให้เหมาะกับ LLM

    • ตัวอย่างเช่น ถ้าได้รับคำสั่งให้หาไข่ที่มีคุณค่าทางโภชนาการ เอเจนต์ก็อาจอ้างอิงฉลากโภชนาการเพื่อตัดสินใจได้
  • มีความเห็นว่าการที่ "เอเจนต์" ใช้เมาส์และคีย์บอร์ดพร้อมมองพิกเซลนั้นดูแปลก

    • มีการจินตนาการถึงมาตรฐานที่แอปและบริการเปิดเผยชุดงานที่ได้รับการอนุมัติล่วงหน้า ซึ่งสามารถทำแทนผู้ใช้ได้
    • มีการเสนอแนวคิด "แอปสโตร์" ที่สามารถเพิ่มหรือถอนสิทธิ์ของผู้ใช้ได้
  • มีความเชื่ออย่างแรงกล้าว่าจำเป็นต้องใช้ Open APIs สำหรับเอเจนต์

    • โดยให้เหตุผลว่า OpenAPI เป็นมาตรฐานสเปกที่สมบูรณ์แบบสำหรับการทำให้เกิดโลกแบบเปิดและอินเทอร์เน็ตสำหรับเอเจนต์
    • ตอนที่ OpenAI เปิดตัว GPT ครั้งแรกนั้นยืนอยู่บนพื้นฐานของ Open APIs แต่กำลังค่อยๆ ห่างออกไปมากขึ้น
    • เรื่องนี้ดูเหมือนเป็นความตั้งใจที่จะควบคุมตลาด และไม่ต้องการยืนอยู่บนมาตรฐานแบบเปิด
    • นี่เป็นเรื่องที่น่าเสียดายมาก