OpenAI เปิดตัวบริการเอเจนต์ "Operator"

(openai.com)

6 คะแนน โดย GN⁺ 2025-01-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เปิดตัว Operator ซึ่งเป็น AI agent ที่สามารถท่องเว็บและทำงานได้อย่างอิสระ
- ใช้เบราว์เซอร์ของตัวเองเพื่อดูหน้าเว็บและโต้ตอบผ่านการพิมพ์ คลิก และเลื่อนหน้าจอ
ขณะนี้ยังอยู่ในขั้น research preview จึงยังมีข้อจำกัด และมีแผนพัฒนาต่อผ่านฟีดแบ็กจากผู้ใช้
เป็นหนึ่งในเอเจนต์รุ่นแรก ๆ ที่เป็น AI ซึ่งสามารถทำงานได้อย่างอิสระ โดยเมื่อผู้ใช้สั่งงานก็จะดำเนินการให้
ช่วยประหยัดเวลาด้วยการจัดการงานบนเบราว์เซอร์ที่ทำซ้ำ ๆ (เช่น กรอกฟอร์ม สั่งซื้อของชำ ทำมีม เป็นต้น)
เปิดให้ผู้ใช้ Pro ที่อาศัยอยู่ในสหรัฐฯ ใช้งานก่อน และในอนาคตอาจขยายไปยัง Plus, Team, Enterprise รวมถึงอาจผสานเข้ากับ ChatGPT

วิธีการทำงานของ Operator

ทำงานบนพื้นฐานของโมเดลใหม่ชื่อ Computer-Using Agent (CUA)
ผสานความสามารถด้านการมองเห็นของ GPT-4o เข้ากับการให้เหตุผลขั้นสูงที่อิง reinforcement learning เพื่อให้สามารถโต้ตอบกับ GUI (ปุ่ม เมนู ช่องข้อความ ฯลฯ) ได้
สามารถ “มอง” หน้าจอเบราว์เซอร์ผ่านภาพหน้าจอ และใช้เมาส์กับคีย์บอร์ดควบคุมเพื่อทำงานได้
หากพบข้อผิดพลาดหรืออุปสรรคระหว่างงาน จะใช้การให้เหตุผลแบบแก้ไขตนเอง หรือหากจำเป็นจะส่งต่อการควบคุมให้ผู้ใช้ในรูปแบบการทำงานร่วมกัน
แสดงประสิทธิภาพสูงในเบนช์มาร์กการใช้งานเบราว์เซอร์ เช่น WebArena และ WebVoyager โดยดูรายละเอียดเพิ่มเติมได้ในบล็อกงานวิจัย

วิธีใช้งาน

เพียงอธิบายงานที่ต้องการแบบสั้น ๆ แล้ว Operator จะดำเนินงานนั้นให้อัตโนมัติ
ผู้ใช้สามารถดึงสิทธิ์ควบคุมเบราว์เซอร์กลับมาจัดการเองได้ทุกเมื่อระหว่างทาง
ในขั้นตอนที่อ่อนไหว เช่น การล็อกอิน การกรอกข้อมูลการชำระเงิน หรือการแก้ CAPTCHA ผู้ใช้ต้องเป็นผู้ดำเนินการเอง โดย Operator จะไม่ทำแทน
สามารถตั้งค่ารายเว็บไซต์หรือทั้งระบบเพื่อสะท้อนรสนิยมและความชอบของผู้ใช้ได้
บันทึกพรอมป์ต์ที่ใช้บ่อยไว้ได้ เพื่อให้เรียกใช้งานที่ทำซ้ำประจำ (เช่น สั่งซื้อของชำซ้ำบน Instacart) ได้อย่างรวดเร็ว
สามารถทำหลายงานพร้อมกันได้เหมือนเปิดหลายแท็บ และแยกเซสชันสนทนาเพื่อทำงานต่างกันไปพร้อมกันได้

อีโคซิสเต็มและผู้ใช้

Operator พัฒนา AI จากการเป็นเพียงเครื่องมือ ไปสู่การเป็นผู้มีส่วนร่วมเชิงรุกในระบบนิเวศดิจิทัล
กำลังร่วมมือกับ DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack และ Uber เพื่อสะท้อนความต้องการจริงของผู้ใช้และมาตรฐานอุตสาหกรรม
ภาครัฐเองก็อยู่ระหว่างพิจารณาความเป็นไปได้ในการนำไปใช้เพื่อเพิ่มประสิทธิภาพการทำงานและการเข้าถึงบริการ โดยยกตัวอย่างการหารือกับ City of Stockton เกี่ยวกับการประยุกต์ใช้ในบริการภาครัฐของเมือง
Daniel Danker, Chief Product Officer ของ Instacart กล่าวในเชิงบวกต่อกระบวนการสั่งซื้อที่ทำได้ง่ายผ่าน Operator

ความปลอดภัยและความเป็นส่วนตัว

Operator ให้ความสำคัญกับความปลอดภัยเป็นอันดับแรก โดยมีมาตรการป้องกัน 3 ชั้น
- การควบคุมโดยผู้ใช้: เมื่อต้องกรอกข้อมูลอ่อนไหว (เช่น ล็อกอิน การชำระเงิน) Operator จะขอ takeover เพื่อให้ผู้ใช้กรอกข้อมูลเอง
- การยืนยันก่อนการกระทำสำคัญ: ก่อนทำงานสำคัญ เช่น ส่งคำสั่งซื้อหรือส่งอีเมล จะมีการขออนุมัติจากผู้ใช้ก่อน
- การจำกัดงาน: Operator ถูกฝึกให้ปฏิเสธงานที่มีความอ่อนไหวสูง เช่น ธุรกรรมธนาคารหรือการตัดสินใจเกี่ยวกับการจ้างงาน
- เมื่อเข้าถึงเว็บไซต์ที่อ่อนไหว ผู้ใช้สามารถติดตามการทำงานของ Operator ได้โดยตรงผ่านโหมด Watch
มีฟีเจอร์สำหรับจัดการความเป็นส่วนตัวของข้อมูล
- หากปิด ‘Improve the model for everyone’ ข้อมูลของ Operator ก็จะไม่ถูกนำไปใช้ฝึกโมเดลเช่นกัน
- ในส่วน Privacy ของการตั้งค่า สามารถลบข้อมูลการท่องเว็บ ออกจากระบบทุกเว็บไซต์ และลบประวัติการสนทนาได้อย่างสะดวก
โฆษณา
มีระบบป้องกันเพื่อคุ้มครอง Operator จากเว็บไซต์ที่เป็นอันตราย
- ออกแบบมาให้ตรวจจับและเพิกเฉยต่อ hidden prompt, โค้ดอันตราย และความพยายามฟิชชิง
- มีโมเดลมอนิเตอร์เฉพาะคอยเฝ้าระวังพฤติกรรมที่น่าสงสัยแบบเรียลไทม์ และสามารถหยุดงานได้เมื่อจำเป็น
- ใช้ทั้งระบบอัตโนมัติและการตรวจสอบโดยมนุษย์เพื่ออัปเดตมาตรการป้องกันอย่างรวดเร็วเมื่อพบภัยคุกคามใหม่
เพื่อป้องกันการนำเทคโนโลยีไปใช้ในทางที่เป็นอันตราย Operator จะปฏิเสธคำขอบางประเภท และหากมีการละเมิดนโยบายซ้ำ ๆ อาจมีการเตือนหรือระงับการเข้าถึง
เนื่องจากยังอยู่ในขั้น research preview จึงยังไม่สมบูรณ์ และมีแผนปรับปรุงอย่างต่อเนื่องจากฟีดแบ็กการใช้งานจริง

ข้อจำกัด

Operator ยังอยู่ในระยะเริ่มต้นในปัจจุบัน และอาจมีความยากลำบากกับงานบนอินเทอร์เฟซที่ซับซ้อน เช่น การสร้างสไลด์โชว์หรือการจัดการปฏิทิน
ฟีดแบ็กจากผู้ใช้จะถูกใช้เป็นทรัพยากรสำคัญในการปรับปรุงความแม่นยำ เสถียรภาพ และความปลอดภัย

แผนในอนาคต

มีแผนเปิด API ของ CUA เพื่อวางรากฐานให้นักพัฒนาสามารถสร้างเอเจนต์ของตนเองได้
จะยกระดับความสามารถของ Operator ในการจัดการงานระยะยาวและเวิร์กโฟลว์ที่ซับซ้อน
จะค่อย ๆ ขยายการใช้งานจากผู้ใช้ Pro ไปยัง Plus, Team, Enterprise และในระยะยาวจะผสานความสามารถนี้เข้ากับ ChatGPT เพื่อรองรับการทำงานทั้งแบบเรียลไทม์และอะซิงโครนัส

1 ความคิดเห็น

GN⁺ 2025-01-24

ความคิดเห็นจาก Hacker News

หลายคนมองว่าบริษัทอย่าง OpenAI ไม่ได้ทุ่มเงินเพื่อให้บริการผู้ช่วยส่วนตัวแก่ผู้ใช้ แต่กำลังฝึก AI เพื่อลดต้นทุนแรงงานในภายหลัง
- พอถึงเวลาที่ AI จะมีประโยชน์ในฐานะผู้ช่วยส่วนตัว ฟีเจอร์นั้นก็น่าจะถูกเปิดตัวในราคาที่คนทั่วไปจ่ายไม่ไหว
ความเห็นต่อการเปิดตัว OpenAI Operator มีทั้งด้านบวกและลบ
- มีทั้งมุมมองที่สงสัยต่อความสามารถปัจจุบัน ค่าใช้จ่าย และความเสี่ยงของการขยายตัวเกินจริง ขณะเดียวกันก็มีมุมมองเชิงบวกต่อการทำงานอัตโนมัติและโอกาสที่จะพัฒนาดีขึ้นเมื่อเวลาผ่านไป
- มีการพูดคุยถึงประเด็นด้านจริยธรรม ความเป็นส่วนตัว และผลกระทบต่ออุตสาหกรรมด้วย
- โดยรวมแล้วเป็นการมองโลกในแง่ดีอย่างระมัดระวัง พร้อมยอมรับทั้งความท้าทายและโอกาสในการปรับปรุง
Operator คล้ายกับเดโม Computer Use ของ Claude เมื่อไม่กี่เดือนก่อน และมีแนวทางสถาปัตยกรรมที่ต้องรัน VM รวมถึงมีแนวโน้มจะทำงานไม่แม่นยำ
- การใช้งาน Computer Use ของ Claude ไม่ได้สร้างแรงกระเพื่อมครั้งใหญ่ในอุตสาหกรรม AI agent หลังจากการประกาศ
ในสไลด์เกี่ยวกับความเสี่ยงด้านความปลอดภัยและการบรรเทาของ Operator มีวลีว่า "ผู้ใช้มีการจัดแนวไม่ตรง"
- มีความเห็นว่าอยากเห็นตัวอย่างเพิ่มเติมว่า OpenAI มองผู้ใช้แบบไหนว่า "มีการจัดแนวไม่ตรง"
มีความเห็นเชิงวิจารณ์ต่อการทุ่มเงิน 5 หมื่นล้านดอลลาร์กับงานอย่างการสร้างมีม
- พร้อมแสดงความเสียดายที่ไม่ได้นำเงินไปลงทุนเพื่อทำให้โลกน่าอยู่ขึ้นสำหรับคนรุ่นถัดไป
CogAgent: ทางเลือกโอเพนซอร์สจากจีน
- มีลิงก์ไปยังงานวิจัย โค้ด และโมเดล
มีความคาดหวังว่าในอนาคต เมื่อผลิตภัณฑ์และโมเดลพัฒนาดีขึ้นมากแล้ว เราจะสามารถคุยกับ ChatGPT เพื่อจัดการงานน่าเบื่อบนเว็บอย่างการจองมื้อเย็น จองตั๋วเครื่องบิน และซื้อของชำได้
- หลายคนตั้งตารอฟีเจอร์ลักษณะนี้มาก
มีความเห็นว่าบริษัทอย่าง Instacart หรือ Doordash อาจเปิดทางสู่ทิศทาง UI แบบใหม่ผ่านการทำการตลาดที่ปรับให้เหมาะกับ LLM
- ตัวอย่างเช่น ถ้าได้รับคำสั่งให้หาไข่ที่มีคุณค่าทางโภชนาการ เอเจนต์ก็อาจอ้างอิงฉลากโภชนาการเพื่อตัดสินใจได้
มีความเห็นว่าการที่ "เอเจนต์" ใช้เมาส์และคีย์บอร์ดพร้อมมองพิกเซลนั้นดูแปลก
- มีการจินตนาการถึงมาตรฐานที่แอปและบริการเปิดเผยชุดงานที่ได้รับการอนุมัติล่วงหน้า ซึ่งสามารถทำแทนผู้ใช้ได้
- มีการเสนอแนวคิด "แอปสโตร์" ที่สามารถเพิ่มหรือถอนสิทธิ์ของผู้ใช้ได้
มีความเชื่ออย่างแรงกล้าว่าจำเป็นต้องใช้ Open APIs สำหรับเอเจนต์
- โดยให้เหตุผลว่า OpenAPI เป็นมาตรฐานสเปกที่สมบูรณ์แบบสำหรับการทำให้เกิดโลกแบบเปิดและอินเทอร์เน็ตสำหรับเอเจนต์
- ตอนที่ OpenAI เปิดตัว GPT ครั้งแรกนั้นยืนอยู่บนพื้นฐานของ Open APIs แต่กำลังค่อยๆ ห่างออกไปมากขึ้น
- เรื่องนี้ดูเหมือนเป็นความตั้งใจที่จะควบคุมตลาด และไม่ต้องการยืนอยู่บนมาตรฐานแบบเปิด
- นี่เป็นเรื่องที่น่าเสียดายมาก

OpenAI เปิดตัวบริการเอเจนต์ "Operator"

วิธีการทำงานของ Operator

วิธีใช้งาน

อีโคซิสเต็มและผู้ใช้

ความปลอดภัยและความเป็นส่วนตัว

ข้อจำกัด

แผนในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News