- ChatGPT Agent ใช้คอมพิวเตอร์เสมือนของตัวเองเพื่อจัดการงานที่ซับซ้อนของผู้ใช้ได้ตั้งแต่ต้นจนจบ
- สร้างระบบเอเจนต์แบบใหม่ที่ผสานความสามารถในการโต้ตอบกับเว็บไซต์ของ Operator เข้ากับประสิทธิภาพการวิเคราะห์ข้อมูลของ Deep Research ทำให้สามารถคลิก กรอกข้อมูล และรันโค้ดได้อย่างยืดหยุ่น
- ผู้ใช้สามารถสั่งให้เอเจนต์ ดำเนินงานแทน เช่น ส่งแบบฟอร์ม จองบริการ หรือสร้างไฟล์ และสามารถเข้ามาแทรกแซงได้ทุกเมื่อ
- พิสูจน์ประสิทธิภาพที่เหนือกว่ารุ่นก่อนหน้าบนเบนช์มาร์กการใช้งานจริงหลายรายการ เช่น SpreadsheetBench, DSBench, BrowseComp
- ผู้ใช้ Pro, Plus และ Team ใช้งานได้ตั้งแต่วันนี้ พร้อม ระบบควบคุมข้อมูลผู้ใช้และฟีเจอร์ด้านความปลอดภัยที่ออกแบบมาอย่างรัดกุม
ChatGPT Agent เชื่อมการวิจัยเข้ากับการลงมือทำ
การเปิดตัวความสามารถแบบเอเจนต์
- ChatGPT ได้ขยายความสามารถให้ ทำงานที่ซับซ้อนแทนผู้ใช้ ได้ผ่านคอมพิวเตอร์เสมือนของตัวเอง
- ChatGPT Agent รวมความสามารถของ Operator (การโต้ตอบผ่านเบราว์เซอร์ระยะไกล) และ Deep Research (เครื่องมือให้เหตุผลหลายขั้นตอนบนเว็บ) เข้าเป็นโมเดลเอเจนต์หนึ่งเดียว
- Operator เด่นด้านการจัดการบนเว็บ เช่น เลื่อนหน้า คลิก และกรอกฟอร์ม แต่ยังมีข้อจำกัดด้านการวิเคราะห์เชิงลึกหรือการเขียนรายงาน
- ขณะที่ Deep Research เชี่ยวชาญด้านการวิเคราะห์และสรุปผล แต่ไม่สามารถโต้ตอบกับเว็บไซต์แบบเรียลไทม์หรือเข้าถึงเนื้อหาที่ต้องยืนยันตัวตนได้
- การรวมจุดแข็งที่เสริมกันของทั้งสองเครื่องมือช่วยให้ คลิก คัดกรอง และเก็บข้อมูล ได้อย่างมีประสิทธิภาพสูงในสภาพแวดล้อมเดียว
- สามารถสลับระหว่างการสนทนาและคำขอภายในอินเทอร์เฟซแชตได้อย่างยืดหยุ่น
- ตัวอย่าง:
- “วิเคราะห์คู่แข่งสามรายแล้วทำสไลด์โชว์ให้หน่อย”
- “สรุปการประชุมครั้งถัดไปจากข่าวล่าสุดให้หน่อย”
วิธีการทำงานและการโต้ตอบ
- ChatGPT Agent มาพร้อมเครื่องมือเข้าถึงเว็บหลายแบบ เช่น เบราว์เซอร์ภาพแบบ GUI, เบราว์เซอร์แบบข้อความ และ การเชื่อมต่อ API โดยตรง
- เมื่อระบบทำงาน จะผสมผสานเบราว์เซอร์, API และการให้เหตุผลจากข้อความตามความเหมาะสม เพื่อ เลือกเส้นทางที่เหมาะสมที่สุดแบบไดนามิก
- ทำงานแบบครบวงจรได้ตั้งแต่การคลิกเว็บไซต์ การกรอง การแนะนำขั้นตอนล็อกอิน การรันโค้ด การสรุปผล ไปจนถึงการสร้างสไลด์
- ผู้ใช้สามารถเข้ามาแทรกแซงระหว่างงานได้ทุกเมื่อ และสามารถรับช่วงควบคุมเบราว์เซอร์ได้โดยตรง
- สามารถเพิ่มคำสั่ง เปลี่ยนทิศทางงาน หยุดงาน และขอผลลัพธ์ปัจจุบันได้ทุกเมื่อ
- งานที่กำลังทำสามารถหยุดแล้วเริ่มใหม่ได้ตลอดเวลา และยังคงความต่อเนื่องด้วย การแชร์คอนเท็กซ์
- หากมีความไม่แน่ชัด ChatGPT จะ ขอข้อมูลเพิ่มเติมเชิงรุก
- สามารถเข้าถึงข้อมูลขององค์กรหรือข้อมูลส่วนบุคคลได้อย่างปลอดภัยผ่านขั้นตอนการยืนยันตัวตนของผู้ใช้
ผลลัพธ์ที่โดดเด่นและกรณีการใช้งาน
- ทำคะแนนได้ยอดเยี่ยมบนเบนช์มาร์กที่ได้รับการยอมรับ เมื่อเทียบกับโมเดลเดิม
- Humanity’s Last Exam: ทำได้ 43.1 คะแนนในคำถามระดับผู้เชี่ยวชาญ
- DSBench: เหนือกว่าโมเดลเดิมอย่างชัดเจนในงานด้านวิทยาศาสตร์ข้อมูล
- SpreadsheetBench:
- ในการแก้ไขสเปรดชีต
.xlsx โดยตรง ทำได้ 45.5% สูงกว่า GPT‑4o (13.38%) และ Excel Copilot (20%) อย่างมาก
- WebArena: เหนือกว่าโมเดล Operator รุ่นก่อนในงานโต้ตอบเว็บจริง
- BrowseComp: ทำสถิติสูงสุดที่ 68.9 คะแนนในความสามารถเก็บรวบรวมข้อมูลบนเว็บที่ค้นหาได้ยาก
- ให้ผลลัพธ์ที่แม่นยำและครอบคลุมกว่ารุ่นก่อนในงานของนักวิเคราะห์วาณิชธนกิจและการวิเคราะห์ข้อมูลที่ซับซ้อน
- ใช้งานได้จริงสูงทั้งในงานและชีวิตประจำวัน
- งาน:
- สร้างงานนำเสนออัตโนมัติ
- ปรับตารางนัดหมายการประชุม
- อัปเดตสเปรดชีตจากข้อมูลการเงิน
- ชีวิตประจำวัน:
- วางแผนและจองทริปเดินทาง
- วางแผนอีเวนต์และเชื่อมต่อกับผู้เชี่ยวชาญเพื่อขอคำปรึกษา
การเปิดใช้งาน กรณีใช้งาน และข้อจำกัด
- หลังเลือก ‘โหมดเอเจนต์’ เพียงพิมพ์อธิบายงานเป็นภาษาเกาหลีหรือภาษาอังกฤษ ระบบจะเริ่มทำงานให้อัตโนมัติ
- มี คำบรรยายบนหน้าจอ ระหว่างกระบวนการ และสามารถสลับเป็นการควบคุมด้วยตนเองได้เมื่อจำเป็น
- มีระบบเครดิตที่ยืดหยุ่นสำหรับการตั้งเวลางานซ้ำอัตโนมัติและการจำกัดจำนวนงานรายเดือน
- ผู้ใช้ Operator/Deep Research เดิมจะใช้งานชั่วคราวได้ไม่เกิน 30 วันก่อนถูกรวมเปลี่ยนไปเป็น Agent
- ฟีเจอร์ใหม่บางส่วน เช่น การสร้างสไลด์โชว์ ยังอยู่ในสถานะ เบต้า และคุณภาพรวมถึงความสมบูรณ์ของผลลัพธ์จะได้รับการปรับปรุงต่อไป
ความปลอดภัย ความเป็นส่วนตัว และการป้องกันพฤติกรรมไม่พึงประสงค์
- ก่อนดำเนินงานที่ส่งผลต่อโลกจริง ระบบจะต้อง ยืนยันตัวผู้ใช้ตามชื่อ และขออนุญาตสำหรับการกระทำก่อนเสมอ
- งานอ่อนไหวที่ต้องการ การกำกับดูแลเชิงรุก จะต้องได้รับการอนุมัติเป็นขั้นตอน และระบบจะปฏิเสธธุรกรรมความเสี่ยงสูงกับการโต้ตอบทางกฎหมาย
- มีการออกแบบระบบตรวจจับและป้องกันการโจมตีจากบุคคลที่สาม เช่น prompt injection โดยหากสถานการณ์ไม่ชัดเจน ระบบจะแจ้งความเสี่ยงและเสนอทางเลือก ก่อนทำงานหลังผู้ใช้ยืนยันขั้นสุดท้าย
- เพื่อป้องกันการใช้ผิดวัตถุประสงค์ ได้บังคับใช้ นโยบายความปลอดภัย ของ ChatGPT อย่างเข้มข้นยิ่งขึ้น และใช้ข้อกำหนดการใช้งานกับนโยบายของ OpenAI อย่างเคร่งครัด
- เพื่อเสริมการคุ้มครองข้อมูลส่วนบุคคล ข้อมูลจากเบราว์เซอร์ระยะไกลจะไม่ถูกเก็บไว้บนเซิร์ฟเวอร์ของบริษัท
- ข้อมูลการท่องเว็บและสิทธิ์ควบคุมเซสชันเป็นของผู้ใช้ทั้งหมด และสามารถลบหรือออกจากระบบได้ทันที
- ใน โหมดควบคุมโดยตรง ChatGPT จะไม่สามารถเห็นข้อมูลอินพุตส่วนบุคคลได้
การเปิดให้ใช้งาน นโยบาย และคำแนะนำการใช้งาน
- ผู้สมัครสมาชิก Pro, Plus และ Team ใช้งานได้ทันที และมีแผนขยายไปยังผู้ใช้ภาคธุรกิจ/การศึกษาในเดือนกรกฎาคม
- Pro ใช้งานได้เกือบไม่จำกัด ส่วนแพ็กเกจอื่นใช้ได้เดือนละ 50 ครั้ง พร้อมระบบคำนวณเครดิตเพิ่มเติม
- สามารถเชื่อมต่อเวิร์กโฟลว์และคอนเนกเตอร์ของผู้ใช้แต่ละรายเพื่อใช้งานได้หลากหลาย เช่น สรุปข้อมูลแบบอ่านอย่างเดียว และวิเคราะห์ตารางเวลา
- Operator Research Preview จะสิ้นสุดในอีก 30 วัน ส่วน Deep Research ยังสามารถเปิดใช้แยกได้เมื่อจำเป็น
- ChatGPT Agent ยังอยู่ระหว่างการปรับปรุงอย่างต่อเนื่อง และคาดว่าความฉลาดของเวิร์กโฟลว์เชิงลึกที่ยืดหยุ่นรวมถึงคุณภาพของผลลัพธ์จะดีขึ้นอย่างค่อยเป็นค่อยไป
ฟีเจอร์สไลด์โชว์และทิศทางในอนาคต
- การสร้างสไลด์โชว์ยังอยู่ในขั้น เบต้า และหากไม่มีเอกสารเดิมประกอบ ความสมบูรณ์และรูปแบบอาจยังไม่ดีนัก
- องค์ประกอบอย่างข้อความ กราฟ และรูปภาพ ถูกจัดเป็นเวกเตอร์ที่แก้ไขได้ง่าย เพื่อเพิ่มโครงสร้างและความยืดหยุ่น
- ฟีเจอร์อัปโหลดใช้งานได้กับสเปรดชีต แต่สำหรับสไลด์โชว์จะเปิดให้ใช้ในภายหลัง
- ในอนาคตคาดว่าจะรองรับฟีเจอร์และรูปแบบที่หลากหลายขึ้น พร้อมผลลัพธ์ที่ขัดเกลามากขึ้น เพื่อเพิ่ม ความสามารถด้านอัตโนมัติ
การเปรียบเทียบประสิทธิภาพและเกณฑ์อื่น ๆ
| โมเดล |
ระดับเซลล์ |
ระดับชีต |
คะแนนรวม |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPT Agent |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| มนุษย์ |
75.56% |
65.00% |
71.33% |
- จากตารางเบนช์มาร์ก แม้ ChatGPT Agent ในสภาพแวดล้อม
.xlsx และการประเมินบน LibreOffice จะยังไม่ถึงระดับมนุษย์ แต่ก็อยู่ในระดับที่เหนือกว่าโมเดล AI อื่นอย่างชัดเจน
- เนื่องจากความแตกต่างของสภาพแวดล้อมการประเมิน ตัวเลขบางส่วนอาจมีความคลาดเคลื่อน และผลการประเมินโดยรวมจากโจทย์สเปรดชีตทั้งหมด 912 ข้อก็แสดงให้เห็นถึงความสามารถรอบด้าน
1 ความคิดเห็น
ความเห็นบน Hacker News
คิดว่าวิดีโอตัวอย่าง "สเปรดชีต" น่าสนใจดี ปกติการทำรายงานที่ซับซ้อนและมีข้อมูลเยอะใช้เวลา 4~8 ชั่วโมง แต่ตอนนี้แค่สั่งเอเจนต์แล้วออกไปเดินเล่น พอกลับมาก็ได้ข้อมูลแล้ว เขาบอกว่าถูกต้อง 98% และแค่คัดลอก/วางอีกไม่กี่จุดก็เสร็จ คิดว่าช่วยประหยัดเวลาได้ 90~95% แต่ก็รู้สึกว่าเวลาจริงอาจไปหมดกับการหาข้อผิดพลาด 2% นั้น โดยเฉพาะงานซับซ้อนหรืองานที่เกี่ยวกับเงิน คำว่า "เกือบถูก" อาจกลายเป็นปัญหาใหญ่มาก ถ้าความผิดพลาดเล็กๆ 2% นั้นซ่อนอยู่ในหลายขั้นตอนก็ยิ่งอันตรายมาก
ภัยคุกคามด้านความปลอดภัยนี่น่ากลัวจริงๆ เช่นถ้าให้สิทธิ์เข้าถึงอีเมลกับปฏิทิน มันก็จะรู้ความลับทั้งหมดของผม บทความเองก็ยอมรับความเสี่ยงเรื่อง prompt injection ถ้าเว็บอันตรายซ่อนพรอมป์ตไว้ในองค์ประกอบที่มองไม่เห็นหรือ metadata แล้วเอเจนต์ตรวจไม่พบ ข้อมูลส่วนตัวก็อาจรั่วไปถึงผู้โจมตีได้ เว็บไม่หวังดีอาจขโมยความลับของผมไปได้เลย สิ่งหนึ่งที่สงสัยคือในบทความบอกว่าจะต้องให้ผู้ใช้ยืนยันก่อนทำ "การกระทำสำคัญ" แต่ AI จะตัดสินได้ยังไงว่าอะไรคือ "การกระทำสำคัญ" เลยกังวลว่าอาจมีการจ่ายเงินโดยไม่ขออนุญาตผู้ใช้เพราะพลาดก็ได้ไหม
งานวิจัยเกี่ยวกับ Agentic misalignment
เขาวิเคราะห์ว่ามันอาจทำงานในลักษณะคล้ายภัยคุกคามจากคนในองค์กร คือเพื่อนร่วมงานที่เคยน่าเชื่อถือแล้วจู่ๆ ก็เริ่มทำตรงข้ามกับนโยบายบริษัท
อาจเพราะผมกำลังสร้างธุรกิจเอเจนต์เอง เลยเห็นชัดมากว่าการกระโดดจาก 90% ไป 99% ในสาย LLM เป็นปัญหา last mile ที่ยากมาก ยิ่งพยายามทำให้ใช้ได้ทั่วไป ความล้มเหลวและความผิดหวังก็ยิ่งมาก ความจริงคือเขามักปรับแต่งแค่ส่วนที่ดูง่ายในเดโม แล้วซ่อนความจริงที่ไม่สวยงามไว้ แต่นั่นไม่ได้แปลว่าเอเจนต์ไม่มีคุณค่า แค่ต้องแยกให้ออกระหว่างศักยภาพที่แท้จริงกับความคาดหวังเกินจริง
แต่ผมคิดว่า "เอเจนต์" เป็นแค่คำทางการตลาด และยังขาดฐานรองรับที่ใช้ได้กว้างแบบเดียวกับ LLM แทบไม่มีข้อมูลรองรับด้วย
ก่อนหน้านี้ปัญหาใหญ่ของ CLI agent คือรักษาเซสชันต่อเนื่องไม่ได้ แต่ครั้งนี้ดูเหมือนจะแก้ได้ดี แต่ก่อนเวลารัน Claude Code บนเทอร์มินัลโลคัลก็ใส่บริบทที่ต้องการได้ง่าย แต่พอปิดฝาโน้ตบุ๊กหรือเน็ตหลุด ทุกอย่างก็หยุดหมด
วิธีแก้ขัดคือใช้ Amphetamine บน MacOS เพื่อให้ปิดฝาเครื่องแล้วโปรเซสยังวิ่งต่อได้ แต่ก็มีปัญหาเครื่องร้อนกับเปลืองแบต อีกวิธีคือโคลน repo ไว้บน cloud instance แล้วเข้า tmux เพื่อรัน Claude ได้เหมือนกัน แต่ปัญหา UX เรื่องดึงบริบทก็ยังอยู่เสมอ ด้วย sandboxing ก็พอคาดหวังความปลอดภัยได้ระดับหนึ่ง และยังมีวิธีให้มันรันภายใต้สิทธิ์ของบัญชีเฉพาะได้ด้วย
น่าสนใจที่ OpenAI ดูเหมือนกำลังคิดเรื่อง Agent UX สำหรับคนที่ไม่ใช่นักพัฒนาด้วย
ผมใช้ OpenAI operator มานาน แต่ช่วงนี้โดนบล็อกโดย LinkedIn กับ Amazon สองเว็บนั้นเป็น use case หลักเลย ทั้งสมัครงานและช้อปปิ้ง Operator ใช้งานค่อนข้างไม่สะดุดตา แต่พอ Agent เริ่มดังขึ้นก็น่าจะมีเว็บอีกเยอะที่บล็อก สุดท้ายคงต้องรองรับการตั้งค่า proxy
agenttutor.com
จากการคาดการณ์ของทีม AI 2027: กลางปี 2025 จะมี ‘เอเจนต์ที่ยังเดินเซ’ ปรากฏตัว เอเจนต์ AI ตัวแรกจะถูกเปิดสู่สาธารณะ
โฆษณาเอเจนต์ผู้ช่วยส่วนตัวที่ใช้คอมพิวเตอร์แทนเราจะออกมาจำนวนมาก โดยเน้นพรอมป์ตอย่าง "สั่ง burrito ผ่าน DoorDash ให้หน่อย" หรือ "บอกยอดรวมเดือนนี้ในสเปรดชีตงบประมาณให้ที" แม้จะพัฒนากว่า operator รุ่นก่อน แต่ก็ถูกคาดว่าจะยังยากต่อการแพร่หลายสู่มวลชน
ฟังก์ชันง่ายๆ ที่ผมอยากได้จริงๆ อย่างการแก้ไขเอกสารภายในโปรเจกต์ ก็ยังไม่มี ผมทำงานเอกสารหลายแบบแยกตามโปรเจกต์ ทั้งบทความ งานวิจัย สคริปต์ ฯลฯ และอยากทำงานต่อแบบให้ ChatGPT ช่วยทีละประโยคได้ แม้แต่ตอนเดินเล่นก็ยังนึกภาพการทำงานเสียงกับเอกสารแบบ "ตอนนี้เอกสารที่เพิ่งทำค้างไว้ถึงไหนแล้ว? อ่านสองย่อหน้าสุดท้ายให้ฟังหน่อย... จากตรงนี้ผมจะขอเขียนต่อให้ยาวขึ้นอีกนิด" การช่วยเขียนโค้ดพัฒนาเร็วมาก แต่การเขียนงานทั่วไปยังติดอยู่กับการคัดลอกวางเป็นหลัก ซึ่งน่าเสียดาย
มีความพยายามให้ LLM ใช้ VPS มาหลายครั้ง แต่รอบนี้ของ OpenAI รู้สึกว่า UI แข็งแรงมาก ทั้ง text overlay, เมาส์ที่อ่านง่าย, และ UI แบบปรับแต่ง ทำให้ผู้ใช้เข้าใจได้ทันทีว่ามันกำลังทำอะไรและทำไปทำไม ผมคิดว่าทีม UI ของ OpenAI ทำงานวางแผนเก่งมาก น่าสนใจที่เขาเพิ่มข้อมูลเชิงภาพแบบใหม่ให้กับวิธีใช้ LLM และผมเองก็อยากเอาบางส่วนไปอ้างอิงกับโปรเจกต์ส่วนตัว
ในแง่ฟังก์ชัน ผมยังไม่รู้สึกว่าต่างจาก Claude+XFCE มาก แต่ในแง่ความสมบูรณ์ของงานภาพ OpenAI ใช้งานสบายกว่าจริง ส่วนของเดิมๆ นั้นอ่านยากมาก
ยังจินตนาการไม่ออกว่าเอเจนต์ระดับตอนนี้จะเข้ามามีประโยชน์จริงในชีวิตประจำวันผมได้อย่างไร ถ้าจะวางแผนเดตไนต์กับภรรยา ต้องทำหลายอย่างให้ถูกจริงๆ ทั้งเช็กปฏิทิน แนะนำร้านที่ชอบ จองพี่เลี้ยงเด็ก ฯลฯ และทั้งหมดนั้นต้องอาศัยความเชื่อใจสูง ผมตื่นเต้นที่เทคโนโลยีนี้กำลังพัฒนาเรื่อยๆ แต่ตอนนี้ยังรู้สึกว่าดูดีแค่ในเดโม การนำไปใช้จริงต้องอาศัยการเชื่อมระบบจำนวนมาก และถ้าเป็น Apple หรือ Microsoft ที่มีพลังการผสานระบบแบบนั้น ก็น่าจะสร้างเอเจนต์ที่มีประโยชน์จริงได้
งานอย่างจัดปาร์ตี้วันเกิดให้ลูกสาวคงไม่ใช่สิ่งที่จะถูกแก้ได้ก่อนปัญหาคณิตศาสตร์ยากๆ หรอก
สำหรับผม โมเดลแบบ "ทำให้เสร็จในช็อตเดียว" ของเอเจนต์กลับเป็น UX ที่ผิด แก่นจริงๆ ที่ทำให้มันเข้าไปอยู่ในชีวิตคือไม่ใช่การให้มันวิ่งวนหลายแอป แต่เป็นการคุยกันแบบเรียบง่ายและอะซิงก์ ให้ช่วยเฉพาะส่วนที่จำเป็นทีละนิดเหมือนแชตมากกว่า
สิ่งที่น่าประทับใจจริงๆ คือเขาเน้นย้ำความเสี่ยงอย่างมากเมื่อเปิดให้เข้าถึงข้อมูลบัญชีจริงและข้อมูลอ่อนไหว