3 คะแนน โดย GN⁺ 2025-07-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ChatGPT Agent ใช้คอมพิวเตอร์เสมือนของตัวเองเพื่อจัดการงานที่ซับซ้อนของผู้ใช้ได้ตั้งแต่ต้นจนจบ
  • สร้างระบบเอเจนต์แบบใหม่ที่ผสานความสามารถในการโต้ตอบกับเว็บไซต์ของ Operator เข้ากับประสิทธิภาพการวิเคราะห์ข้อมูลของ Deep Research ทำให้สามารถคลิก กรอกข้อมูล และรันโค้ดได้อย่างยืดหยุ่น
  • ผู้ใช้สามารถสั่งให้เอเจนต์ ดำเนินงานแทน เช่น ส่งแบบฟอร์ม จองบริการ หรือสร้างไฟล์ และสามารถเข้ามาแทรกแซงได้ทุกเมื่อ
  • พิสูจน์ประสิทธิภาพที่เหนือกว่ารุ่นก่อนหน้าบนเบนช์มาร์กการใช้งานจริงหลายรายการ เช่น SpreadsheetBench, DSBench, BrowseComp
  • ผู้ใช้ Pro, Plus และ Team ใช้งานได้ตั้งแต่วันนี้ พร้อม ระบบควบคุมข้อมูลผู้ใช้และฟีเจอร์ด้านความปลอดภัยที่ออกแบบมาอย่างรัดกุม

ChatGPT Agent เชื่อมการวิจัยเข้ากับการลงมือทำ

การเปิดตัวความสามารถแบบเอเจนต์

  • ChatGPT ได้ขยายความสามารถให้ ทำงานที่ซับซ้อนแทนผู้ใช้ ได้ผ่านคอมพิวเตอร์เสมือนของตัวเอง
  • ChatGPT Agent รวมความสามารถของ Operator (การโต้ตอบผ่านเบราว์เซอร์ระยะไกล) และ Deep Research (เครื่องมือให้เหตุผลหลายขั้นตอนบนเว็บ) เข้าเป็นโมเดลเอเจนต์หนึ่งเดียว
    • Operator เด่นด้านการจัดการบนเว็บ เช่น เลื่อนหน้า คลิก และกรอกฟอร์ม แต่ยังมีข้อจำกัดด้านการวิเคราะห์เชิงลึกหรือการเขียนรายงาน
    • ขณะที่ Deep Research เชี่ยวชาญด้านการวิเคราะห์และสรุปผล แต่ไม่สามารถโต้ตอบกับเว็บไซต์แบบเรียลไทม์หรือเข้าถึงเนื้อหาที่ต้องยืนยันตัวตนได้
  • การรวมจุดแข็งที่เสริมกันของทั้งสองเครื่องมือช่วยให้ คลิก คัดกรอง และเก็บข้อมูล ได้อย่างมีประสิทธิภาพสูงในสภาพแวดล้อมเดียว
  • สามารถสลับระหว่างการสนทนาและคำขอภายในอินเทอร์เฟซแชตได้อย่างยืดหยุ่น
  • ตัวอย่าง:
    • “วิเคราะห์คู่แข่งสามรายแล้วทำสไลด์โชว์ให้หน่อย”
    • “สรุปการประชุมครั้งถัดไปจากข่าวล่าสุดให้หน่อย”

วิธีการทำงานและการโต้ตอบ

  • ChatGPT Agent มาพร้อมเครื่องมือเข้าถึงเว็บหลายแบบ เช่น เบราว์เซอร์ภาพแบบ GUI, เบราว์เซอร์แบบข้อความ และ การเชื่อมต่อ API โดยตรง
  • เมื่อระบบทำงาน จะผสมผสานเบราว์เซอร์, API และการให้เหตุผลจากข้อความตามความเหมาะสม เพื่อ เลือกเส้นทางที่เหมาะสมที่สุดแบบไดนามิก
  • ทำงานแบบครบวงจรได้ตั้งแต่การคลิกเว็บไซต์ การกรอง การแนะนำขั้นตอนล็อกอิน การรันโค้ด การสรุปผล ไปจนถึงการสร้างสไลด์
  • ผู้ใช้สามารถเข้ามาแทรกแซงระหว่างงานได้ทุกเมื่อ และสามารถรับช่วงควบคุมเบราว์เซอร์ได้โดยตรง
    • สามารถเพิ่มคำสั่ง เปลี่ยนทิศทางงาน หยุดงาน และขอผลลัพธ์ปัจจุบันได้ทุกเมื่อ
    • งานที่กำลังทำสามารถหยุดแล้วเริ่มใหม่ได้ตลอดเวลา และยังคงความต่อเนื่องด้วย การแชร์คอนเท็กซ์
    • หากมีความไม่แน่ชัด ChatGPT จะ ขอข้อมูลเพิ่มเติมเชิงรุก
  • สามารถเข้าถึงข้อมูลขององค์กรหรือข้อมูลส่วนบุคคลได้อย่างปลอดภัยผ่านขั้นตอนการยืนยันตัวตนของผู้ใช้

ผลลัพธ์ที่โดดเด่นและกรณีการใช้งาน

  • ทำคะแนนได้ยอดเยี่ยมบนเบนช์มาร์กที่ได้รับการยอมรับ เมื่อเทียบกับโมเดลเดิม
    • Humanity’s Last Exam: ทำได้ 43.1 คะแนนในคำถามระดับผู้เชี่ยวชาญ
    • DSBench: เหนือกว่าโมเดลเดิมอย่างชัดเจนในงานด้านวิทยาศาสตร์ข้อมูล
    • SpreadsheetBench:
      • ในการแก้ไขสเปรดชีต .xlsx โดยตรง ทำได้ 45.5% สูงกว่า GPT‑4o (13.38%) และ Excel Copilot (20%) อย่างมาก
    • WebArena: เหนือกว่าโมเดล Operator รุ่นก่อนในงานโต้ตอบเว็บจริง
    • BrowseComp: ทำสถิติสูงสุดที่ 68.9 คะแนนในความสามารถเก็บรวบรวมข้อมูลบนเว็บที่ค้นหาได้ยาก
  • ให้ผลลัพธ์ที่แม่นยำและครอบคลุมกว่ารุ่นก่อนในงานของนักวิเคราะห์วาณิชธนกิจและการวิเคราะห์ข้อมูลที่ซับซ้อน
  • ใช้งานได้จริงสูงทั้งในงานและชีวิตประจำวัน
    • งาน:
      • สร้างงานนำเสนออัตโนมัติ
      • ปรับตารางนัดหมายการประชุม
      • อัปเดตสเปรดชีตจากข้อมูลการเงิน
    • ชีวิตประจำวัน:
      • วางแผนและจองทริปเดินทาง
      • วางแผนอีเวนต์และเชื่อมต่อกับผู้เชี่ยวชาญเพื่อขอคำปรึกษา

การเปิดใช้งาน กรณีใช้งาน และข้อจำกัด

  • หลังเลือก ‘โหมดเอเจนต์’ เพียงพิมพ์อธิบายงานเป็นภาษาเกาหลีหรือภาษาอังกฤษ ระบบจะเริ่มทำงานให้อัตโนมัติ
  • มี คำบรรยายบนหน้าจอ ระหว่างกระบวนการ และสามารถสลับเป็นการควบคุมด้วยตนเองได้เมื่อจำเป็น
  • มีระบบเครดิตที่ยืดหยุ่นสำหรับการตั้งเวลางานซ้ำอัตโนมัติและการจำกัดจำนวนงานรายเดือน
  • ผู้ใช้ Operator/Deep Research เดิมจะใช้งานชั่วคราวได้ไม่เกิน 30 วันก่อนถูกรวมเปลี่ยนไปเป็น Agent
  • ฟีเจอร์ใหม่บางส่วน เช่น การสร้างสไลด์โชว์ ยังอยู่ในสถานะ เบต้า และคุณภาพรวมถึงความสมบูรณ์ของผลลัพธ์จะได้รับการปรับปรุงต่อไป

ความปลอดภัย ความเป็นส่วนตัว และการป้องกันพฤติกรรมไม่พึงประสงค์

  • ก่อนดำเนินงานที่ส่งผลต่อโลกจริง ระบบจะต้อง ยืนยันตัวผู้ใช้ตามชื่อ และขออนุญาตสำหรับการกระทำก่อนเสมอ
  • งานอ่อนไหวที่ต้องการ การกำกับดูแลเชิงรุก จะต้องได้รับการอนุมัติเป็นขั้นตอน และระบบจะปฏิเสธธุรกรรมความเสี่ยงสูงกับการโต้ตอบทางกฎหมาย
  • มีการออกแบบระบบตรวจจับและป้องกันการโจมตีจากบุคคลที่สาม เช่น prompt injection โดยหากสถานการณ์ไม่ชัดเจน ระบบจะแจ้งความเสี่ยงและเสนอทางเลือก ก่อนทำงานหลังผู้ใช้ยืนยันขั้นสุดท้าย
  • เพื่อป้องกันการใช้ผิดวัตถุประสงค์ ได้บังคับใช้ นโยบายความปลอดภัย ของ ChatGPT อย่างเข้มข้นยิ่งขึ้น และใช้ข้อกำหนดการใช้งานกับนโยบายของ OpenAI อย่างเคร่งครัด
  • เพื่อเสริมการคุ้มครองข้อมูลส่วนบุคคล ข้อมูลจากเบราว์เซอร์ระยะไกลจะไม่ถูกเก็บไว้บนเซิร์ฟเวอร์ของบริษัท
  • ข้อมูลการท่องเว็บและสิทธิ์ควบคุมเซสชันเป็นของผู้ใช้ทั้งหมด และสามารถลบหรือออกจากระบบได้ทันที
  • ใน โหมดควบคุมโดยตรง ChatGPT จะไม่สามารถเห็นข้อมูลอินพุตส่วนบุคคลได้

การเปิดให้ใช้งาน นโยบาย และคำแนะนำการใช้งาน

  • ผู้สมัครสมาชิก Pro, Plus และ Team ใช้งานได้ทันที และมีแผนขยายไปยังผู้ใช้ภาคธุรกิจ/การศึกษาในเดือนกรกฎาคม
  • Pro ใช้งานได้เกือบไม่จำกัด ส่วนแพ็กเกจอื่นใช้ได้เดือนละ 50 ครั้ง พร้อมระบบคำนวณเครดิตเพิ่มเติม
  • สามารถเชื่อมต่อเวิร์กโฟลว์และคอนเนกเตอร์ของผู้ใช้แต่ละรายเพื่อใช้งานได้หลากหลาย เช่น สรุปข้อมูลแบบอ่านอย่างเดียว และวิเคราะห์ตารางเวลา
  • Operator Research Preview จะสิ้นสุดในอีก 30 วัน ส่วน Deep Research ยังสามารถเปิดใช้แยกได้เมื่อจำเป็น
  • ChatGPT Agent ยังอยู่ระหว่างการปรับปรุงอย่างต่อเนื่อง และคาดว่าความฉลาดของเวิร์กโฟลว์เชิงลึกที่ยืดหยุ่นรวมถึงคุณภาพของผลลัพธ์จะดีขึ้นอย่างค่อยเป็นค่อยไป

ฟีเจอร์สไลด์โชว์และทิศทางในอนาคต

  • การสร้างสไลด์โชว์ยังอยู่ในขั้น เบต้า และหากไม่มีเอกสารเดิมประกอบ ความสมบูรณ์และรูปแบบอาจยังไม่ดีนัก
  • องค์ประกอบอย่างข้อความ กราฟ และรูปภาพ ถูกจัดเป็นเวกเตอร์ที่แก้ไขได้ง่าย เพื่อเพิ่มโครงสร้างและความยืดหยุ่น
  • ฟีเจอร์อัปโหลดใช้งานได้กับสเปรดชีต แต่สำหรับสไลด์โชว์จะเปิดให้ใช้ในภายหลัง
  • ในอนาคตคาดว่าจะรองรับฟีเจอร์และรูปแบบที่หลากหลายขึ้น พร้อมผลลัพธ์ที่ขัดเกลามากขึ้น เพื่อเพิ่ม ความสามารถด้านอัตโนมัติ

การเปรียบเทียบประสิทธิภาพและเกณฑ์อื่น ๆ

โมเดล ระดับเซลล์ ระดับชีต คะแนนรวม
GPT‑4o 15.86% 18.33% 16.81%
OpenAI o3 22.40% 24.60% 23.25%
ChatGPT Agent 38.27% 30.48% 35.27%
ChatGPT (.xlsx) 50.56% 37.51% 45.54%
มนุษย์ 75.56% 65.00% 71.33%
  • จากตารางเบนช์มาร์ก แม้ ChatGPT Agent ในสภาพแวดล้อม .xlsx และการประเมินบน LibreOffice จะยังไม่ถึงระดับมนุษย์ แต่ก็อยู่ในระดับที่เหนือกว่าโมเดล AI อื่นอย่างชัดเจน
  • เนื่องจากความแตกต่างของสภาพแวดล้อมการประเมิน ตัวเลขบางส่วนอาจมีความคลาดเคลื่อน และผลการประเมินโดยรวมจากโจทย์สเปรดชีตทั้งหมด 912 ข้อก็แสดงให้เห็นถึงความสามารถรอบด้าน

1 ความคิดเห็น

 
GN⁺ 2025-07-18
ความเห็นบน Hacker News
  • คิดว่าวิดีโอตัวอย่าง "สเปรดชีต" น่าสนใจดี ปกติการทำรายงานที่ซับซ้อนและมีข้อมูลเยอะใช้เวลา 4~8 ชั่วโมง แต่ตอนนี้แค่สั่งเอเจนต์แล้วออกไปเดินเล่น พอกลับมาก็ได้ข้อมูลแล้ว เขาบอกว่าถูกต้อง 98% และแค่คัดลอก/วางอีกไม่กี่จุดก็เสร็จ คิดว่าช่วยประหยัดเวลาได้ 90~95% แต่ก็รู้สึกว่าเวลาจริงอาจไปหมดกับการหาข้อผิดพลาด 2% นั้น โดยเฉพาะงานซับซ้อนหรืองานที่เกี่ยวกับเงิน คำว่า "เกือบถูก" อาจกลายเป็นปัญหาใหญ่มาก ถ้าความผิดพลาดเล็กๆ 2% นั้นซ่อนอยู่ในหลายขั้นตอนก็ยิ่งอันตรายมาก

    • คิดว่านี่แหละคือตัวอย่างของการติดกับดักความคาดหวังเกินจริงต่อ AI การทำข้อมูลให้เก็บรวบรวมและตรวจสอบอัตโนมัติเป็นการใช้งานที่ดี แต่ตอนนี้หลายคนกำลังคิดไกลไปถึงขั้นให้ AI ทำทุกอย่างแทนทั้งหมด พอได้ยินว่าแม่น 98% คนที่มีประสบการณ์กับสเปรดชีตควรระวัง เพราะเราไม่รู้เลยว่า 2% ที่ผิดคือส่วนไหน จนกว่าจะตรวจเองทั้งหมด โค้ดก็เหมือนกัน คนที่ใช้ AI ช่วยอย่างพอดีและตรวจงานเองจะได้ผลลัพธ์ดีกว่า ส่วนแนวทางที่เอาแต่ไล่แก้พรอมป์ตให้เทสต์ผ่านแล้วส่ง PR ทันที ผมว่าก่อปัญหาร้ายแรงได้
    • วิธีคิดที่มองว่า 2% นั้นเล็กน้อยในโลก AI มันแทบเหมือนการสะกดจิตหมู่ เช่นอุปมาแบบ 'กดปุ่ม: 1 ดอลลาร์, รู้ว่าต้องกดปุ่มไหน: 9,999 ดอลลาร์' การแก้ 2% นี้จริงๆ อาจมีมูลค่าสูงมาก และเวลาที่ใช้ค้นหาก็อาจเท่ากับ 98% ที่เหลือเลย
    • คิดว่าในปรากฏการณ์แบบนี้กฎพาเรโตทำงานอยู่ แม้แต่รถยนต์ไร้คนขับซึ่งเป็นสาขาใกล้เคียงกันก็ยังข้ามด่าน 20% สุดท้ายมาไม่ได้มาหลายปีแล้ว ช่วงหนึ่งเรื่องรถไร้คนขับเคยเป็นศูนย์กลางของทุกการถกเถียง แต่ตอนนี้แทบไม่มีใครพูดถึงแล้ว ซึ่งก็น่าแปลกดี
    • นี่เป็นปัญหาเดียวกันเวลาใช้ LLM กับงานที่ต้องการความละเอียดแม่นยำ อย่าง data pipeline ที่มีหลายขั้นตอน ภายนอกดูเหมือนสมบูรณ์แบบ แต่พอเอาข้อมูลจริงมาตรวจกลับพบว่ามีอะไรเพี้ยน สุดท้ายก็ต้องมุดลงไปในโค้ดยาวๆ เพื่อหาจุดผิดเล็กๆ แต่สำคัญไม่กี่จุด ซึ่งใช้เวลาและแรงพอๆ กับเขียนใหม่ตั้งแต่แรก
  • ภัยคุกคามด้านความปลอดภัยนี่น่ากลัวจริงๆ เช่นถ้าให้สิทธิ์เข้าถึงอีเมลกับปฏิทิน มันก็จะรู้ความลับทั้งหมดของผม บทความเองก็ยอมรับความเสี่ยงเรื่อง prompt injection ถ้าเว็บอันตรายซ่อนพรอมป์ตไว้ในองค์ประกอบที่มองไม่เห็นหรือ metadata แล้วเอเจนต์ตรวจไม่พบ ข้อมูลส่วนตัวก็อาจรั่วไปถึงผู้โจมตีได้ เว็บไม่หวังดีอาจขโมยความลับของผมไปได้เลย สิ่งหนึ่งที่สงสัยคือในบทความบอกว่าจะต้องให้ผู้ใช้ยืนยันก่อนทำ "การกระทำสำคัญ" แต่ AI จะตัดสินได้ยังไงว่าอะไรคือ "การกระทำสำคัญ" เลยกังวลว่าอาจมีการจ่ายเงินโดยไม่ขออนุญาตผู้ใช้เพราะพลาดก็ได้ไหม

    • คิดว่าการโจมตีแบบ prompt injection ผ่านคำเชิญปฏิทินน่าจะมาแน่ๆ คำเชิญปฏิทินทุกวันนี้มีข้อความอัตโนมัติเยอะอยู่แล้ว และแทบไม่มีใครอ่านหมด จึงแอบแทรกโค้ดโจมตีได้ง่ายมาก จากนั้นก็อาจยึดทั้งปฏิทินของเหยื่อและข้อมูลส่วนตัวอื่นๆ ไปได้ทั้งหมด
    • ตอนนี้ในวงการ IT ก็มีคนจำนวนมากที่แยกการประมวลผลเป็น private-public อยู่แล้ว แต่ต่อไปคงต้องมีชั้นกลางด้วย เช่นแบ่งเป็นข้อมูลเสี่ยงระดับกลางอย่างปฏิทินที่ทำให้ไม่ระบุตัวตน, ไดอารี่ที่ไม่กังวล, บันทึกวิจัย เป็นต้น ผมเองไม่ใช้ ChatGPT กับเรื่องการแพทย์หรือคำปรึกษาอ่อนไหว แม้จะได้ยินว่าหลายคนใช้กัน แต่ผมยังรู้สึกไม่สบายใจ
    • แทบทุกคนสามารถส่งคำเชิญเข้าปฏิทินคนอื่นได้อยู่แล้ว (แน่นอนว่าไม่ใช่ทุกคนจะกดรับ) ถ้าเอเจนต์แบบนี้แพร่หลาย แฮ็กเกอร์ก็คงส่งคำเชิญฟิชชิงที่บรรจุพรอมป์ตตรงตามต้องการมาเป็นชุดแน่
    • ผมนึกภาพไม่ออกว่าจะให้สิทธิ์เข้าถึงข้อมูลของตัวเองไปพร้อมกับรู้สึกว่า "น่ากลัว" ได้ยังไง กังวลได้ แต่ถึงขั้นกลัวคงไม่ใช่
    • Anthropic วัดได้ว่า GPT-4.1 มีอัตรา simulated blackmail 0.8%
      งานวิจัยเกี่ยวกับ Agentic misalignment
      เขาวิเคราะห์ว่ามันอาจทำงานในลักษณะคล้ายภัยคุกคามจากคนในองค์กร คือเพื่อนร่วมงานที่เคยน่าเชื่อถือแล้วจู่ๆ ก็เริ่มทำตรงข้ามกับนโยบายบริษัท
  • อาจเพราะผมกำลังสร้างธุรกิจเอเจนต์เอง เลยเห็นชัดมากว่าการกระโดดจาก 90% ไป 99% ในสาย LLM เป็นปัญหา last mile ที่ยากมาก ยิ่งพยายามทำให้ใช้ได้ทั่วไป ความล้มเหลวและความผิดหวังก็ยิ่งมาก ความจริงคือเขามักปรับแต่งแค่ส่วนที่ดูง่ายในเดโม แล้วซ่อนความจริงที่ไม่สวยงามไว้ แต่นั่นไม่ได้แปลว่าเอเจนต์ไม่มีคุณค่า แค่ต้องแยกให้ออกระหว่างศักยภาพที่แท้จริงกับความคาดหวังเกินจริง

    • "นวัตกรรม" AI ช่วงหลังๆ ล้วนมีรากฐานจากผลงานวิทยาศาสตร์และงานวิจัยที่แข็งแรง
      • AlphaGo/AlphaZero(MCTS)
      • OpenAI Five(PPO)
      • GPT 1/2/3(Transformers)
      • Dall-e, Stable Diffusion(CLIP, Diffusion)
      • ChatGPT(RLHF)
      • SORA(Diffusion Transformers)
        แต่ผมคิดว่า "เอเจนต์" เป็นแค่คำทางการตลาด และยังขาดฐานรองรับที่ใช้ได้กว้างแบบเดียวกับ LLM แทบไม่มีข้อมูลรองรับด้วย
    • รู้สึกว่ามันมีปัญหาแบบเดียวกับการเอาต์ซอร์ส คือ 90% แรกเสร็จเร็ว แต่ 10% ที่เหลือยากมาก และขึ้นอยู่กับว่า 90% แรกถูกทำมาอย่างไร
    • คิดว่าหลายบริษัทโชว์แต่ happy path ในเดโม แล้วซ่อนสภาพจริงไว้ แทบทุกบริษัท AI ตอนนี้เป็นแบบนั้น
    • ช่วงนี้ผมคิดว่าถ้าใช้ RL ฝึกจากข้อมูลการใช้งานจริงให้มากพอ ก็พอจะเพิ่มความแม่นยำได้ การพึ่งพรอมป์ตอย่างเดียวมีข้อจำกัด ถ้าสอนเป็นงานเฉพาะจะดีขึ้นมาก อีกแนวทางที่พอมีหวังคือสร้างหลายคำตอบแบบขนานแล้วตัดสินด้วยเสียงข้างมาก หรือให้ LLM อีกตัวเป็นกรรมการ แต่สุดท้ายแล้วในซิลิคอนแวลลีย์ hype ยังสำคัญมาก เพราะมันเป็นแรงขับให้บริษัทเติบโต ดังนั้นบรรยากาศแบบนี้คงไม่เปลี่ยนง่ายๆ
    • คุณภาพเดโมเองก็ไม่ได้ดีมากด้วย ซ้ำในวิดีโอแชตไลฟ์ที่ Sam Altman เข้าร่วมจริง ตัววางแผนทัวร์สนามเบสบอลยังลากเส้นมั่วๆ จนไม่สนชายฝั่งตะวันออกเลยแล้วกระโดดลงอ่าวเม็กซิโกแบบงงๆ ทั้งที่เป็นวิดีโออัดไว้ล่วงหน้าแต่เอามาเปิดเป็นไลฟ์ คุณภาพยังได้แค่นี้
  • ก่อนหน้านี้ปัญหาใหญ่ของ CLI agent คือรักษาเซสชันต่อเนื่องไม่ได้ แต่ครั้งนี้ดูเหมือนจะแก้ได้ดี แต่ก่อนเวลารัน Claude Code บนเทอร์มินัลโลคัลก็ใส่บริบทที่ต้องการได้ง่าย แต่พอปิดฝาโน้ตบุ๊กหรือเน็ตหลุด ทุกอย่างก็หยุดหมด
    วิธีแก้ขัดคือใช้ Amphetamine บน MacOS เพื่อให้ปิดฝาเครื่องแล้วโปรเซสยังวิ่งต่อได้ แต่ก็มีปัญหาเครื่องร้อนกับเปลืองแบต อีกวิธีคือโคลน repo ไว้บน cloud instance แล้วเข้า tmux เพื่อรัน Claude ได้เหมือนกัน แต่ปัญหา UX เรื่องดึงบริบทก็ยังอยู่เสมอ ด้วย sandboxing ก็พอคาดหวังความปลอดภัยได้ระดับหนึ่ง และยังมีวิธีให้มันรันภายใต้สิทธิ์ของบัญชีเฉพาะได้ด้วย
    น่าสนใจที่ OpenAI ดูเหมือนกำลังคิดเรื่อง Agent UX สำหรับคนที่ไม่ใช่นักพัฒนาด้วย

    • ที่ Lightning.ai มี dev box ฟรีแบบ CPU-only เลยเอาไว้รัน Claude Code ที่นั่น
    • ผมกำลังรันงานที่ใช้เวลาต่อเนื่องหลายนาทีโดยไม่ต้องมีการแทรกแซงระหว่างทาง
    • เอาจริงๆ ทำงาน dev บนเซิร์ฟเวอร์ที่ไม่หลุดไปเลยน่าจะดีกว่า
  • ผมใช้ OpenAI operator มานาน แต่ช่วงนี้โดนบล็อกโดย LinkedIn กับ Amazon สองเว็บนั้นเป็น use case หลักเลย ทั้งสมัครงานและช้อปปิ้ง Operator ใช้งานค่อนข้างไม่สะดุดตา แต่พอ Agent เริ่มดังขึ้นก็น่าจะมีเว็บอีกเยอะที่บล็อก สุดท้ายคงต้องรองรับการตั้งค่า proxy

    • คิดว่านี่คือปัญหาหลักจริงๆ ผมเคยนึกว่าจะมีวิธีให้รันบนเครื่องเราเอง หรืออย่างน้อยก็ให้ตั้งค่า proxy ได้ แต่กลับไม่มีการพูดถึงเลย ประสบการณ์กับ Deepseek R1 distill ก็น่าจะมีผล เพราะตอนนั้นยังระมัดระวังกับการเปิดเผยผลลัพธ์กลางทางหรือเคล็ดลับต่างๆ มาก ตอน operator รุ่นแรกๆ ก็มีเว็บจำนวนมากที่บล็อกการเข้าถึงจาก IP ของดาต้าเซ็นเตอร์อยู่แล้ว ผมเคยต่อ proxy แบบแฮ็กๆ เพื่อทดสอบได้แบบลำบากมาก แต่สุดท้ายข้อจำกัดก็ยิ่งหนักขึ้น และประสิทธิภาพก็ไม่ดีขึ้น ตอนนี้เลยรู้สึกว่าแทบไม่มีประโยชน์แล้ว สุดท้ายถ้าไม่ไปจับมือกับที่อย่าง eastdakota การพยายามทำเว็บบราวซ์จากเซิร์ฟเวอร์โดยตรงก็คงไม่มีความหมายมากนัก การ "ใช้คอมพิวเตอร์" แบบทั่วไปส่วนใหญ่สะดวกกว่ามากถ้าเป็นไฟล์หรือซอฟต์แวร์บนเครื่อง และมันก็ชวนขำที่งานของ remote agent สุดท้ายกลับไปลงเอยที่ CLI เป็นหลักอยู่ดี
    • นี่เป็นกลยุทธ์แบบซิลิคอนแวลลีย์ คือปล่อยลงตลาดก่อนแล้วค่อยดูผลกระทบตามมา ผมคาดว่าอีกไม่นาน OpenAI จะจับมือกับ LinkedIn และ Amazon เสียทีเดียว บางที LinkedIn อาจถึงขั้นเพิ่ม paid tier ใหม่สำหรับการเข้าผ่าน OpenAI ก็ได้
    • ถ้าคนเริ่มสั่งของจริงผ่าน Agent หรือ operator กันมากขึ้น ผมคิดว่าเว็บอย่าง Amazon ก็คงไม่มีเหตุผลจะบล็อกต่อไป
    • ผมเคยพัฒนาเครื่องมือคล้ายกัน โดยรันเดสก์ท็อปผ่าน residential proxy ซึ่งช่วยหลบได้เกือบหมด
      agenttutor.com
    • นิสัยที่ agents ยังเคารพ robots.txt อยู่คงจะหมดลงในไม่ช้า ผู้ใช้น่าจะหันไปใช้ browser extension หรือทั้งเบราว์เซอร์เต็มรูปแบบที่ทำงานด้วยคุกกี้และ IP ของตัวเองแทน
  • จากการคาดการณ์ของทีม AI 2027: กลางปี 2025 จะมี ‘เอเจนต์ที่ยังเดินเซ’ ปรากฏตัว เอเจนต์ AI ตัวแรกจะถูกเปิดสู่สาธารณะ
    โฆษณาเอเจนต์ผู้ช่วยส่วนตัวที่ใช้คอมพิวเตอร์แทนเราจะออกมาจำนวนมาก โดยเน้นพรอมป์ตอย่าง "สั่ง burrito ผ่าน DoorDash ให้หน่อย" หรือ "บอกยอดรวมเดือนนี้ในสเปรดชีตงบประมาณให้ที" แม้จะพัฒนากว่า operator รุ่นก่อน แต่ก็ถูกคาดว่าจะยังยากต่อการแพร่หลายสู่มวลชน

    • การทำนายล่วงหน้าแค่ 4 เดือนก็ไม่ได้วิเศษอะไรนัก
    • แก่นของ AI 2027 คือการคาดการณ์การเร่งตัวแบบเอ็กซ์โปเนนเชียลของการเติบโตทางเทคโนโลยี ผมมองว่า "เอเจนต์" คือการเอาเทคโนโลยี OpenAI ที่มีอยู่แล้วมาจัดใหม่เป็นฟรอนต์เอนด์แบบใหม่ คงต้องรอถึงต้นปี 2026 ถึงจะประเมินได้จริง
    • ตอนเขียนรายงาน มันก็เป็นเรื่องเปิดเผยอยู่แล้วว่าบริษัทใหญ่ๆ กำลังพัฒนาผลิตภัณฑ์ agent กันอยู่ จึงออกจะเป็นการคาดการณ์ระดับสามัญสำนึกมากกว่าจะนับว่าแหวกแนว
  • ฟังก์ชันง่ายๆ ที่ผมอยากได้จริงๆ อย่างการแก้ไขเอกสารภายในโปรเจกต์ ก็ยังไม่มี ผมทำงานเอกสารหลายแบบแยกตามโปรเจกต์ ทั้งบทความ งานวิจัย สคริปต์ ฯลฯ และอยากทำงานต่อแบบให้ ChatGPT ช่วยทีละประโยคได้ แม้แต่ตอนเดินเล่นก็ยังนึกภาพการทำงานเสียงกับเอกสารแบบ "ตอนนี้เอกสารที่เพิ่งทำค้างไว้ถึงไหนแล้ว? อ่านสองย่อหน้าสุดท้ายให้ฟังหน่อย... จากตรงนี้ผมจะขอเขียนต่อให้ยาวขึ้นอีกนิด" การช่วยเขียนโค้ดพัฒนาเร็วมาก แต่การเขียนงานทั่วไปยังติดอยู่กับการคัดลอกวางเป็นหลัก ซึ่งน่าเสียดาย

    • หลายครั้งการต้องคอยคัดลอกลงคลิปบอร์ดมันน่ารำคาญ จนบางทีแค่จะเปิด ChatGPT ยังรู้สึกยุ่งยาก เลยลังเลที่จะใช้ ยิ่งชินกับ workflow แบบ NLE หรือปลั๊กอินและงาน timecode แล้ว ก็ยิ่งรู้สึกว่ามันตัดตอนการทำงาน
    • Aider กลับทำงานแบบนี้กับโมเดลฟรีได้มานานแล้ว แต่บริการใหญ่ๆ ยังไม่มีให้ แม้แบบเสียเงินก็ตาม ผมเคยคิดจะสร้างบริการเอง แต่ก็ลังเลว่าบริษัทใหญ่คงออกมาทำในไม่ช้า สุดท้ายจะเสียแรงเปล่าเลยปล่อยไป
  • มีความพยายามให้ LLM ใช้ VPS มาหลายครั้ง แต่รอบนี้ของ OpenAI รู้สึกว่า UI แข็งแรงมาก ทั้ง text overlay, เมาส์ที่อ่านง่าย, และ UI แบบปรับแต่ง ทำให้ผู้ใช้เข้าใจได้ทันทีว่ามันกำลังทำอะไรและทำไปทำไม ผมคิดว่าทีม UI ของ OpenAI ทำงานวางแผนเก่งมาก น่าสนใจที่เขาเพิ่มข้อมูลเชิงภาพแบบใหม่ให้กับวิธีใช้ LLM และผมเองก็อยากเอาบางส่วนไปอ้างอิงกับโปรเจกต์ส่วนตัว
    ในแง่ฟังก์ชัน ผมยังไม่รู้สึกว่าต่างจาก Claude+XFCE มาก แต่ในแง่ความสมบูรณ์ของงานภาพ OpenAI ใช้งานสบายกว่าจริง ส่วนของเดิมๆ นั้นอ่านยากมาก

  • ยังจินตนาการไม่ออกว่าเอเจนต์ระดับตอนนี้จะเข้ามามีประโยชน์จริงในชีวิตประจำวันผมได้อย่างไร ถ้าจะวางแผนเดตไนต์กับภรรยา ต้องทำหลายอย่างให้ถูกจริงๆ ทั้งเช็กปฏิทิน แนะนำร้านที่ชอบ จองพี่เลี้ยงเด็ก ฯลฯ และทั้งหมดนั้นต้องอาศัยความเชื่อใจสูง ผมตื่นเต้นที่เทคโนโลยีนี้กำลังพัฒนาเรื่อยๆ แต่ตอนนี้ยังรู้สึกว่าดูดีแค่ในเดโม การนำไปใช้จริงต้องอาศัยการเชื่อมระบบจำนวนมาก และถ้าเป็น Apple หรือ Microsoft ที่มีพลังการผสานระบบแบบนั้น ก็น่าจะสร้างเอเจนต์ที่มีประโยชน์จริงได้

    • บางที "บทเรียนพื้นฐานของการตัดสินใจลงมือทำ" ก็คือ งานยากๆ ในชีวิตจริงไม่ได้ยากเพราะการประมวลผลข้อมูลเท่านั้น แต่ยากเพราะเรื่องค่านิยมและความสัมพันธ์ของมนุษย์ซับซ้อน เช่น จองร้านอาหารนั้นง่าย แต่การเลือกว่าในคืนนั้นควรเป็นร้านไหนต่างหากที่ยากจริง LLM ก็ยังตามไม่ทันความเป็นส่วนตัวระดับลึกสุดแบบนี้ เช่น มันจำได้ไหมว่าที่แรกที่ไปเดตกันคือที่ไหน หรือรู้ไหมว่าภรรยาผมเคยอาหารเป็นพิษจากซูชิครั้งล่าสุด แม้แต่มนุษย์คอนเซียร์จก็ยังทำเรื่องแบบนี้ยาก
      งานอย่างจัดปาร์ตี้วันเกิดให้ลูกสาวคงไม่ใช่สิ่งที่จะถูกแก้ได้ก่อนปัญหาคณิตศาสตร์ยากๆ หรอก
    • จุดแข็งของเอเจนต์แบบนี้คือคล้ายกับการมีผู้ช่วยส่วนตัวสำหรับคนที่งานยุ่ง แต่ถูกกว่ามาก เหมือนเลขาที่จะคุยว่า "พี่เลี้ยงคนนี้หรือร้านนี้ดีไหม จะให้จองไหม" การสั่งผ่านอินเทอร์เฟซเดียวแบบเป็นธรรมชาติทำให้ภาระทางใจน้อยลงเยอะ แค่พูดว่า "โอเค จองเลย" ก็จบ
      สำหรับผม โมเดลแบบ "ทำให้เสร็จในช็อตเดียว" ของเอเจนต์กลับเป็น UX ที่ผิด แก่นจริงๆ ที่ทำให้มันเข้าไปอยู่ในชีวิตคือไม่ใช่การให้มันวิ่งวนหลายแอป แต่เป็นการคุยกันแบบเรียบง่ายและอะซิงก์ ให้ช่วยเฉพาะส่วนที่จำเป็นทีละนิดเหมือนแชตมากกว่า
    • จริงๆ แล้ว agents ก็คือโมเดลแชตหลัก + system prompt + การ parse คำตอบและเรียก action + เอาผลลัพธ์ใส่กลับไปในพรอมป์ตรอบถัดไป + บอกลิสต์ action ให้โมเดลรู้ มันไม่ใช่นวัตกรรมระดับรากฐาน และทำเองก็ไม่ยากนัก แก่นสำคัญอยู่ที่การออกแบบ wrapper กับ system instruction เช่นถ้าสร้างแชตไกด์ที่รวมทั้งปฏิทิน ประวัติตำแหน่งที่อยู่ และการจองพี่เลี้ยงเด็กเข้าด้วยกัน ก็พอจะทำให้อัตโนมัติได้
    • สำหรับผม "เอเจนต์ส่วนตัว" ในอุดมคติควรเป็นแบบนี้แหละ สิ่งที่ Apple เคยสัญญาไว้ใน WWDC ปีที่แล้วก็ประมาณนี้ เลยยิ่งน่าผิดหวัง พอลองใช้ Gemini บน Pixel 9 Pro ก็ยังห่างไกลจากการบูรณาการระดับนี้มาก และที่สำคัญที่สุดคือเรื่องความเชื่อใจยังเป็นกำแพงใหญ่ LLM มักตอบผิดด้วยความมั่นใจเกินไป ผมเลยไม่สบายใจที่จะปล่อยให้มันส่งข้อความแทนหรือเพิ่มใครในปฏิทินแทนผมโดยไม่แน่ใจ สุดท้ายก็ยังไม่กล้ามอบทุกอย่างให้ทำเองทั้งหมด
    • โดยเฉพาะเรื่องท่องเที่ยว มันมีประโยชน์กับการหาข้อมูลและเปรียบเทียบ แต่การคุยแบบปรับตามตัวผม ณ เวลาจริง ทั้งตำแหน่งที่อยู่ เวลา สภาพอากาศ การจอง/ชำระเงิน ยังไม่ลื่นนัก ถ้าในอนาคตพัฒนาเป็นผู้ช่วยท่องเที่ยวที่ปรับตามบุคคลจริงๆ (หรือแม้แต่ตามกลุ่ม) ได้ ก็คงยอดเยี่ยมมาก
  • สิ่งที่น่าประทับใจจริงๆ คือเขาเน้นย้ำความเสี่ยงอย่างมากเมื่อเปิดให้เข้าถึงข้อมูลบัญชีจริงและข้อมูลอ่อนไหว

    • ก็น่าแปลกที่คอมเมนต์นี้กลับโผล่มาอยู่ล่างๆ แบบนี้ เลยทำให้รู้สึกว่ามุมมองของคนที่อยู่นอกอเมริกาอาจต่างออกไป