App ใหม่ใน ChatGPT และ Apps SDK
- มีการเปิดตัวความสามารถในการใช้งาน แอปแบบโต้ตอบ ภายใน ChatGPT
- แอปใหม่ถูกออกแบบมาให้ ทำงานได้อย่างเป็นธรรมชาติภายในลำดับการสนทนา และจะถูก แนะนำโดยอัตโนมัติ เมื่อผู้ใช้ต้องการ
- ตัวอย่าง: “Spotify, ช่วยสร้างเพลย์ลิสต์สำหรับปาร์ตี้สุดสัปดาห์นี้หน่อย” → แอปจะทำงานอัตโนมัติและให้ผลลัพธ์ตามบริบท
- ระหว่างการสนทนาเกี่ยวกับอสังหาริมทรัพย์ ระบบจะเสนอ แอป Zillow เพื่อแสดงแผนที่ประกาศขายที่ตรงกับงบประมาณได้ทันที
- แปลงโครงร่างที่สร้างระหว่างการสนทนาให้เป็น สไลด์ ผ่าน Canva
- เรียน คอร์สของ Coursera พร้อมขอคำอธิบายเพิ่มเติมจาก ChatGPT
- แอปผสาน คำสั่งภาษาธรรมชาติและอินเทอร์เฟซแบบภาพ เข้าด้วยกัน เพื่อมอบประสบการณ์ใช้งานที่เข้าใจง่ายกว่าเว็บแอปแบบเดิม
- แอปพาร์ตเนอร์ชุดแรก ได้แก่ Booking.com, Canva, Coursera, Figma, Expedia, Spotify, Zillow
- ภายในปีนี้มีแผนเพิ่มอีก 11 แอป: Doordash, Khan Academy, Instacart, Peloton, OpenTable, target, Uber,...
- กระบวนการส่งและตรวจสอบแอป จะเริ่มในช่วงปลายปีนี้ และจะทยอยนำไปใช้กับ ChatGPT เวอร์ชัน Business, Enterprise และ Edu
- มีการเพิ่ม ไดเรกทอรีแอป ใหม่เพื่อให้ผู้ใช้สามารถสำรวจและค้นหาแอปได้ และแอปที่มีดีไซน์และฟังก์ชันโดดเด่นจะได้รับ การแนะนำในบทสนทนาและการแสดงผลลำดับบน
-
Apps SDK
- นักพัฒนาสามารถใช้ Apps SDK เวอร์ชันพรีวิว เพื่อสร้างและทดสอบแอปได้โดยตรง
- SDK มีโครงสร้างที่ขยายจาก Model Context Protocol(MCP) และสามารถ กำหนดได้ทั้งตรรกะของแอปและอินเทอร์เฟซ
- SDK ถูกเผยแพร่เป็น โอเพนซอร์ส ทำให้สามารถรันด้วยมาตรฐานเดียวกันบนแพลตฟอร์มนอก ChatGPT ได้
- นักพัฒนาสามารถ เชื่อมต่อกับแบ็กเอนด์เดิมได้โดยตรง และรองรับการล็อกอินรวมถึงการเข้าถึงฟีเจอร์แบบเสียเงิน
- ภายในปีนี้ ChatGPT จะรองรับ โมเดลสร้างรายได้จากแอป และ ความสามารถชำระเงินได้ทันที บนพื้นฐานของ Agentic Commerce Protocol
- สิ่งนี้จะทำให้ ChatGPT ก้าวจากผู้ช่วยสนทนาแบบเรียบง่าย ไปสู่ แพลตฟอร์มแบบบูรณาการที่โต้ตอบกับระบบนิเวศของแอปได้
เปิดตัว AgentKit – ชุดเครื่องมือครบวงจรสำหรับพัฒนา ติดตั้ง และปรับแต่งเอเจนต์
- AgentKit เป็นเครื่องมือถัดจาก Responses API และ Agents SDK โดยเป็น แพลตฟอร์มแบบรวมศูนย์ที่ช่วยให้การสร้างเอเจนต์ง่ายขึ้นและเชื่อถือได้มากขึ้น
- ก่อนหน้านี้ต้องจัดการ connector, evaluation pipeline, prompt tuning, การสร้างฟรอนต์เอนด์ แยกกัน แต่ตอนนี้สามารถบริหารทั้งหมดได้ในสภาพแวดล้อมเดียว
-
Agent Builder – เครื่องมือออกแบบเวิร์กโฟลว์แบบภาพ
- Agent Builder มอบสภาพแวดล้อมสำหรับประกอบตรรกะของเอเจนต์และจัดการเวอร์ชันผ่าน แคนวาสแบบภาพ ที่ใช้การลากและวาง
- เหมาะกับการพัฒนาแบบวนซ้ำอย่างรวดเร็ว ด้วยการรองรับการรันพรีวิว การตั้งค่า evaluation แบบอินไลน์ และการตั้งค่า guardrails แบบกำหนดเอง
- Ramp ระบุว่าใช้เครื่องมือนี้ทำ orchestration ที่ซับซ้อนซึ่งเดิมต้องใช้เวลาหลายเดือนให้เสร็จได้ ภายในไม่กี่ชั่วโมง และลดรอบการพัฒนาลง 70%
- LY Corporation ของญี่ปุ่นก็สามารถ สร้างเวิร์กโฟลว์ multi-agent แรกได้ภายใน 2 ชั่วโมง
-
Guardrails – การปกป้องเอเจนต์อย่างปลอดภัย
- Guardrails คือเลเยอร์ความปลอดภัยแบบโอเพนซอร์ส ที่ให้ความสามารถ การมาสก์ PII, การตรวจจับ jailbreak และการบล็อกการตอบสนองที่ผิดปกติ
- สามารถใช้งานแบบสแตนด์อโลนหรือรวมใน Agent Builder ผ่าน ไลบรารี Guardrails สำหรับ Python และ JavaScript
-
Connector Registry – การจัดการรวมศูนย์สำหรับการผสานข้อมูล
- Connector Registry คือ แผงบริหารจัดการรวมศูนย์ สำหรับดูแลการเชื่อมต่อข้อมูลระหว่างหลายเวิร์กสเปซและหลายองค์กร
- รองรับทั้งคอนเนกเตอร์พื้นฐานอย่าง Dropbox, Google Drive, SharePoint, Microsoft Teams และ MCP จากผู้ให้บริการภายนอก
- ผู้ดูแลระบบสามารถใช้ Global Admin Console เพื่อบริหารโดเมน, SSO และองค์กร API แบบรวมศูนย์ ซึ่งเป็นเงื่อนไขจำเป็นในการเปิดใช้ Connector Registry
-
ChatKit – ทูลคิทฝัง UI สำหรับการสนทนา
- ChatKit เป็นทูลคิทที่ช่วย ฝังแชต UI สำหรับเอเจนต์ลงในผลิตภัณฑ์ได้อย่างง่ายดาย
- รองรับโดยอัตโนมัติทั้งการจัดการคำตอบแบบสตรีมมิง การจัดการเธรดบทสนทนา และการแสดงกระบวนการคิดของโมเดล
- สามารถใส่ลงในเว็บหรือแอปได้ทันที และ ปรับแต่งธีม ให้เข้ากับดีไซน์ของแบรนด์ได้
- กำลังถูกใช้งานในหลายกรณี เช่น เอเจนต์บริการลูกค้าของ HubSpot รวมถึง ผู้ช่วยความรู้ ไกด์ onboarding และผู้ช่วยงานวิจัย
-
Evals – เสริมความสามารถด้านการวัดประสิทธิภาพ
- เพื่อสร้างเอเจนต์ที่เชื่อถือได้ มีการเพิ่มความสามารถใหม่ 4 อย่างให้กับ Evals
- Datasets: สร้างและขยายชุดประเมินผลได้อย่างรวดเร็วด้วยตัวตรวจคะแนนอัตโนมัติและการใส่คำอธิบายประกอบโดยมนุษย์
- Trace grading: ประเมินการรันของเวิร์กโฟลว์ทั้งหมดเพื่อค้นหาจุดอ่อนโดยอัตโนมัติ
- Automated prompt optimization: ปรับปรุงพรอมป์ต์อัตโนมัติ จากผลการประเมิน
- Third-party model support: รองรับการ ประเมินโมเดลภายนอก ได้ด้วย
-
Reinforcement Fine-Tuning ที่เสริมความสามารถขึ้น
- RFT คือความสามารถที่ช่วยให้นักพัฒนา ปรับแต่งโมเดล reasoning ของ OpenAI ให้เหมาะกับวัตถุประสงค์เฉพาะ
- เปิดให้ใช้งานทั่วไปบนโมเดล o4-mini แล้ว และ RFT สำหรับ GPT-5 อยู่ในสถานะ private beta โดยมีหลายสิบบริษัทกำลังทดสอบ
- ฟีเจอร์เบต้าใหม่
- Custom tool calls: ฝึกให้โมเดล เรียกใช้เครื่องมือที่เหมาะสมในจังหวะที่เหมาะสม
- Custom graders: ตั้งค่า เกณฑ์ประเมินแบบกำหนดเอง ตามกรณีใช้งานเฉพาะ
- ChatKit และ Evals เปิดให้ใช้งานทั่วไปสำหรับนักพัฒนาทุกคนตั้งแต่วันนี้ ส่วน Agent Builder และ Connector Registry จะทยอยเปิดในสถานะเบต้า และ รวมอยู่ในแผนราคาโมเดล API มาตรฐาน
- เร็ว ๆ นี้จะมี Workflows API และตัวเลือกติดตั้งเอเจนต์ภายใน ChatGPT เพิ่มเข้ามาด้วย
Codex เปิดตัวอย่างเป็นทางการ – ขยายโค้ดเอเจนต์แบบรวมศูนย์สำหรับทีมพัฒนา
- OpenAI ประกาศ การเปิดตัวอย่างเป็นทางการของ Codex แพลตฟอร์มโค้ดเอเจนต์บนคลาวด์ พร้อมเพิ่มความสามารถหลัก 3 อย่าง ได้แก่ การผสานกับ Slack, Codex SDK และเครื่องมือสำหรับผู้ดูแลระบบ
- Codex ทำงานแบบรวมศูนย์บน IDE, CLI และสภาพแวดล้อมคลาวด์ โดยอิงกับโมเดล GPT-5-Codex
- หลังเปิดตัว ปริมาณการใช้งานรายวันเพิ่มขึ้น 10 เท่าเมื่อเทียบกับเดือนสิงหาคม และประมวลผล 40 ล้านล้านโทเคน ในเวลา 3 สัปดาห์ จนถูกมองว่าเป็นหนึ่งในโมเดลที่เติบโตเร็วที่สุด
- ภายใน OpenAI เอง วิศวกรมากกว่า 70% ทั่วทั้งองค์กรใช้ Codex ทำให้จำนวน PR ที่ merge ต่อสัปดาห์เพิ่มขึ้น 70% และ Codex จัดการรีวิวโค้ดส่วนใหญ่โดยอัตโนมัติ
-
การผสานกับ Slack
- เมื่อแท็ก
@Codex ในช่องแชนเนลของทีม Codex จะ รวบรวมบริบทของบทสนทนาโดยอัตโนมัติ และเลือกสภาพแวดล้อมที่เหมาะสมเพื่อตอบกลับ
- ผลลัพธ์จะเชื่อมผ่าน ลิงก์ Codex Cloud เพื่อให้สามารถ merge การเปลี่ยนแปลง แก้ไขซ้ำ หรือดาวน์โหลดไปใช้ในเครื่องได้
- การผสานกับ Slack ช่วยให้สภาพแวดล้อมการพัฒนาแบบทำงานร่วมกันสามารถทำ รีวิวโค้ด แก้ไขอัตโนมัติ และขอให้รันบิลด์ ได้อย่างเป็นธรรมชาติ
-
Codex SDK
- Codex SDK คือชุดพัฒนาที่ทำให้สามารถนำ ตัว agent implementation แบบโอเพนซอร์สของ Codex CLI ไปใช้ในแอปภายนอกได้ในรูปแบบเดียวกัน
- SDK จะ รองรับ TypeScript ก่อน และมีแผนรองรับภาษาอื่นในภายหลัง
- ความสามารถหลัก
- พาร์สการตอบกลับของเอเจนต์ ด้วยผลลัพธ์แบบมีโครงสร้าง
- มี การจัดการ context ในตัว สำหรับการกลับมาใช้ session เดิม
- รองรับการทำ CI/CD pipeline อัตโนมัติผ่าน การผสานกับ GitHub Action
- ในเชลล์สามารถรันได้โดยตรงด้วยคำสั่ง
codex exec
- Instacart ได้นำ SDK ไปผสานกับแพลตฟอร์ม Olive ของตนเพื่อสร้าง สภาพแวดล้อมการพัฒนาอัตโนมัติแบบ end-to-end และยืนยันผลด้านการลด technical debt กับยกระดับคุณภาพโค้ด
-
ความสามารถสำหรับผู้ดูแลระบบที่เพิ่มขึ้น
- มีความสามารถ ควบคุมและลบสภาพแวดล้อม เพื่อจัดการข้อมูลอ่อนไหวและล้างสภาพแวดล้อมที่ไม่จำเป็น
- มีแดชบอร์ดสำหรับวิเคราะห์ ปริมาณการใช้งาน Codex และคุณภาพการรีวิวโค้ด ครอบคลุม CLI, IDE และเว็บ
- ผู้ดูแลระบบสามารถ ควบคุมนโยบายและการตั้งค่าการใช้งานแบบ local ของ Codex จากส่วนกลาง ได้ จึงเหมาะกับการดำเนินงานในองค์กรขนาดใหญ่
- Cisco ใช้ Codex เพื่อลดเวลาการรีวิว PR ที่ซับซ้อนได้ สูงสุด 50% ช่วยให้วิศวกรไปโฟกัสกับงานเชิงกลยุทธ์มากขึ้น
- การผสานกับ Slack และ Codex SDK ใช้งานได้ทันทีในแผน ChatGPT Plus, Pro, Business, Edu, Enterprise
- ตั้งแต่ 20 ตุลาคม เป็นต้นไป ภาระงานบน Codex Cloud จะถูกรวมในการคำนวณการใช้งาน
- แผน Plus: ภายใน 5 ชั่วโมง ใช้ได้ประมาณ 30~150 ข้อความแบบ local หรือ 5~40 งานบนคลาวด์
- แผน Pro: ภายใน 5 ชั่วโมง ใช้ได้ประมาณ 300~1,500 ข้อความแบบ local หรือ 50~400 งานบนคลาวด์
- หากเกินขีดจำกัด การใช้งาน Codex จะถูกพักชั่วคราว และจะกลับมาใช้ได้เมื่อโควตาถูกรีเซ็ต
- Code Review จะยังไม่ถูกรวมในการคิดการใช้งานเป็นการชั่วคราว
- จะนับเป็นการใช้งาน Code Review เฉพาะ กรณีใช้แท็ก
@codex review บน GitHub หรือเปิดใช้ฟีเจอร์รีวิวอัตโนมัติ เท่านั้น
เปิดตัว API สำหรับสร้างวิดีโอด้วย Sora
- Sora คือ โมเดลสื่อสร้างสรรค์รุ่นถัดไปของ OpenAI ที่สร้างวิดีโอสมจริงและมีความเคลื่อนไหว พร้อมเสียงประกอบ
- พัฒนาบนงานวิจัยด้าน multi-modal diffusion โดยเรียนรู้การรับรู้พื้นที่ 3 มิติ การเคลื่อนกล้อง และความสอดคล้องของการเคลื่อนไหวทางกายภาพ
- นักพัฒนาสามารถใช้สิ่งนี้เพื่อสร้างคอนเทนต์อัตโนมัติในรูปแบบ ข้อความ→วิดีโอ หรือ ภาพ→วิดีโอ
- Video API ที่เปิดตัวใหม่ประกอบด้วย 5 endpoint ความสามารถหลัก ดังนี้
- Create video: สร้างงานเรนเดอร์ใหม่จาก text prompt หรือวิดีโอเดิม
- Get video status: ตรวจสอบสถานะความคืบหน้าของการเรนเดอร์
- Download video: ดาวน์โหลดวิดีโอ MP4 ที่เสร็จสมบูรณ์
- List videos: จัดการรายการวิดีโอที่สร้างไว้และรองรับการแบ่งหน้า
- Delete videos: ลบวิดีโอที่ระบุออกจากพื้นที่จัดเก็บ
- API ช่วยให้สามารถ ทำงานสร้าง จัดการ ขยาย และรีมิกซ์วิดีโอแบบอัตโนมัติผ่านโปรแกรม ได้
-
ประเภทของโมเดล
-
Sora 2 – สำหรับการทำซ้ำอย่างรวดเร็วและการทดลอง
- เป็นโมเดลที่เน้น ความเร็วและความยืดหยุ่น เหมาะกับการทดสอบคอนเซปต์หรือทำ rough cut
- ให้ผลลัพธ์ได้ในเวลาสั้น จึงใช้สร้าง คอนเทนต์โซเชียลมีเดียหรือวิดีโอต้นแบบ ได้ดี
- เน้น การสำรวจไอเดียและตรวจสอบทิศทางภาพ มากกว่าคุณภาพที่สมบูรณ์แบบ
-
Sora 2 Pro – สำหรับงานผลิตคุณภาพสูง
- เป็นโมเดลที่ออกแบบมาโดยมุ่งเป้า คุณภาพระดับภาพยนตร์
- แม้เรนเดอร์ช้ากว่าและมีค่าใช้จ่ายสูงกว่า แต่ ความเสถียรและรายละเอียดของวิดีโอดีขึ้นอย่างมาก
- เหมาะสำหรับวิดีโอการตลาดความละเอียดสูง แอสเซ็ตแบรนด์ และการสร้างฉากสไตล์ภาพยนตร์
ใช้งาน GPT-5 Pro ผ่าน API ได้แล้ว
- GPT-5 Pro คือ โมเดล reasoning ระดับสูงสุดของ OpenAI ที่ใช้ พลังประมวลผลมากขึ้น เพื่อสร้างคำตอบที่ละเอียดและแม่นยำยิ่งกว่าเดิม
- แม้จะช้ากว่า GPT-5 ปกติ แต่ให้ความสามารถในการแก้ปัญหาที่ซับซ้อนและคุณภาพที่สม่ำเสมอ
- เป็น โมเดลสำหรับ Responses API เท่านั้น รองรับ คำขอแบบสนทนาหลายเทิร์นและฟีเจอร์ API ขั้นสูง และรองรับเฉพาะโหมด
reasoning.effort: high
- ไม่รองรับ Code Interpreter และการสตรีมแบบเรียลไทม์
- คำขอที่ซับซ้อนอาจต้องใช้เวลาประมวลผล ระดับหลายนาที และหากเป็นงานระยะยาว แนะนำให้ใช้ Background Mode
- context window 400,000 โทเคน, เอาต์พุตสูงสุด 272,000 โทเคน, Knowledge Cutoff วันที่ 30 กันยายน 2024
- การคิดค่าบริการ (Pricing): ต่อ 1 ล้านโทเคน
- อินพุต (Input): $15.00 (รวมอินพุตภาพ)
- เอาต์พุต (Output): $120.00
โมเดล GPT Realtime Mini สำหรับบริการเสียงต้นทุนต่ำ
- GPT-Realtime-Mini คือ เวอร์ชันต้นทุนต่ำและความเร็วสูง ของโมเดลสนทนาแบบเรียลไทม์ รองรับ อินพุตข้อความ ภาพ และเสียง และสร้าง เอาต์พุตเป็นข้อความและเสียง
- รองรับ การตอบสนองด้วยเสียงและข้อความแบบเรียลไทม์ ผ่านการเชื่อมต่อ WebRTC, WebSocket และ SIP โดยมีต้นทุน ถูกกว่า gpt-realtime มากกว่า 6 เท่า
- context window 32,000 โทเคน, เอาต์พุตสูงสุด 4,096 โทเคน, Knowledge Cutoff วันที่ 1 ตุลาคม 2023
- การคิดค่าบริการ (Pricing): ต่อ 1 ล้านโทเคน
- โทเคนข้อความ
- อินพุต (Input): $0.60
- อินพุตที่แคชไว้ (Cached input): $0.06
- เอาต์พุต (Output): $2.40
- เทียบกับโมเดลเดิม
- อินพุต: gpt-realtime: $4 , GPT-5: $1.25, gpt-realtime-mini: $0.60 (ถูกที่สุด)
- เอาต์พุต: gpt-realtime: $16 , GPT-5: $10, gpt-realtime-mini: $2.4 (ถูกที่สุด)
- โทเคนเสียง
- อินพุต (Input): $10
- อินพุตที่แคชไว้ (Cached input): $0.3
- เอาต์พุต: $20
- โทเคนภาพ
- อินพุต: $0.8
- อินพุตที่แคชไว้: $0.08
โมเดล GPT Image 1 Mini
- GPT-Image-1-Mini คือ เวอร์ชันต้นทุนต่ำของ GPT Image 1 เป็น โมเดลมัลติโหมด ที่รับข้อความและภาพเป็นอินพุต แล้วสร้าง เอาต์พุตเป็นภาพ
- เน้น ประสิทธิภาพและต้นทุนที่ต่ำ มากกว่าคุณภาพสูง เหมาะสำหรับการสร้างภาพจำนวนมากหรือการทำ visual prototyping
- รองรับ อินพุตข้อความและภาพ และ เอาต์พุตเป็นภาพเท่านั้น
- แม้ความเร็วจะช้า แต่มี ความคุ้มค่าด้านต้นทุนเมื่อเทียบกับประสิทธิภาพ สูง
- การคิดค่าบริการ (Pricing): ต่อ 1 ล้านโทเคน
- โทเคนข้อความ
- อินพุต (Input): $2.00
- อินพุตที่แคชไว้ (Cached input): $0.20
- เอาต์พุต (Output): $8.00
- เทียบกับโมเดลเดิม
- อินพุต: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (ประหยัดประมาณ 60%)
- เอาต์พุต: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (ประหยัดประมาณ 60%)
- โทเคนภาพ
- อินพุต (Input): $2.50
- อินพุตที่แคชไว้ (Cached input): $0.25
- เอาต์พุต (Output): $8.00
- การสร้างภาพ (ต่อ 1 ภาพ)
- คุณภาพ Low
- 1024×1024: $0.005
- 1024×1536: $0.006
- 1536×1024: $0.006
- คุณภาพ Medium
- 1024×1024: $0.011
- 1024×1536: $0.015
- 1536×1024: $0.015
1 ความคิดเห็น
แม้แต่ใน HackerNews ก็ยังเงียบกว่าที่คิดอยู่เหมือนกัน อาจเป็นเพราะค่อย ๆ ทยอยเปิดตัวและปล่อยออกมาเรื่อย ๆ ทีละนิดด้วยมั้ง