- Web Search: ค้นหาข้อมูลล่าสุดจากเว็บและส่งคืน URL อ้างอิง
- File Search: ค้นหาแบบ semantic/keyword จากรายการไฟล์ที่อัปโหลด
- Computer Use: ควบคุมคอมพิวเตอร์และดำเนินงานต่าง ๆ
- Responses API: อินเทอร์เฟซคำตอบแบบบูรณาการขั้นสูง รองรับอินพุตข้อความ/ภาพ และใช้งานเว็บค้นหา/ค้นหาไฟล์/CUA ได้ทั้งหมด
- Agents SDK: เฟรมเวิร์ก orchestration สำหรับพัฒนาเอเจนต์
- นักพัฒนา/บริษัทบางรายที่มีสิทธิ์สามารถแชร์พรอมป์ต์กับ OpenAI เพื่อช่วยปรับปรุงโมเดลได้
- ถึงสิ้นเดือนเมษายนปีนี้ สามารถใช้งานฟรีได้สูงสุดวันละ 1 ล้านโทเค็นสำหรับ gpt-4.5-preview, gpt-4o, o1 และสูงสุด 10 ล้านโทเค็นสำหรับ gpt-4o-mini, o1-mini, o3-mini
- ตรวจสอบสิทธิ์ได้ใน OpenAI developer dashboard
- สามารถค้นหาข้อมูลจากเว็บได้โดยตรงเพื่อให้ข้อมูลล่าสุดใน ChatGPT
- สามารถใช้โมเดลที่ปรับจูนเฉพาะและเครื่องมือค้นหาได้โดยตรงผ่าน Chat Completions API
- วิธีใช้เว็บค้นหาใน Chat Completions API
- โมเดลจะค้นหาข้อมูลล่าสุดจากเว็บก่อนตอบกลับเสมอ
- หากต้องการให้ใช้เครื่องมือค้นหาเว็บ(
web_search_preview) เฉพาะเมื่อจำเป็น ต้องเปลี่ยนไปใช้ Responses API
- โมเดลที่ใช้เว็บค้นหาได้
gpt-4o-search-preview
gpt-4o-mini-search-preview
- ช่วยให้โมเดลค้นหาข้อมูลที่เกี่ยวข้องจากไฟล์ของผู้ใช้ก่อนสร้างคำตอบ
- ให้บริการผ่าน Responses API โดยค้นหาข้อมูลจากฐานความรู้ของไฟล์ที่อัปโหลดด้วย semantic search และ keyword search
- การใช้ Vector Store และ semantic search
- เมื่อสร้าง Vector Store และอัปโหลดไฟล์ ก็สามารถขยายความรู้พื้นฐานของโมเดลได้
- เป็นเครื่องมือที่ OpenAI จัดการให้ ผู้ใช้จึงไม่จำเป็นต้องเขียนโค้ดเอง
- หากโมเดลเห็นว่าจำเป็น จะเรียกใช้เครื่องมือโดยอัตโนมัติเพื่อค้นหาข้อมูลจากไฟล์และสร้างคำตอบ
- วิธีใช้งาน
- ต้องตั้งค่าฐานความรู้ใน Vector Store และอัปโหลดไฟล์ก่อน
- หลังตั้งค่า Vector Store แล้ว สามารถเพิ่ม เครื่องมือ file_search ในรายการเครื่องมือที่โมเดลใช้ได้
- ขณะนี้ค้นหาได้จาก Vector Store เพียงหนึ่งรายการต่อครั้ง เท่านั้น (ใช้ได้เพียง single vector store ID)
- อิงตามโมเดล Computer-Using Agent(CUA) ที่สามารถทำงานบนคอมพิวเตอร์ของผู้ใช้ได้
- ผสานความสามารถด้านการมองเห็นของ GPT-4o และการให้เหตุผลขั้นสูง เพื่อควบคุมอินเทอร์เฟซคอมพิวเตอร์และทำงานต่าง ๆ
- ให้บริการผ่าน Responses API และ ไม่สามารถใช้ใน Chat Completions
- ขณะนี้อยู่ในสถานะเบต้า จึงอาจมีช่องโหว่หรือความผิดพลาดได้ ไม่แนะนำให้ใช้ในสภาพแวดล้อมที่ยืนยันตัวตนครบถ้วนหรือกับงานสำคัญ
- วิธีการทำงาน
- โมเดลจะส่งคำสั่งงานบนคอมพิวเตอร์ เช่น คลิก(x, y), พิมพ์(text)
- โค้ดของผู้ใช้จะนำคำสั่งนั้นไปดำเนินการในสภาพแวดล้อมคอมพิวเตอร์หรือเบราว์เซอร์ และส่งภาพหน้าจอกลับมา
- โมเดลจะเข้าใจสถานะของสภาพแวดล้อมจากภาพหน้าจอและเสนอการทำงานถัดไป
- สามารถทำงานอัตโนมัติได้หลากหลาย เช่น คลิก พิมพ์ เลื่อนหน้าจอ ผ่านลูปต่อเนื่อง
- ตัวอย่างการใช้งาน : จองเที่ยวบิน ค้นหาสินค้า กรอกแบบฟอร์ม
- อินเทอร์เฟซโมเดลที่ล้ำหน้าที่สุดของ OpenAI
- รองรับ อินพุตข้อความและภาพ และสร้าง เอาต์พุตข้อความ
- รองรับ การโต้ตอบแบบคงสถานะ ที่สามารถนำเอาต์พุตของคำตอบก่อนหน้าไปใช้เป็นอินพุตถัดไปได้
- สามารถขยายความสามารถได้
- ขยายความสามารถของโมเดลได้ผ่านเครื่องมือในตัว
- File Search – ค้นหาแบบ semantic และ keyword จากไฟล์ที่อัปโหลดได้
- Web Search – ค้นหาข้อมูลล่าสุดจากเว็บได้
- Computer Use – ควบคุมอินเทอร์เฟซคอมพิวเตอร์และทำงานอัตโนมัติได้
- Function Calling – เข้าถึงระบบและข้อมูลภายนอกได้
- สามารถเรียกใช้ฟังก์ชัน Python และโต้ตอบกับระบบภายนอกได้
- สามารถพัฒนา แอป AI แบบ Agent ได้ด้วยแพ็กเกจที่เรียบง่าย ใช้งานง่าย และไม่มี abstraction ที่ซับซ้อน
- เป็นเวอร์ชันอัปเกรดระดับ production ของแพลตฟอร์มทดลองเดิม Swarm
- องค์ประกอบหลัก(Primitive):
- Agents – เอเจนต์ที่อิง LLM พร้อมคำสั่งและเครื่องมือ
- Handoffs – มอบหมายงานเฉพาะให้เอเจนต์ตัวอื่น
- Guardrails – ตรวจสอบและกรองค่าอินพุตของเอเจนต์
- การผสานกับ Python และความสามารถที่ทรงพลัง
- เมื่อใช้ร่วมกับ Python สามารถกำหนดความสัมพันธ์ระหว่างเครื่องมือที่ทรงพลังและสร้างเวิร์กโฟลว์ที่ซับซ้อนได้
- มีฟีเจอร์ Tracing สำหรับการแสดงภาพและดีบัก
- รองรับทั้งการประเมินผล ดีบัก และการ fine-tune โมเดล
- จุดเด่นหลักของ Agents SDK
- หลักการออกแบบ
- มีความสามารถทรงพอเพียง แต่เรียนรู้ไม่มาก จึงคุ้นเคยได้อย่างรวดเร็ว
- ให้ประสิทธิภาพที่ดีตั้งแต่ค่าเริ่มต้น และปรับรายละเอียดได้เมื่อจำเป็น
- ความสามารถพื้นฐาน
- Agent Loop : ลูปในตัวจะจัดการการเรียกใช้เครื่องมือ → ประมวลผลผลลัพธ์ → สร้างคำตอบจาก LLM → จบการทำงานโดยอัตโนมัติ
- Python-first design : ใช้ความสามารถของภาษา Python ได้โดยตรงเพื่อเชื่อมต่อและ orchestration เอเจนต์
- Handoffs : มอบหมายและประสานงานงานระหว่างหลายเอเจนต์ได้
- Guardrails : ตรวจสอบค่าอินพุตและทำการตรวจเช็กแบบขนาน พร้อมยุติก่อนกำหนดได้เมื่อเกิดข้อผิดพลาด
- Function Tools : แปลงฟังก์ชัน Python ให้เป็นเครื่องมือโดยอัตโนมัติ → สร้างและตรวจสอบสคีมาอัตโนมัติ
- Tracing : ใช้ความสามารถ tracing ในตัวเพื่อแสดงภาพเวิร์กโฟลว์ ดีบัก ประเมินผล และปรับปรุงได้
ยังไม่มีความคิดเห็น