• Web Search: ค้นหาข้อมูลล่าสุดจากเว็บและส่งคืน URL อ้างอิง
  • File Search: ค้นหาแบบ semantic/keyword จากรายการไฟล์ที่อัปโหลด
  • Computer Use: ควบคุมคอมพิวเตอร์และดำเนินงานต่าง ๆ
  • Responses API: อินเทอร์เฟซคำตอบแบบบูรณาการขั้นสูง รองรับอินพุตข้อความ/ภาพ และใช้งานเว็บค้นหา/ค้นหาไฟล์/CUA ได้ทั้งหมด
  • Agents SDK: เฟรมเวิร์ก orchestration สำหรับพัฒนาเอเจนต์
  • นักพัฒนา/บริษัทบางรายที่มีสิทธิ์สามารถแชร์พรอมป์ต์กับ OpenAI เพื่อช่วยปรับปรุงโมเดลได้
    • ถึงสิ้นเดือนเมษายนปีนี้ สามารถใช้งานฟรีได้สูงสุดวันละ 1 ล้านโทเค็นสำหรับ gpt-4.5-preview, gpt-4o, o1 และสูงสุด 10 ล้านโทเค็นสำหรับ gpt-4o-mini, o1-mini, o3-mini
    • ตรวจสอบสิทธิ์ได้ใน OpenAI developer dashboard

Web Search

  • สามารถค้นหาข้อมูลจากเว็บได้โดยตรงเพื่อให้ข้อมูลล่าสุดใน ChatGPT
  • สามารถใช้โมเดลที่ปรับจูนเฉพาะและเครื่องมือค้นหาได้โดยตรงผ่าน Chat Completions API
  • วิธีใช้เว็บค้นหาใน Chat Completions API
    • โมเดลจะค้นหาข้อมูลล่าสุดจากเว็บก่อนตอบกลับเสมอ
    • หากต้องการให้ใช้เครื่องมือค้นหาเว็บ(web_search_preview) เฉพาะเมื่อจำเป็น ต้องเปลี่ยนไปใช้ Responses API
  • โมเดลที่ใช้เว็บค้นหาได้
    • gpt-4o-search-preview
    • gpt-4o-mini-search-preview

File Search

  • ช่วยให้โมเดลค้นหาข้อมูลที่เกี่ยวข้องจากไฟล์ของผู้ใช้ก่อนสร้างคำตอบ
  • ให้บริการผ่าน Responses API โดยค้นหาข้อมูลจากฐานความรู้ของไฟล์ที่อัปโหลดด้วย semantic search และ keyword search
  • การใช้ Vector Store และ semantic search
    • เมื่อสร้าง Vector Store และอัปโหลดไฟล์ ก็สามารถขยายความรู้พื้นฐานของโมเดลได้
    • เป็นเครื่องมือที่ OpenAI จัดการให้ ผู้ใช้จึงไม่จำเป็นต้องเขียนโค้ดเอง
    • หากโมเดลเห็นว่าจำเป็น จะเรียกใช้เครื่องมือโดยอัตโนมัติเพื่อค้นหาข้อมูลจากไฟล์และสร้างคำตอบ
  • วิธีใช้งาน
    • ต้องตั้งค่าฐานความรู้ใน Vector Store และอัปโหลดไฟล์ก่อน
    • หลังตั้งค่า Vector Store แล้ว สามารถเพิ่ม เครื่องมือ file_search ในรายการเครื่องมือที่โมเดลใช้ได้
    • ขณะนี้ค้นหาได้จาก Vector Store เพียงหนึ่งรายการต่อครั้ง เท่านั้น (ใช้ได้เพียง single vector store ID)

Computer Use

  • อิงตามโมเดล Computer-Using Agent(CUA) ที่สามารถทำงานบนคอมพิวเตอร์ของผู้ใช้ได้
  • ผสานความสามารถด้านการมองเห็นของ GPT-4o และการให้เหตุผลขั้นสูง เพื่อควบคุมอินเทอร์เฟซคอมพิวเตอร์และทำงานต่าง ๆ
  • ให้บริการผ่าน Responses API และ ไม่สามารถใช้ใน Chat Completions
  • ขณะนี้อยู่ในสถานะเบต้า จึงอาจมีช่องโหว่หรือความผิดพลาดได้ ไม่แนะนำให้ใช้ในสภาพแวดล้อมที่ยืนยันตัวตนครบถ้วนหรือกับงานสำคัญ
  • วิธีการทำงาน
    • โมเดลจะส่งคำสั่งงานบนคอมพิวเตอร์ เช่น คลิก(x, y), พิมพ์(text)
    • โค้ดของผู้ใช้จะนำคำสั่งนั้นไปดำเนินการในสภาพแวดล้อมคอมพิวเตอร์หรือเบราว์เซอร์ และส่งภาพหน้าจอกลับมา
    • โมเดลจะเข้าใจสถานะของสภาพแวดล้อมจากภาพหน้าจอและเสนอการทำงานถัดไป
    • สามารถทำงานอัตโนมัติได้หลากหลาย เช่น คลิก พิมพ์ เลื่อนหน้าจอ ผ่านลูปต่อเนื่อง
  • ตัวอย่างการใช้งาน : จองเที่ยวบิน ค้นหาสินค้า กรอกแบบฟอร์ม

Responses API

  • อินเทอร์เฟซโมเดลที่ล้ำหน้าที่สุดของ OpenAI
  • รองรับ อินพุตข้อความและภาพ และสร้าง เอาต์พุตข้อความ
  • รองรับ การโต้ตอบแบบคงสถานะ ที่สามารถนำเอาต์พุตของคำตอบก่อนหน้าไปใช้เป็นอินพุตถัดไปได้
  • สามารถขยายความสามารถได้
    • ขยายความสามารถของโมเดลได้ผ่านเครื่องมือในตัว
      • File Search – ค้นหาแบบ semantic และ keyword จากไฟล์ที่อัปโหลดได้
      • Web Search – ค้นหาข้อมูลล่าสุดจากเว็บได้
      • Computer Use – ควบคุมอินเทอร์เฟซคอมพิวเตอร์และทำงานอัตโนมัติได้
    • Function Calling – เข้าถึงระบบและข้อมูลภายนอกได้
      • สามารถเรียกใช้ฟังก์ชัน Python และโต้ตอบกับระบบภายนอกได้

Agents SDK

  • สามารถพัฒนา แอป AI แบบ Agent ได้ด้วยแพ็กเกจที่เรียบง่าย ใช้งานง่าย และไม่มี abstraction ที่ซับซ้อน
  • เป็นเวอร์ชันอัปเกรดระดับ production ของแพลตฟอร์มทดลองเดิม Swarm
  • องค์ประกอบหลัก(Primitive):
    • Agents – เอเจนต์ที่อิง LLM พร้อมคำสั่งและเครื่องมือ
    • Handoffs – มอบหมายงานเฉพาะให้เอเจนต์ตัวอื่น
    • Guardrails – ตรวจสอบและกรองค่าอินพุตของเอเจนต์
  • การผสานกับ Python และความสามารถที่ทรงพลัง
    • เมื่อใช้ร่วมกับ Python สามารถกำหนดความสัมพันธ์ระหว่างเครื่องมือที่ทรงพลังและสร้างเวิร์กโฟลว์ที่ซับซ้อนได้
    • มีฟีเจอร์ Tracing สำหรับการแสดงภาพและดีบัก
    • รองรับทั้งการประเมินผล ดีบัก และการ fine-tune โมเดล
  • จุดเด่นหลักของ Agents SDK
    • หลักการออกแบบ
      • มีความสามารถทรงพอเพียง แต่เรียนรู้ไม่มาก จึงคุ้นเคยได้อย่างรวดเร็ว
      • ให้ประสิทธิภาพที่ดีตั้งแต่ค่าเริ่มต้น และปรับรายละเอียดได้เมื่อจำเป็น
    • ความสามารถพื้นฐาน
      • Agent Loop : ลูปในตัวจะจัดการการเรียกใช้เครื่องมือ → ประมวลผลผลลัพธ์ → สร้างคำตอบจาก LLM → จบการทำงานโดยอัตโนมัติ
      • Python-first design : ใช้ความสามารถของภาษา Python ได้โดยตรงเพื่อเชื่อมต่อและ orchestration เอเจนต์
      • Handoffs : มอบหมายและประสานงานงานระหว่างหลายเอเจนต์ได้
      • Guardrails : ตรวจสอบค่าอินพุตและทำการตรวจเช็กแบบขนาน พร้อมยุติก่อนกำหนดได้เมื่อเกิดข้อผิดพลาด
      • Function Tools : แปลงฟังก์ชัน Python ให้เป็นเครื่องมือโดยอัตโนมัติ → สร้างและตรวจสอบสคีมาอัตโนมัติ
      • Tracing : ใช้ความสามารถ tracing ในตัวเพื่อแสดงภาพเวิร์กโฟลว์ ดีบัก ประเมินผล และปรับปรุงได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น