OpenAI เปิดตัวเครื่องมือสำหรับนักพัฒนาเพื่อสร้าง AI Agent

xguru · 2025-03-12T09:08:31+09:00

Web Search: ค้นหาข้อมูลล่าสุดจากเว็บและส่งคืน URL อ้างอิง File Search: ค้นหาแบบ semantic/keyword จากรายการไฟล์ที่อัปโหลด Computer Use: ควบคุมคอมพิวเตอร์และดำเนินงานต่าง ๆ Responses API: อินเทอร์เฟซคำตอบแบบบูรณาการขั้นสูง รองรับอินพุตข้อความ/ภาพ และใช้งานเว็บค้นหา/ค้นหาไฟล์/CUA ได้ทั้งหมด Agents SDK: เฟรมเวิร์ก orchestration สำหรับพัฒนาเอเจนต์ นักพัฒนา/บริษัทบางรายที่มีสิทธิ์สามารถแชร์พรอมป์ต์กับ OpenAI เพื่อช่วยปรับปรุงโมเดลได้ ถึงสิ้นเดือนเมษายนปีนี้ สามารถใช้งานฟรีได้สูงสุดวันละ 1 ล้านโทเค็นสำหรับ gpt-4.5-preview, gpt-4o, o1 และสูงสุด 10 ล้านโทเค็นสำหรับ gpt-4o-mini, o1-mini, o3-mini ตรวจสอบสิทธิ์ได้ใน OpenAI developer dashboard บทความแนะนำจาก OpenAI : New tools for building agents Web Search สามารถค้นหาข้อมูลจากเว็บได้โดยตรงเพื่อให้ข้อมูลล่าสุดใน ChatGPT สามารถใช้โมเดลที่ปรับจูนเฉพาะและเครื่องมือค้นหาได้โดยตรงผ่าน Chat Completions API วิธีใช้เว็บค้นหาใน Chat Completions API โมเดลจะค้นหาข้อมูลล่าสุดจากเว็บก่อนตอบกลับเสมอ หากต้องการให้ใช้เครื่องมือค้นหาเว็บ(web_search_preview) เฉพาะเมื่อจำเป็น ต้องเปลี่ยนไปใช้ Responses API โมเดลที่ใช้เว็บค้นหาได้ gpt-4o-search-preview gpt-4o-mini-search-preview File Search ช่วยให้โมเดลค้นหาข้อมูลที่เกี่ยวข้องจากไฟล์ของผู้ใช้ก่อนสร้างคำตอบ ให้บริการผ่าน Responses API โดยค้นหาข้อมูลจากฐานความรู้ของไฟล์ที่อัปโหลดด้วย semantic search และ keyword search การใช้ Vector Store และ semantic search เมื่อสร้าง Vector Store และอัปโหลดไฟล์ ก็สามารถขยายความรู้พื้นฐานของโมเดลได้ เป็นเครื่องมือที่ OpenAI จัดการให้ ผู้ใช้จึงไม่จำเป็นต้องเขียนโค้ดเอง หากโมเดลเห็นว่าจำเป็น จะเรียกใช้เครื่องมือโดยอัตโนมัติเพื่อค้นหาข้อมูลจากไฟล์และสร้างคำตอบ วิธีใช้งาน ต้องตั้งค่าฐานความรู้ใน Vector Store และอัปโหลดไฟล์ก่อน หลังตั้งค่า Vector Store แล้ว สามารถเพิ่ม เครื่องมือ file_search ในรายการเครื่องมือที่โมเดลใช้ได้ ขณะนี้ค้นหาได้จาก Vector Store เพียงหนึ่งรายการต่อครั้ง เท่านั้น (ใช้ได้เพียง single vector store ID) Computer Use อิงตามโมเดล Computer-Using Agent(CUA) ที่สามารถทำงานบนคอมพิวเตอร์ของผู้ใช้ได้ ผสานความสามารถด้านการมองเห็นของ GPT-4o และการให้เหตุผลขั้นสูง เพื่อควบคุมอินเทอร์เฟซคอมพิวเตอร์และทำงานต่าง ๆ ให้บริการผ่าน Responses API และ ไม่สามารถใช้ใน Chat Completions ขณะนี้อยู่ในสถานะเบต้า จึงอาจมีช่องโหว่หรือความผิดพลาดได้ ไม่แนะนำให้ใช้ในสภาพแวดล้อมที่ยืนยันตัวตนครบถ้วนหรือกับงานสำคัญ วิธีการทำงาน โมเดลจะส่งคำสั่งงานบนคอมพิวเตอร์ เช่น คลิก(x, y), พิมพ์(text) โค้ดของผู้ใช้จะนำคำสั่งนั้นไปดำเนินการในสภาพแวดล้อมคอมพิวเตอร์หรือเบราว์เซอร์ และส่งภาพหน้าจอกลับมา โมเดลจะเข้าใจสถานะของสภาพแวดล้อมจากภาพหน้าจอและเสนอการทำงานถัดไป สามารถทำงานอัตโนมัติได้หลากหลาย เช่น คลิก พิมพ์ เลื่อนหน้าจอ ผ่านลูปต่อเนื่อง ตัวอย่างการใช้งาน : จองเที่ยวบิน ค้นหาสินค้า กรอกแบบฟอร์ม Responses API อินเทอร์เฟซโมเดลที่ล้ำหน้าที่สุดของ OpenAI รองรับ อินพุตข้อความและภาพ และสร้าง เอาต์พุตข้อความ รองรับ การโต้ตอบแบบคงสถานะ ที่สามารถนำเอาต์พุตของคำตอบก่อนหน้าไปใช้เป็นอินพุตถัดไปได้ สามารถขยายความสามารถได้ ขยายความสามารถของโมเดลได้ผ่านเครื่องมือในตัว File Search – ค้นหาแบบ semantic และ keyword จากไฟล์ที่อัปโหลดได้ Web Search – ค้นหาข้อมูลล่าสุดจากเว็บได้ Computer Use – ควบคุมอินเทอร์เฟซคอมพิวเตอร์และทำงานอัตโนมัติได้ Function Calling – เข้าถึงระบบและข้อมูลภายนอกได้ สามารถเรียกใช้ฟังก์ชัน Python และโต้ตอบกับระบบภายนอกได้ Agents SDK สามารถพัฒนา แอป AI แบบ Agent ได้ด้วยแพ็กเกจที่เรียบง่าย ใช้งานง่าย และไม่มี abstraction ที่ซับซ้อน เป็นเวอร์ชันอัปเกรดระดับ production ของแพลตฟอร์มทดลองเดิม Swarm องค์ประกอบหลัก(Primitive): Agents – เอเจนต์ที่อิง LLM พร้อมคำสั่งและเครื่องมือ Handoffs – มอบหมายงานเฉพาะให้เอเจนต์ตัวอื่น Guardrails – ตรวจสอบและกรองค่าอินพุตของเอเจนต์ การผสานกับ Python และความสามารถที่ทรงพลัง เมื่อใช้ร่วมกับ Python สามารถกำหนดความสัมพันธ์ระหว่างเครื่องมือที่ทรงพลังและสร้างเวิร์กโฟลว์ที่ซับซ้อนได้ มีฟีเจอร์ Tracing สำหรับการแสดงภาพและดีบัก รองรับทั้งการประเมินผล ดีบัก และการ fine-tune โมเดล จุดเด่นหลักของ Agents SDK หลักการออกแบบ มีความสามารถทรงพอเพียง แต่เรียนรู้ไม่มาก จึงคุ้นเคยได้อย่างรวดเร็ว ให้ประสิทธิภาพที่ดีตั้งแต่ค่าเริ่มต้น และปรับรายละเอียดได้เมื่อจำเป็น ความสามารถพื้นฐาน Agent Loop : ลูปในตัวจะจัดการการเรียกใช้เครื่องมือ → ประมวลผลผลลัพธ์ → สร้างคำตอบจาก LLM → จบการทำงานโดยอัตโนมัติ Python-first design : ใช้ความสามารถของภาษา Python ได้โดยตรงเพื่อเชื่อมต่อและ orchestration เอเจนต์ Handoffs : มอบหมายและประสานงานงานระหว่างหลายเอเจนต์ได้ Guardrails : ตรวจสอบค่าอินพุตและทำการตรวจเช็กแบบขนาน พร้อมยุติก่อนกำหนดได้เมื่อเกิดข้อผิดพลาด Function Tools : แปลงฟังก์ชัน Python ให้เป็นเครื่องมือโดยอัตโนมัติ → สร้างและตรวจสอบสคีมาอัตโนมัติ Tracing : ใช้ความสามารถ tracing ในตัวเพื่อแสดงภาพเวิร์กโฟลว์ ดีบัก ประเมินผล และปรับปรุงได้

(x.com/OpenAIDevs)

21 คะแนน โดย xguru 2025-03-12 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Web Search: ค้นหาข้อมูลล่าสุดจากเว็บและส่งคืน URL อ้างอิง
File Search: ค้นหาแบบ semantic/keyword จากรายการไฟล์ที่อัปโหลด
Computer Use: ควบคุมคอมพิวเตอร์และดำเนินงานต่าง ๆ
Responses API: อินเทอร์เฟซคำตอบแบบบูรณาการขั้นสูง รองรับอินพุตข้อความ/ภาพ และใช้งานเว็บค้นหา/ค้นหาไฟล์/CUA ได้ทั้งหมด
Agents SDK: เฟรมเวิร์ก orchestration สำหรับพัฒนาเอเจนต์

นักพัฒนา/บริษัทบางรายที่มีสิทธิ์สามารถแชร์พรอมป์ต์กับ OpenAI เพื่อช่วยปรับปรุงโมเดลได้
- ถึงสิ้นเดือนเมษายนปีนี้ สามารถใช้งานฟรีได้สูงสุดวันละ 1 ล้านโทเค็นสำหรับ gpt-4.5-preview, gpt-4o, o1 และสูงสุด 10 ล้านโทเค็นสำหรับ gpt-4o-mini, o1-mini, o3-mini
- ตรวจสอบสิทธิ์ได้ใน OpenAI developer dashboard

บทความแนะนำจาก OpenAI : New tools for building agents

Web Search

สามารถค้นหาข้อมูลจากเว็บได้โดยตรงเพื่อให้ข้อมูลล่าสุดใน ChatGPT
สามารถใช้โมเดลที่ปรับจูนเฉพาะและเครื่องมือค้นหาได้โดยตรงผ่าน Chat Completions API
วิธีใช้เว็บค้นหาใน Chat Completions API
- โมเดลจะค้นหาข้อมูลล่าสุดจากเว็บก่อนตอบกลับเสมอ
- หากต้องการให้ใช้เครื่องมือค้นหาเว็บ(web_search_preview) เฉพาะเมื่อจำเป็น ต้องเปลี่ยนไปใช้ Responses API
โมเดลที่ใช้เว็บค้นหาได้
- gpt-4o-search-preview
- gpt-4o-mini-search-preview
โฆษณา

File Search

ช่วยให้โมเดลค้นหาข้อมูลที่เกี่ยวข้องจากไฟล์ของผู้ใช้ก่อนสร้างคำตอบ
ให้บริการผ่าน Responses API โดยค้นหาข้อมูลจากฐานความรู้ของไฟล์ที่อัปโหลดด้วย semantic search และ keyword search
การใช้ Vector Store และ semantic search
- เมื่อสร้าง Vector Store และอัปโหลดไฟล์ ก็สามารถขยายความรู้พื้นฐานของโมเดลได้
- เป็นเครื่องมือที่ OpenAI จัดการให้ ผู้ใช้จึงไม่จำเป็นต้องเขียนโค้ดเอง
- หากโมเดลเห็นว่าจำเป็น จะเรียกใช้เครื่องมือโดยอัตโนมัติเพื่อค้นหาข้อมูลจากไฟล์และสร้างคำตอบ
วิธีใช้งาน
- ต้องตั้งค่าฐานความรู้ใน Vector Store และอัปโหลดไฟล์ก่อน
- หลังตั้งค่า Vector Store แล้ว สามารถเพิ่ม เครื่องมือ file_search ในรายการเครื่องมือที่โมเดลใช้ได้
- ขณะนี้ค้นหาได้จาก Vector Store เพียงหนึ่งรายการต่อครั้ง เท่านั้น (ใช้ได้เพียง single vector store ID)

Computer Use

อิงตามโมเดล Computer-Using Agent(CUA) ที่สามารถทำงานบนคอมพิวเตอร์ของผู้ใช้ได้
ผสานความสามารถด้านการมองเห็นของ GPT-4o และการให้เหตุผลขั้นสูง เพื่อควบคุมอินเทอร์เฟซคอมพิวเตอร์และทำงานต่าง ๆ
ให้บริการผ่าน Responses API และ ไม่สามารถใช้ใน Chat Completions
ขณะนี้อยู่ในสถานะเบต้า จึงอาจมีช่องโหว่หรือความผิดพลาดได้ ไม่แนะนำให้ใช้ในสภาพแวดล้อมที่ยืนยันตัวตนครบถ้วนหรือกับงานสำคัญ
วิธีการทำงาน
- โมเดลจะส่งคำสั่งงานบนคอมพิวเตอร์ เช่น คลิก(x, y), พิมพ์(text)
- โค้ดของผู้ใช้จะนำคำสั่งนั้นไปดำเนินการในสภาพแวดล้อมคอมพิวเตอร์หรือเบราว์เซอร์ และส่งภาพหน้าจอกลับมา
- โมเดลจะเข้าใจสถานะของสภาพแวดล้อมจากภาพหน้าจอและเสนอการทำงานถัดไป
- สามารถทำงานอัตโนมัติได้หลากหลาย เช่น คลิก พิมพ์ เลื่อนหน้าจอ ผ่านลูปต่อเนื่อง
โฆษณา
ตัวอย่างการใช้งาน : จองเที่ยวบิน ค้นหาสินค้า กรอกแบบฟอร์ม

Responses API

อินเทอร์เฟซโมเดลที่ล้ำหน้าที่สุดของ OpenAI
รองรับ อินพุตข้อความและภาพ และสร้าง เอาต์พุตข้อความ
รองรับ การโต้ตอบแบบคงสถานะ ที่สามารถนำเอาต์พุตของคำตอบก่อนหน้าไปใช้เป็นอินพุตถัดไปได้
สามารถขยายความสามารถได้
- ขยายความสามารถของโมเดลได้ผ่านเครื่องมือในตัว
  - File Search – ค้นหาแบบ semantic และ keyword จากไฟล์ที่อัปโหลดได้
  - Web Search – ค้นหาข้อมูลล่าสุดจากเว็บได้
  - Computer Use – ควบคุมอินเทอร์เฟซคอมพิวเตอร์และทำงานอัตโนมัติได้
- Function Calling – เข้าถึงระบบและข้อมูลภายนอกได้
  - สามารถเรียกใช้ฟังก์ชัน Python และโต้ตอบกับระบบภายนอกได้

Agents SDK

สามารถพัฒนา แอป AI แบบ Agent ได้ด้วยแพ็กเกจที่เรียบง่าย ใช้งานง่าย และไม่มี abstraction ที่ซับซ้อน
เป็นเวอร์ชันอัปเกรดระดับ production ของแพลตฟอร์มทดลองเดิม Swarm
องค์ประกอบหลัก(Primitive):
- Agents – เอเจนต์ที่อิง LLM พร้อมคำสั่งและเครื่องมือ
- Handoffs – มอบหมายงานเฉพาะให้เอเจนต์ตัวอื่น
- Guardrails – ตรวจสอบและกรองค่าอินพุตของเอเจนต์
โฆษณา
การผสานกับ Python และความสามารถที่ทรงพลัง
- เมื่อใช้ร่วมกับ Python สามารถกำหนดความสัมพันธ์ระหว่างเครื่องมือที่ทรงพลังและสร้างเวิร์กโฟลว์ที่ซับซ้อนได้
- มีฟีเจอร์ Tracing สำหรับการแสดงภาพและดีบัก
- รองรับทั้งการประเมินผล ดีบัก และการ fine-tune โมเดล
จุดเด่นหลักของ Agents SDK
- หลักการออกแบบ
  - มีความสามารถทรงพอเพียง แต่เรียนรู้ไม่มาก จึงคุ้นเคยได้อย่างรวดเร็ว
  - ให้ประสิทธิภาพที่ดีตั้งแต่ค่าเริ่มต้น และปรับรายละเอียดได้เมื่อจำเป็น
- ความสามารถพื้นฐาน
  - Agent Loop : ลูปในตัวจะจัดการการเรียกใช้เครื่องมือ → ประมวลผลผลลัพธ์ → สร้างคำตอบจาก LLM → จบการทำงานโดยอัตโนมัติ
  - Python-first design : ใช้ความสามารถของภาษา Python ได้โดยตรงเพื่อเชื่อมต่อและ orchestration เอเจนต์
  - Handoffs : มอบหมายและประสานงานงานระหว่างหลายเอเจนต์ได้
  - Guardrails : ตรวจสอบค่าอินพุตและทำการตรวจเช็กแบบขนาน พร้อมยุติก่อนกำหนดได้เมื่อเกิดข้อผิดพลาด
  - Function Tools : แปลงฟังก์ชัน Python ให้เป็นเครื่องมือโดยอัตโนมัติ → สร้างและตรวจสอบสคีมาอัตโนมัติ
  - Tracing : ใช้ความสามารถ tracing ในตัวเพื่อแสดงภาพเวิร์กโฟลว์ ดีบัก ประเมินผล และปรับปรุงได้