เปิดตัว Gemini Deep Research Agent API

(x.com/GoogleAIStudio)

4 คะแนน โดย ragingwind 6 일 전 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Google เปิดตัว Gemini Deep Research Agent ในรูปแบบ API แล้ว Deep Research คือความสามารถที่ AI จะวางแผนการค้นคว้าด้วยตัวเองจากคำถามที่ผู้ใช้ป้อน จากนั้นสำรวจ เปรียบเทียบ และสังเคราะห์ข้อมูลจากหลายหน้าเว็บ ก่อนสร้างรายงานฉบับยาวแบบอัตโนมัติพร้อมแหล่งอ้างอิง ก่อนหน้านี้ใช้งานได้เฉพาะบนเว็บ UI ของ Google AI Studio แต่ครั้งนี้นักพัฒนาสามารถนำไปผสานเข้ากับแอปของตนได้โดยตรงผ่านอินเทอร์เฟซแบบอะซิงโครนัสใหม่ชื่อ Interactions API แตกต่างจากการเรียก generate_content แบบเดิม เพราะงานจะรันอยู่เบื้องหลังเป็นเวลาหลายนาที ดังนั้นหลังส่งคำขอแล้วจึงต้องคอยตรวจสอบเป็นระยะว่าทำงานเสร็จหรือยังด้วยการ polling หรือรับความคืบหน้าแบบสตรีมมิง

โมเดลที่ให้บริการ

deep-research-preview-04-2026 : เน้นความเร็วและประสิทธิภาพ เหมาะกับการสตรีมผลแบบเรียลไทม์ไปยัง UI ฝั่งไคลเอนต์
deep-research-max-preview-04-2026 : มุ่งเน้นความครอบคลุมสูงสุด เด่นด้านการเก็บและสังเคราะห์บริบทแบบอัตโนมัติ

สรุปความสามารถหลัก

การวางแผนร่วมกัน (Collaborative Planning) : เอเจนต์จะยังไม่เริ่มค้นคว้าทันที แต่จะเสนอแผนก่อน เมื่อผู้ใช้ตรวจทาน แก้ไข และอนุมัติแล้วจึงค่อยเริ่มทำงานจริง
สร้างแผนภูมิและอินโฟกราฟิกอัตโนมัติ : เมื่อเปิดตัวเลือก visualization="auto" เอเจนต์จะสร้างแผนภูมิและกราฟเอง แล้วส่งกลับมาเป็นภาพที่เข้ารหัสแบบ base64
เชื่อมต่อ MCP server : รองรับ Model Context Protocol (มาตรฐานเปิดสำหรับเชื่อมเครื่องมือภายนอกเข้ากับ LLM) ทำให้สามารถต่อเครื่องมือจากบริการภายนอก เช่น ข้อมูลการเงิน เข้ากับเอเจนต์ได้
ชุดเครื่องมือที่ขยายได้ : มี Google Search, การอ่านเนื้อหา URL และการรันโค้ดมาให้โดยพื้นฐาน และสามารถเพิ่ม file search (สำหรับเอกสารที่อัปโหลด) กับ MCP server ได้แบบเลือกใช้
อินพุตแบบมัลติโหมด : ส่งได้ไม่ใช่แค่ข้อความ แต่รวมถึงรูปภาพ PDF และไฟล์เสียงเป็นบริบทสำหรับการค้นคว้าได้ด้วย
สตรีมมิงแบบเรียลไทม์และสรุปกระบวนการคิด : สามารถรับความคืบหน้าของการค้นคว้าแบบเรียลไทม์ได้ และหากเปิด thinking_summaries="auto" ก็จะดูสรุปกระบวนการให้เหตุผลระหว่างทางของเอเจนต์ได้ด้วย

ตัวอย่างโค้ดหลัก

นี่คือวิธีใช้งานพื้นฐานที่สุด เริ่มงานอะซิงโครนัสด้วย background=True แล้ว polling เพื่อตรวจสอบสถานะทุก 10 วินาที

import time  
from google import genai  
  
client = genai.Client()  
  
interaction = client.interactions.create(  
    input="Research the history of Google TPUs.",  
    agent="deep-research-preview-04-2026",  
    background=True,  
)  
  
while True:  
    interaction = client.interactions.get(interaction.id)  
    if interaction.status == "completed":  
        print(interaction.outputs[-1].text)  
        break  
    elif interaction.status == "failed":  
        print(f"Research failed: {interaction.error}")  
        break  
    time.sleep(10)

นี่คือขั้นตอนการวางแผนร่วมกัน โดยเริ่มจาก collaborative_planning=True เพื่อรับเฉพาะแผนก่อน จากนั้นให้ฟีดแบ็ก และสุดท้ายต้องเปลี่ยนเป็น False จึงจะเริ่มการค้นคว้าจริงได้ ควรระวังว่าแค่ส่งข้อความว่า "go ahead" อย่างเดียวโดยไม่เปลี่ยนแฟลก รายงานจะไม่ถูกสร้าง

# ขั้นที่ 1: ขอแผน  
plan = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Research Google TPUs vs competitor hardware.",  
    agent_config={"type": "deep-research", "collaborative_planning": True},  
    background=True,  
)  
while (result := client.interactions.get(id=plan.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # แสดงแผนที่เสนอ  
  
# ขั้นที่ 2: ปรับแก้แผน (สนทนาต่อด้วย previous_interaction_id)  
refined = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Add a section comparing power efficiency.",  
    agent_config={"type": "deep-research", "collaborative_planning": True},  
    previous_interaction_id=plan.id,  
    background=True,  
)  
while (result := client.interactions.get(id=refined.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # แผนที่ปรับแล้ว  
  
# ขั้นที่ 3: อนุมัติแล้วค่อยรัน (ต้องสลับ collaborative_planning=False)  
report = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Plan looks good!",  
    agent_config={"type": "deep-research", "collaborative_planning": False},  
    previous_interaction_id=refined.id,  
    background=True,  
)  
while (result := client.interactions.get(id=report.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # รายงานฉบับสุดท้าย

นี่คือตัวอย่างการสร้างแผนภูมิและอินพุตแบบมัลติโหมด แม้จะเปิดตัวเลือกการแสดงผลภาพไว้ แต่หากระบุในพรอมป์ต์ให้ชัดว่าต้องการแผนภูมิแบบไหน ก็จะได้ผลลัพธ์ที่ดีกว่า

# การค้นคว้าที่มีแผนภูมิประกอบ  
interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Analyze global semiconductor market trends. Include charts showing market share changes.",  
    agent_config={"type": "deep-research", "visualization": "auto"},  
    background=True,  
)  
  
# การค้นคว้าแบบมัลติโหมดโดยส่งงานวิจัย PDF เป็นบริบท  
interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input=[  
        {"type": "text", "text": "What has been the impact of this research paper?"},  
        {"type": "document", "uri": "https://arxiv.org/pdf/1706.03762";, "mime_type": "application/pdf"},  
    ],  
    background=True,  
)

นี่คือตัวอย่างการเชื่อม MCP server เพื่อป้อนข้อมูลการเงินภายนอกให้เอเจนต์ โดยสามารถใช้ allowed_tools เพื่อจำกัดเครื่องมือที่เอเจนต์เรียกใช้ได้ด้วย

interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Research how recent geopolitical events influenced USD interest rates",  
    tools=[  
        {  
            "type": "mcp_server",  
            "name": "Finance Data Provider",  
            "url": "https://finance.example.com/mcp";,  
            "headers": {"Authorization": "Bearer my-token"},  
        }  
    ],  
    background=True,  
)

จุดแตกต่าง

สิ่งที่โดดเด่นคือ นี่ไม่ใช่แค่ RAG แบบพื้นฐาน (การสร้างคำตอบโดยเสริมด้วยการค้นหาเอกสารภายนอกแล้วส่งให้ LLM) หรือการถามตอบเพียงครั้งเดียว แต่เป็นการทำเวิร์กโฟลว์การค้นคว้าแบบยาวตั้งแต่ วางแผน-ค้นหา-สังเคราะห์ ให้เป็นอัตโนมัติผ่าน API เดียว โดยเฉพาะการวางแผนร่วมกันที่สะท้อนแนวคิดการออกแบบว่า "ให้เอเจนต์จัดการเอง แต่ให้มนุษย์กำหนดทิศทาง" ได้อย่างชัดเจน
สามารถผสมผสานทั้งการค้นหาเว็บสาธารณะและการค้นหาเอกสารภายในที่ไม่เปิดเผยได้ด้วยการตั้งค่าเครื่องมือเพียงอย่างเดียว จึงเปิดโอกาสให้นำไปใช้กับงานค้นคว้าที่อิงข้อมูลภายในองค์กรได้

นัยสำคัญ

เมื่อ AI research agent ถูกลดระดับลงมาถึงชั้น API แล้ว แอปพลิเคชันต่าง ๆ ก็สามารถฝังความสามารถแบบ "deep research" ได้โดยตรงโดยไม่ต้องมี agent framework แยกต่างหาก อย่างไรก็ตาม โครงสร้าง API แบบอะซิงโครนัสที่ต้อง polling นี้ทำให้นักพัฒนาที่คุ้นกับการเรียก LLM แบบซิงโครนัสต้องปรับเปลี่ยนแพตเทิร์นการออกแบบ และประเด็นสำคัญในการนำไปใช้จริงน่าจะอยู่ที่การออกแบบ UX เพื่อรับมือกับความหน่วงระดับหลายนาทีของการตอบกลับ

เปิดตัว Gemini Deep Research Agent API

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น