เปิดตัว Gemini Deep Research Agent API
(x.com/GoogleAIStudio)Google เปิดตัว Gemini Deep Research Agent ในรูปแบบ API แล้ว Deep Research คือความสามารถที่ AI จะวางแผนการค้นคว้าด้วยตัวเองจากคำถามที่ผู้ใช้ป้อน จากนั้นสำรวจ เปรียบเทียบ และสังเคราะห์ข้อมูลจากหลายหน้าเว็บ ก่อนสร้างรายงานฉบับยาวแบบอัตโนมัติพร้อมแหล่งอ้างอิง ก่อนหน้านี้ใช้งานได้เฉพาะบนเว็บ UI ของ Google AI Studio แต่ครั้งนี้นักพัฒนาสามารถนำไปผสานเข้ากับแอปของตนได้โดยตรงผ่านอินเทอร์เฟซแบบอะซิงโครนัสใหม่ชื่อ Interactions API แตกต่างจากการเรียก generate_content แบบเดิม เพราะงานจะรันอยู่เบื้องหลังเป็นเวลาหลายนาที ดังนั้นหลังส่งคำขอแล้วจึงต้องคอยตรวจสอบเป็นระยะว่าทำงานเสร็จหรือยังด้วยการ polling หรือรับความคืบหน้าแบบสตรีมมิง
โมเดลที่ให้บริการ
deep-research-preview-04-2026: เน้นความเร็วและประสิทธิภาพ เหมาะกับการสตรีมผลแบบเรียลไทม์ไปยัง UI ฝั่งไคลเอนต์deep-research-max-preview-04-2026: มุ่งเน้นความครอบคลุมสูงสุด เด่นด้านการเก็บและสังเคราะห์บริบทแบบอัตโนมัติ
สรุปความสามารถหลัก
- การวางแผนร่วมกัน (Collaborative Planning) : เอเจนต์จะยังไม่เริ่มค้นคว้าทันที แต่จะเสนอแผนก่อน เมื่อผู้ใช้ตรวจทาน แก้ไข และอนุมัติแล้วจึงค่อยเริ่มทำงานจริง
- สร้างแผนภูมิและอินโฟกราฟิกอัตโนมัติ : เมื่อเปิดตัวเลือก
visualization="auto"เอเจนต์จะสร้างแผนภูมิและกราฟเอง แล้วส่งกลับมาเป็นภาพที่เข้ารหัสแบบ base64 - เชื่อมต่อ MCP server : รองรับ Model Context Protocol (มาตรฐานเปิดสำหรับเชื่อมเครื่องมือภายนอกเข้ากับ LLM) ทำให้สามารถต่อเครื่องมือจากบริการภายนอก เช่น ข้อมูลการเงิน เข้ากับเอเจนต์ได้
- ชุดเครื่องมือที่ขยายได้ : มี Google Search, การอ่านเนื้อหา URL และการรันโค้ดมาให้โดยพื้นฐาน และสามารถเพิ่ม file search (สำหรับเอกสารที่อัปโหลด) กับ MCP server ได้แบบเลือกใช้
- อินพุตแบบมัลติโหมด : ส่งได้ไม่ใช่แค่ข้อความ แต่รวมถึงรูปภาพ PDF และไฟล์เสียงเป็นบริบทสำหรับการค้นคว้าได้ด้วย
- สตรีมมิงแบบเรียลไทม์และสรุปกระบวนการคิด : สามารถรับความคืบหน้าของการค้นคว้าแบบเรียลไทม์ได้ และหากเปิด
thinking_summaries="auto"ก็จะดูสรุปกระบวนการให้เหตุผลระหว่างทางของเอเจนต์ได้ด้วย
ตัวอย่างโค้ดหลัก
นี่คือวิธีใช้งานพื้นฐานที่สุด เริ่มงานอะซิงโครนัสด้วย background=True แล้ว polling เพื่อตรวจสอบสถานะทุก 10 วินาที
import time
from google import genai
client = genai.Client()
interaction = client.interactions.create(
input="Research the history of Google TPUs.",
agent="deep-research-preview-04-2026",
background=True,
)
while True:
interaction = client.interactions.get(interaction.id)
if interaction.status == "completed":
print(interaction.outputs[-1].text)
break
elif interaction.status == "failed":
print(f"Research failed: {interaction.error}")
break
time.sleep(10)
นี่คือขั้นตอนการวางแผนร่วมกัน โดยเริ่มจาก collaborative_planning=True เพื่อรับเฉพาะแผนก่อน จากนั้นให้ฟีดแบ็ก และสุดท้ายต้องเปลี่ยนเป็น False จึงจะเริ่มการค้นคว้าจริงได้ ควรระวังว่าแค่ส่งข้อความว่า "go ahead" อย่างเดียวโดยไม่เปลี่ยนแฟลก รายงานจะไม่ถูกสร้าง
# ขั้นที่ 1: ขอแผน
plan = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Research Google TPUs vs competitor hardware.",
agent_config={"type": "deep-research", "collaborative_planning": True},
background=True,
)
while (result := client.interactions.get(id=plan.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # แสดงแผนที่เสนอ
# ขั้นที่ 2: ปรับแก้แผน (สนทนาต่อด้วย previous_interaction_id)
refined = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Add a section comparing power efficiency.",
agent_config={"type": "deep-research", "collaborative_planning": True},
previous_interaction_id=plan.id,
background=True,
)
while (result := client.interactions.get(id=refined.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # แผนที่ปรับแล้ว
# ขั้นที่ 3: อนุมัติแล้วค่อยรัน (ต้องสลับ collaborative_planning=False)
report = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Plan looks good!",
agent_config={"type": "deep-research", "collaborative_planning": False},
previous_interaction_id=refined.id,
background=True,
)
while (result := client.interactions.get(id=report.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # รายงานฉบับสุดท้าย
นี่คือตัวอย่างการสร้างแผนภูมิและอินพุตแบบมัลติโหมด แม้จะเปิดตัวเลือกการแสดงผลภาพไว้ แต่หากระบุในพรอมป์ต์ให้ชัดว่าต้องการแผนภูมิแบบไหน ก็จะได้ผลลัพธ์ที่ดีกว่า
# การค้นคว้าที่มีแผนภูมิประกอบ
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Analyze global semiconductor market trends. Include charts showing market share changes.",
agent_config={"type": "deep-research", "visualization": "auto"},
background=True,
)
# การค้นคว้าแบบมัลติโหมดโดยส่งงานวิจัย PDF เป็นบริบท
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input=[
{"type": "text", "text": "What has been the impact of this research paper?"},
{"type": "document", "uri": "https://arxiv.org/pdf/1706.03762", "mime_type": "application/pdf"},
],
background=True,
)
นี่คือตัวอย่างการเชื่อม MCP server เพื่อป้อนข้อมูลการเงินภายนอกให้เอเจนต์ โดยสามารถใช้ allowed_tools เพื่อจำกัดเครื่องมือที่เอเจนต์เรียกใช้ได้ด้วย
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Research how recent geopolitical events influenced USD interest rates",
tools=[
{
"type": "mcp_server",
"name": "Finance Data Provider",
"url": "https://finance.example.com/mcp",
"headers": {"Authorization": "Bearer my-token"},
}
],
background=True,
)
จุดแตกต่าง
- สิ่งที่โดดเด่นคือ นี่ไม่ใช่แค่ RAG แบบพื้นฐาน (การสร้างคำตอบโดยเสริมด้วยการค้นหาเอกสารภายนอกแล้วส่งให้ LLM) หรือการถามตอบเพียงครั้งเดียว แต่เป็นการทำเวิร์กโฟลว์การค้นคว้าแบบยาวตั้งแต่ วางแผน-ค้นหา-สังเคราะห์ ให้เป็นอัตโนมัติผ่าน API เดียว โดยเฉพาะการวางแผนร่วมกันที่สะท้อนแนวคิดการออกแบบว่า "ให้เอเจนต์จัดการเอง แต่ให้มนุษย์กำหนดทิศทาง" ได้อย่างชัดเจน
- สามารถผสมผสานทั้งการค้นหาเว็บสาธารณะและการค้นหาเอกสารภายในที่ไม่เปิดเผยได้ด้วยการตั้งค่าเครื่องมือเพียงอย่างเดียว จึงเปิดโอกาสให้นำไปใช้กับงานค้นคว้าที่อิงข้อมูลภายในองค์กรได้
นัยสำคัญ
- เมื่อ AI research agent ถูกลดระดับลงมาถึงชั้น API แล้ว แอปพลิเคชันต่าง ๆ ก็สามารถฝังความสามารถแบบ "deep research" ได้โดยตรงโดยไม่ต้องมี agent framework แยกต่างหาก อย่างไรก็ตาม โครงสร้าง API แบบอะซิงโครนัสที่ต้อง polling นี้ทำให้นักพัฒนาที่คุ้นกับการเรียก LLM แบบซิงโครนัสต้องปรับเปลี่ยนแพตเทิร์นการออกแบบ และประเด็นสำคัญในการนำไปใช้จริงน่าจะอยู่ที่การออกแบบ UX เพื่อรับมือกับความหน่วงระดับหลายนาทีของการตอบกลับ
ยังไม่มีความคิดเห็น