OpenAI เปิดตัว Deep Research

xguru · 2025-02-03T13:41:21+09:00

ฟีเจอร์แบบเอเจนต์ใหม่ "Deep Research" ที่ OpenAI นำมาใช้ใน ChatGPT ทำหน้าที่รวบรวม วิเคราะห์ และสังเคราะห์ข้อมูลมหาศาลจากอินเทอร์เน็ต เพื่อแก้โจทย์ที่ซับซ้อนโดยอัตโนมัติภายในเวลาเพียงไม่กี่สิบนาที ในฐานะขั้นตอนสำคัญสู่การบรรลุ AGI ความสามารถด้าน "การสังเคราะห์ความรู้" ที่สามารถสร้างองค์ความรู้ใหม่ได้ถือเป็นสิ่งจำเป็น เหตุผลที่สร้าง Deep research พัฒนาขึ้นเพื่อผู้ใช้ที่ต้องการผลการค้นคว้าที่ละเอียดถี่ถ้วนและเชื่อถือได้ ตั้งแต่งานความรู้ระดับสูง เช่น การเงิน วิทยาศาสตร์ นโยบาย และวิศวกรรม ไปจนถึงการรีเสิร์ชเพื่อซื้อสินค้าอุปโภคบริโภคชิ้นใหญ่ สามารถค้นหาและจัดทำเอกสารเกี่ยวกับข้อมูลเฉพาะทางที่หาได้ยากหรือข้อเท็จจริงที่ไม่ชัดเจนจากแหล่งข้อมูลออนไลน์หลากหลายได้อย่างรวดเร็ว ช่วยทำให้งานวิจัยระดับมืออาชีพเป็นระบบอัตโนมัติ เพื่อเพิ่มประสิทธิภาพการทำงานอย่างมาก วิธีใช้ Deep research เลือกโหมด Deep research ในช่องป้อนข้อความของ ChatGPT สามารถแนบไฟล์หรือสเปรดชีตที่จำเป็นพร้อมคำขอได้ เช่น การวิเคราะห์คู่แข่ง หรือคำแนะนำผลิตภัณฑ์แบบเฉพาะบุคคล Deep research จะท่องอินเทอร์เน็ตเป็นเวลา 5 นาทีถึงสูงสุด 30 นาที เพื่อจัดทำรายงานอย่างละเอียด ระหว่างการทำงาน ผู้ใช้สามารถติดตามกระบวนการผ่านแถบด้านข้างที่แสดงสรุปเป็นรายขั้นตอนและแหล่งอ้างอิง ผลลัพธ์สุดท้ายจะถูกส่งมาในรูปแบบรายงานพร้อมการอ้างอิงอย่างกว้างขวาง และในอนาคตจะรองรับภาพและการแสดงผลข้อมูลด้วย หลักการทำงาน ใช้โมเดลรุ่นถัดไปที่ขยายความสามารถด้านการให้เหตุผลของ OpenAI o1 (อิงกับ OpenAI o3) เพื่อรองรับงานท่องเว็บและวิเคราะห์ที่ซับซ้อน สามารถวางแผนหลายขั้นตอน รวบรวมข้อมูล และนำฟีดแบ็กระหว่างทางมาปรับใช้ได้ด้วยตนเอง เข้าถึงไฟล์ที่ผู้ใช้อัปโหลดได้ และสามารถทำงานวิเคราะห์ เช่น การสร้างกราฟด้วยเครื่องมือ Python อ้างอิงแหล่งที่มาในระดับประโยค เพื่อเพิ่มความแม่นยำและความโปร่งใส การประเมิน Humanity’s Last Exam ใน Humanity’s Last Exam ซึ่งเป็นการประเมินแบบครอบคลุมที่เพิ่งเปิดเผยล่าสุด ทำอัตราตอบถูกได้ 26.6% แสดงประสิทธิภาพที่โดดเด่นเมื่อเทียบกับโมเดลก่อนหน้า มีคำถามระดับผู้เชี่ยวชาญมากกว่า 3,000 ข้อ ครอบคลุมหลายสาขาวิชา มีพัฒนาการอย่างมากเมื่อเทียบกับโมเดลก่อนหน้าในสาขาเคมี มนุษยศาสตร์และสังคมศาสตร์ และคณิตศาสตร์ โมเดลที่ใช้เปรียบเทียบมีทั้ง GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking และ OpenAI o1 โดยโมเดล Deep research ทำความแม่นยำได้สูงสุดที่ 26.6% GPT-4o อยู่ที่ประมาณ 3.3%, Claude 3.5 Sonnet อยู่ที่ 4.3% และ OpenAI o1 อยู่ที่ 9.1% GAIA benchmark GAIA เป็นตัวชี้วัดที่ประเมินคำถามในโลกจริงซึ่งต้องอาศัยทั้งการท่องเว็บ การประมวลผลแบบมัลติโหมด และความสามารถในการใช้เครื่องมือ โมเดล Deep research ทำลายสถิติผลงานสูงสุดเดิมใน benchmark นี้ โจทย์ของ GAIA แบ่งระดับความยากไว้เป็นเลเวล 1 ถึง 3 และ Deep research ทำคะแนนได้สูงกว่าสถิติเดิมในทุกระดับความยาก โดยเฉพาะเมื่อเทียบกับสถิติเดิม แต่ละระดับดีขึ้นราว 6–8% และค่าเฉลี่ยรวมก็สูงขึ้นด้วย งานระดับผู้เชี่ยวชาญ ในการประเมินภายใน แสดงให้เห็นระดับการทำงานอัตโนมัติที่สูงพอจะทดแทนการค้นคว้าด้วยมือที่ต้องใช้เวลาหลายชั่วโมงได้ ยิ่งโมเดลได้ท่องข้อมูลและใช้เวลาคิดมากขึ้น ประสิทธิภาพก็ยิ่งดีขึ้น ดังนั้นการให้เวลาในการประมวลผลอย่างเพียงพอจึงสำคัญ ข้อจำกัด ยังอาจเกิดข้อผิดพลาดด้านข้อเท็จจริงหรือการให้เหตุผลผิดพลาด (hallucination) ได้อยู่ ยังมีความยากในการแยกแยะข่าวลือออกจากแหล่งข้อมูลที่น่าเชื่อถือ และการแสดงระดับความไม่แน่นอนอาจไม่แม่นยำ ในช่วงเปิดตัวแรก ๆ รูปแบบรายงานหรือการอ้างอิงอาจยังไม่ลื่นไหลนัก และบางครั้งอาจใช้เวลาทำงานนาน การเข้าถึงและการใช้งาน ขณะนี้ Deep research มีต้นทุนการประมวลผลสูง จึงเปิดให้ผู้ใช้ Pro ใช้งานก่อน โดยใช้งานได้สูงสุด 100 ครั้งต่อเดือน จะทยอยเปิดให้ผู้ใช้ Plus และ Team เร็ว ๆ นี้ มีแผนจะขยายการรองรับให้ผู้ใช้ในสหราชอาณาจักร สวิตเซอร์แลนด์ และเขตเศรษฐกิจยุโรป (EEA) ในภายหลัง ในอนาคต เวอร์ชันโมเดลขนาดเล็กที่เร็วและมีประสิทธิภาพมากขึ้นจะช่วยเพิ่มขีดจำกัดคำขอของบัญชีแบบชำระเงินทั้งหมดอย่างมาก แผนในอนาคต ในช่วงแรก Deep research ใช้งานได้บน ChatGPT เวอร์ชันเว็บ และจะเพิ่มลงในแอปมือถือและเดสก์ท็อปในเร็ว ๆ นี้ ต่อไปจะเชื่อมต่อกับข้อมูลแบบสมัครสมาชิกหรือทรัพยากรภายใน เพื่อให้ผลลัพธ์ที่ปรับให้เหมาะกับแต่ละบุคคลมากยิ่งขึ้น หากนำ Deep research ไปผสานกับ Operator ก็อาจสร้างประสบการณ์เอเจนต์ขั้นสูงที่ทำงานจริงทั้งแบบออฟไลน์และออนไลน์ได้โดยอัตโนมัติ

(openai.com)

13 คะแนน โดย xguru 2025-02-03 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

ฟีเจอร์แบบเอเจนต์ใหม่ "Deep Research" ที่ OpenAI นำมาใช้ใน ChatGPT
ทำหน้าที่รวบรวม วิเคราะห์ และสังเคราะห์ข้อมูลมหาศาลจากอินเทอร์เน็ต เพื่อแก้โจทย์ที่ซับซ้อนโดยอัตโนมัติภายในเวลาเพียงไม่กี่สิบนาที
ในฐานะขั้นตอนสำคัญสู่การบรรลุ AGI ความสามารถด้าน "การสังเคราะห์ความรู้" ที่สามารถสร้างองค์ความรู้ใหม่ได้ถือเป็นสิ่งจำเป็น

เหตุผลที่สร้าง Deep research

พัฒนาขึ้นเพื่อผู้ใช้ที่ต้องการผลการค้นคว้าที่ละเอียดถี่ถ้วนและเชื่อถือได้ ตั้งแต่งานความรู้ระดับสูง เช่น การเงิน วิทยาศาสตร์ นโยบาย และวิศวกรรม ไปจนถึงการรีเสิร์ชเพื่อซื้อสินค้าอุปโภคบริโภคชิ้นใหญ่
สามารถค้นหาและจัดทำเอกสารเกี่ยวกับข้อมูลเฉพาะทางที่หาได้ยากหรือข้อเท็จจริงที่ไม่ชัดเจนจากแหล่งข้อมูลออนไลน์หลากหลายได้อย่างรวดเร็ว
ช่วยทำให้งานวิจัยระดับมืออาชีพเป็นระบบอัตโนมัติ เพื่อเพิ่มประสิทธิภาพการทำงานอย่างมาก

วิธีใช้ Deep research

เลือกโหมด Deep research ในช่องป้อนข้อความของ ChatGPT
สามารถแนบไฟล์หรือสเปรดชีตที่จำเป็นพร้อมคำขอได้ เช่น การวิเคราะห์คู่แข่ง หรือคำแนะนำผลิตภัณฑ์แบบเฉพาะบุคคล
Deep research จะท่องอินเทอร์เน็ตเป็นเวลา 5 นาทีถึงสูงสุด 30 นาที เพื่อจัดทำรายงานอย่างละเอียด
ระหว่างการทำงาน ผู้ใช้สามารถติดตามกระบวนการผ่านแถบด้านข้างที่แสดงสรุปเป็นรายขั้นตอนและแหล่งอ้างอิง
ผลลัพธ์สุดท้ายจะถูกส่งมาในรูปแบบรายงานพร้อมการอ้างอิงอย่างกว้างขวาง และในอนาคตจะรองรับภาพและการแสดงผลข้อมูลด้วย

หลักการทำงาน

ใช้โมเดลรุ่นถัดไปที่ขยายความสามารถด้านการให้เหตุผลของ OpenAI o1 (อิงกับ OpenAI o3) เพื่อรองรับงานท่องเว็บและวิเคราะห์ที่ซับซ้อน
สามารถวางแผนหลายขั้นตอน รวบรวมข้อมูล และนำฟีดแบ็กระหว่างทางมาปรับใช้ได้ด้วยตนเอง
เข้าถึงไฟล์ที่ผู้ใช้อัปโหลดได้ และสามารถทำงานวิเคราะห์ เช่น การสร้างกราฟด้วยเครื่องมือ Python
อ้างอิงแหล่งที่มาในระดับประโยค เพื่อเพิ่มความแม่นยำและความโปร่งใส

การประเมิน Humanity’s Last Exam

ใน Humanity’s Last Exam ซึ่งเป็นการประเมินแบบครอบคลุมที่เพิ่งเปิดเผยล่าสุด ทำอัตราตอบถูกได้ 26.6% แสดงประสิทธิภาพที่โดดเด่นเมื่อเทียบกับโมเดลก่อนหน้า
- มีคำถามระดับผู้เชี่ยวชาญมากกว่า 3,000 ข้อ ครอบคลุมหลายสาขาวิชา
มีพัฒนาการอย่างมากเมื่อเทียบกับโมเดลก่อนหน้าในสาขาเคมี มนุษยศาสตร์และสังคมศาสตร์ และคณิตศาสตร์
โมเดลที่ใช้เปรียบเทียบมีทั้ง GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking และ OpenAI o1 โดยโมเดล Deep research ทำความแม่นยำได้สูงสุดที่ 26.6%
- GPT-4o อยู่ที่ประมาณ 3.3%, Claude 3.5 Sonnet อยู่ที่ 4.3% และ OpenAI o1 อยู่ที่ 9.1%

GAIA benchmark

GAIA เป็นตัวชี้วัดที่ประเมินคำถามในโลกจริงซึ่งต้องอาศัยทั้งการท่องเว็บ การประมวลผลแบบมัลติโหมด และความสามารถในการใช้เครื่องมือ
โมเดล Deep research ทำลายสถิติผลงานสูงสุดเดิมใน benchmark นี้
โจทย์ของ GAIA แบ่งระดับความยากไว้เป็นเลเวล 1 ถึง 3 และ Deep research ทำคะแนนได้สูงกว่าสถิติเดิมในทุกระดับความยาก
โดยเฉพาะเมื่อเทียบกับสถิติเดิม แต่ละระดับดีขึ้นราว 6–8% และค่าเฉลี่ยรวมก็สูงขึ้นด้วย

งานระดับผู้เชี่ยวชาญ

ในการประเมินภายใน แสดงให้เห็นระดับการทำงานอัตโนมัติที่สูงพอจะทดแทนการค้นคว้าด้วยมือที่ต้องใช้เวลาหลายชั่วโมงได้
ยิ่งโมเดลได้ท่องข้อมูลและใช้เวลาคิดมากขึ้น ประสิทธิภาพก็ยิ่งดีขึ้น ดังนั้นการให้เวลาในการประมวลผลอย่างเพียงพอจึงสำคัญ

ข้อจำกัด

ยังอาจเกิดข้อผิดพลาดด้านข้อเท็จจริงหรือการให้เหตุผลผิดพลาด (hallucination) ได้อยู่
ยังมีความยากในการแยกแยะข่าวลือออกจากแหล่งข้อมูลที่น่าเชื่อถือ และการแสดงระดับความไม่แน่นอนอาจไม่แม่นยำ
ในช่วงเปิดตัวแรก ๆ รูปแบบรายงานหรือการอ้างอิงอาจยังไม่ลื่นไหลนัก และบางครั้งอาจใช้เวลาทำงานนาน

การเข้าถึงและการใช้งาน

ขณะนี้ Deep research มีต้นทุนการประมวลผลสูง จึงเปิดให้ผู้ใช้ Pro ใช้งานก่อน โดยใช้งานได้สูงสุด 100 ครั้งต่อเดือน
จะทยอยเปิดให้ผู้ใช้ Plus และ Team เร็ว ๆ นี้
มีแผนจะขยายการรองรับให้ผู้ใช้ในสหราชอาณาจักร สวิตเซอร์แลนด์ และเขตเศรษฐกิจยุโรป (EEA) ในภายหลัง
ในอนาคต เวอร์ชันโมเดลขนาดเล็กที่เร็วและมีประสิทธิภาพมากขึ้นจะช่วยเพิ่มขีดจำกัดคำขอของบัญชีแบบชำระเงินทั้งหมดอย่างมาก

แผนในอนาคต

ในช่วงแรก Deep research ใช้งานได้บน ChatGPT เวอร์ชันเว็บ และจะเพิ่มลงในแอปมือถือและเดสก์ท็อปในเร็ว ๆ นี้
ต่อไปจะเชื่อมต่อกับข้อมูลแบบสมัครสมาชิกหรือทรัพยากรภายใน เพื่อให้ผลลัพธ์ที่ปรับให้เหมาะกับแต่ละบุคคลมากยิ่งขึ้น
หากนำ Deep research ไปผสานกับ Operator ก็อาจสร้างประสบการณ์เอเจนต์ขั้นสูงที่ทำงานจริงทั้งแบบออฟไลน์และออนไลน์ได้โดยอัตโนมัติ

3 ความคิดเห็น

xguru 2025-02-09

รายงานจริงที่จัดทำโดยใช้ DeepResearch

GN⁺ 2025-02-04

ความเห็นจาก Hacker News

ผู้ใช้คนหนึ่งบอกว่าเขาลองให้มันเขียนรายงานเกี่ยวกับตัวเอง แต่พบข้อผิดพลาดหลายอย่าง ตัวอย่างเช่น ระบบรับรู้ชื่อเสียงของเขาใน Stack Overflow ผิด และยังดึงคำพูดจากบทสัมภาษณ์มาจากคนผิดอีกด้วย
ผู้ใช้อีกคนชี้ว่า โมเดลภาษามีโอกาสราว 10% ที่จะให้คำตอบไม่ถูกต้องทั้งหมด ซึ่งอาจบั่นทอนความน่าเชื่อถือได้ พร้อมย้ำว่าเวลาที่ต้องใช้ในการตรวจสอบความถูกต้องของคำตอบก็เป็นปัจจัยสำคัญ
ผู้ใช้คนหนึ่งกล่าวว่ามันคล้ายกับโปรเจ็กต์สร้างรายงานที่ Standard เพิ่งเปิดตัวไปเมื่อไม่นานนี้
มีการกล่าวถึงว่า Gemini ให้ฟีเจอร์นี้ภายใต้ชื่อ "Deep Research" มาหลายเดือนแล้ว และตั้งคำถามถึงปรากฏการณ์ชื่อซ้ำกันในโลก AI
ผู้ใช้คนหนึ่งกังวลว่า ต่อให้ยอมรับเรื่องข้อผิดพลาดและปัญหา hallucination ผู้คนจำนวนมากก็น่าจะมองข้ามและนำผลลัพธ์ไปใส่ใน PowerPoint ของตัวเองอยู่ดี พร้อมเตือนว่ายิ่งเครื่องมือเหล่านี้ทรงพลังขึ้น การบิดเบือนข้อมูลก็จะยิ่งรุนแรงขึ้น
มีการกล่าวว่าโมเดล o3 ที่ยังไม่เปิดตัวรองรับฟีเจอร์นี้ และเป็นโมเดลที่น่าประทับใจมาก โดยเน้นว่า Google, DeepSeek และ Perplexity ต่างมีโมเดลชั้นนำ
มีคนบอกว่านี่เป็นเครื่องมือที่น่าสนใจสำหรับคนทำงานในแวดวงวิชาการ อยากลองทดสอบดูแต่ติดเรื่องค่าใช้จ่าย พร้อมขอให้คนอื่นช่วยทดสอบด้วยพรอมป์ต์เฉพาะให้
มีการตั้งคำถามถึงความสามารถนี้ในฐานะเงื่อนไขเบื้องต้นของ AGI และ ASI แสดงความสงสัยต่อความสำคัญของการวิจัย และกังวลกับการพึ่งพาคำตอบแทนที่จะดูผลลัพธ์จากการลงมือทำจริง
มีการระบุว่าการทดสอบภายในทำอัตราผ่านได้เพียง 20% และชี้ว่าการต้องไล่อ่านข้อความที่ไม่แม่นยำจำนวนมากกินเวลามาก จึงมองว่ายังต้องการกระบวนการที่ทำซ้ำได้มากกว่านี้
มีการตั้งคำถามว่าเหล่าผู้เชี่ยวชาญชื่อดังหรือคนที่ต้องการการมองเห็นจะยังเขียนบล็อกต่อไปหรือไม่ พร้อมกังวลถึงสถานการณ์ที่ผู้อ่านทั้งหมดกลายเป็นบอต

devil1032 2025-02-03

คาดหวังไว้มากจริงๆ.. นี่ไม่ใช่ one more thing ด้วยซ้ำ..
ประเด็น DeepSeek จะถูกกลบด้วยเรื่องนี้หรือเปล่านะ