13 คะแนน โดย xguru 2025-02-03 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • ฟีเจอร์แบบเอเจนต์ใหม่ "Deep Research" ที่ OpenAI นำมาใช้ใน ChatGPT
  • ทำหน้าที่รวบรวม วิเคราะห์ และสังเคราะห์ข้อมูลมหาศาลจากอินเทอร์เน็ต เพื่อแก้โจทย์ที่ซับซ้อนโดยอัตโนมัติภายในเวลาเพียงไม่กี่สิบนาที
  • ในฐานะขั้นตอนสำคัญสู่การบรรลุ AGI ความสามารถด้าน "การสังเคราะห์ความรู้" ที่สามารถสร้างองค์ความรู้ใหม่ได้ถือเป็นสิ่งจำเป็น

เหตุผลที่สร้าง Deep research

  • พัฒนาขึ้นเพื่อผู้ใช้ที่ต้องการผลการค้นคว้าที่ละเอียดถี่ถ้วนและเชื่อถือได้ ตั้งแต่งานความรู้ระดับสูง เช่น การเงิน วิทยาศาสตร์ นโยบาย และวิศวกรรม ไปจนถึงการรีเสิร์ชเพื่อซื้อสินค้าอุปโภคบริโภคชิ้นใหญ่
  • สามารถค้นหาและจัดทำเอกสารเกี่ยวกับข้อมูลเฉพาะทางที่หาได้ยากหรือข้อเท็จจริงที่ไม่ชัดเจนจากแหล่งข้อมูลออนไลน์หลากหลายได้อย่างรวดเร็ว
  • ช่วยทำให้งานวิจัยระดับมืออาชีพเป็นระบบอัตโนมัติ เพื่อเพิ่มประสิทธิภาพการทำงานอย่างมาก

วิธีใช้ Deep research

  • เลือกโหมด Deep research ในช่องป้อนข้อความของ ChatGPT
  • สามารถแนบไฟล์หรือสเปรดชีตที่จำเป็นพร้อมคำขอได้ เช่น การวิเคราะห์คู่แข่ง หรือคำแนะนำผลิตภัณฑ์แบบเฉพาะบุคคล
  • Deep research จะท่องอินเทอร์เน็ตเป็นเวลา 5 นาทีถึงสูงสุด 30 นาที เพื่อจัดทำรายงานอย่างละเอียด
  • ระหว่างการทำงาน ผู้ใช้สามารถติดตามกระบวนการผ่านแถบด้านข้างที่แสดงสรุปเป็นรายขั้นตอนและแหล่งอ้างอิง
  • ผลลัพธ์สุดท้ายจะถูกส่งมาในรูปแบบรายงานพร้อมการอ้างอิงอย่างกว้างขวาง และในอนาคตจะรองรับภาพและการแสดงผลข้อมูลด้วย

หลักการทำงาน

  • ใช้โมเดลรุ่นถัดไปที่ขยายความสามารถด้านการให้เหตุผลของ OpenAI o1 (อิงกับ OpenAI o3) เพื่อรองรับงานท่องเว็บและวิเคราะห์ที่ซับซ้อน
  • สามารถวางแผนหลายขั้นตอน รวบรวมข้อมูล และนำฟีดแบ็กระหว่างทางมาปรับใช้ได้ด้วยตนเอง
  • เข้าถึงไฟล์ที่ผู้ใช้อัปโหลดได้ และสามารถทำงานวิเคราะห์ เช่น การสร้างกราฟด้วยเครื่องมือ Python
  • อ้างอิงแหล่งที่มาในระดับประโยค เพื่อเพิ่มความแม่นยำและความโปร่งใส

การประเมิน Humanity’s Last Exam

  • ใน Humanity’s Last Exam ซึ่งเป็นการประเมินแบบครอบคลุมที่เพิ่งเปิดเผยล่าสุด ทำอัตราตอบถูกได้ 26.6% แสดงประสิทธิภาพที่โดดเด่นเมื่อเทียบกับโมเดลก่อนหน้า
    • มีคำถามระดับผู้เชี่ยวชาญมากกว่า 3,000 ข้อ ครอบคลุมหลายสาขาวิชา
  • มีพัฒนาการอย่างมากเมื่อเทียบกับโมเดลก่อนหน้าในสาขาเคมี มนุษยศาสตร์และสังคมศาสตร์ และคณิตศาสตร์
  • โมเดลที่ใช้เปรียบเทียบมีทั้ง GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking และ OpenAI o1 โดยโมเดล Deep research ทำความแม่นยำได้สูงสุดที่ 26.6%
    • GPT-4o อยู่ที่ประมาณ 3.3%, Claude 3.5 Sonnet อยู่ที่ 4.3% และ OpenAI o1 อยู่ที่ 9.1%

GAIA benchmark

  • GAIA เป็นตัวชี้วัดที่ประเมินคำถามในโลกจริงซึ่งต้องอาศัยทั้งการท่องเว็บ การประมวลผลแบบมัลติโหมด และความสามารถในการใช้เครื่องมือ
  • โมเดล Deep research ทำลายสถิติผลงานสูงสุดเดิมใน benchmark นี้
  • โจทย์ของ GAIA แบ่งระดับความยากไว้เป็นเลเวล 1 ถึง 3 และ Deep research ทำคะแนนได้สูงกว่าสถิติเดิมในทุกระดับความยาก
  • โดยเฉพาะเมื่อเทียบกับสถิติเดิม แต่ละระดับดีขึ้นราว 6–8% และค่าเฉลี่ยรวมก็สูงขึ้นด้วย

งานระดับผู้เชี่ยวชาญ

  • ในการประเมินภายใน แสดงให้เห็นระดับการทำงานอัตโนมัติที่สูงพอจะทดแทนการค้นคว้าด้วยมือที่ต้องใช้เวลาหลายชั่วโมงได้
  • ยิ่งโมเดลได้ท่องข้อมูลและใช้เวลาคิดมากขึ้น ประสิทธิภาพก็ยิ่งดีขึ้น ดังนั้นการให้เวลาในการประมวลผลอย่างเพียงพอจึงสำคัญ

ข้อจำกัด

  • ยังอาจเกิดข้อผิดพลาดด้านข้อเท็จจริงหรือการให้เหตุผลผิดพลาด (hallucination) ได้อยู่
  • ยังมีความยากในการแยกแยะข่าวลือออกจากแหล่งข้อมูลที่น่าเชื่อถือ และการแสดงระดับความไม่แน่นอนอาจไม่แม่นยำ
  • ในช่วงเปิดตัวแรก ๆ รูปแบบรายงานหรือการอ้างอิงอาจยังไม่ลื่นไหลนัก และบางครั้งอาจใช้เวลาทำงานนาน

การเข้าถึงและการใช้งาน

  • ขณะนี้ Deep research มีต้นทุนการประมวลผลสูง จึงเปิดให้ผู้ใช้ Pro ใช้งานก่อน โดยใช้งานได้สูงสุด 100 ครั้งต่อเดือน
  • จะทยอยเปิดให้ผู้ใช้ Plus และ Team เร็ว ๆ นี้
  • มีแผนจะขยายการรองรับให้ผู้ใช้ในสหราชอาณาจักร สวิตเซอร์แลนด์ และเขตเศรษฐกิจยุโรป (EEA) ในภายหลัง
  • ในอนาคต เวอร์ชันโมเดลขนาดเล็กที่เร็วและมีประสิทธิภาพมากขึ้นจะช่วยเพิ่มขีดจำกัดคำขอของบัญชีแบบชำระเงินทั้งหมดอย่างมาก

แผนในอนาคต

  • ในช่วงแรก Deep research ใช้งานได้บน ChatGPT เวอร์ชันเว็บ และจะเพิ่มลงในแอปมือถือและเดสก์ท็อปในเร็ว ๆ นี้
  • ต่อไปจะเชื่อมต่อกับข้อมูลแบบสมัครสมาชิกหรือทรัพยากรภายใน เพื่อให้ผลลัพธ์ที่ปรับให้เหมาะกับแต่ละบุคคลมากยิ่งขึ้น
  • หากนำ Deep research ไปผสานกับ Operator ก็อาจสร้างประสบการณ์เอเจนต์ขั้นสูงที่ทำงานจริงทั้งแบบออฟไลน์และออนไลน์ได้โดยอัตโนมัติ

3 ความคิดเห็น

 
GN⁺ 2025-02-04

ความเห็นจาก Hacker News

  • ผู้ใช้คนหนึ่งบอกว่าเขาลองให้มันเขียนรายงานเกี่ยวกับตัวเอง แต่พบข้อผิดพลาดหลายอย่าง ตัวอย่างเช่น ระบบรับรู้ชื่อเสียงของเขาใน Stack Overflow ผิด และยังดึงคำพูดจากบทสัมภาษณ์มาจากคนผิดอีกด้วย

  • ผู้ใช้อีกคนชี้ว่า โมเดลภาษามีโอกาสราว 10% ที่จะให้คำตอบไม่ถูกต้องทั้งหมด ซึ่งอาจบั่นทอนความน่าเชื่อถือได้ พร้อมย้ำว่าเวลาที่ต้องใช้ในการตรวจสอบความถูกต้องของคำตอบก็เป็นปัจจัยสำคัญ

  • ผู้ใช้คนหนึ่งกล่าวว่ามันคล้ายกับโปรเจ็กต์สร้างรายงานที่ Standard เพิ่งเปิดตัวไปเมื่อไม่นานนี้

  • มีการกล่าวถึงว่า Gemini ให้ฟีเจอร์นี้ภายใต้ชื่อ "Deep Research" มาหลายเดือนแล้ว และตั้งคำถามถึงปรากฏการณ์ชื่อซ้ำกันในโลก AI

  • ผู้ใช้คนหนึ่งกังวลว่า ต่อให้ยอมรับเรื่องข้อผิดพลาดและปัญหา hallucination ผู้คนจำนวนมากก็น่าจะมองข้ามและนำผลลัพธ์ไปใส่ใน PowerPoint ของตัวเองอยู่ดี พร้อมเตือนว่ายิ่งเครื่องมือเหล่านี้ทรงพลังขึ้น การบิดเบือนข้อมูลก็จะยิ่งรุนแรงขึ้น

  • มีการกล่าวว่าโมเดล o3 ที่ยังไม่เปิดตัวรองรับฟีเจอร์นี้ และเป็นโมเดลที่น่าประทับใจมาก โดยเน้นว่า Google, DeepSeek และ Perplexity ต่างมีโมเดลชั้นนำ

  • มีคนบอกว่านี่เป็นเครื่องมือที่น่าสนใจสำหรับคนทำงานในแวดวงวิชาการ อยากลองทดสอบดูแต่ติดเรื่องค่าใช้จ่าย พร้อมขอให้คนอื่นช่วยทดสอบด้วยพรอมป์ต์เฉพาะให้

  • มีการตั้งคำถามถึงความสามารถนี้ในฐานะเงื่อนไขเบื้องต้นของ AGI และ ASI แสดงความสงสัยต่อความสำคัญของการวิจัย และกังวลกับการพึ่งพาคำตอบแทนที่จะดูผลลัพธ์จากการลงมือทำจริง

  • มีการระบุว่าการทดสอบภายในทำอัตราผ่านได้เพียง 20% และชี้ว่าการต้องไล่อ่านข้อความที่ไม่แม่นยำจำนวนมากกินเวลามาก จึงมองว่ายังต้องการกระบวนการที่ทำซ้ำได้มากกว่านี้

  • มีการตั้งคำถามว่าเหล่าผู้เชี่ยวชาญชื่อดังหรือคนที่ต้องการการมองเห็นจะยังเขียนบล็อกต่อไปหรือไม่ พร้อมกังวลถึงสถานการณ์ที่ผู้อ่านทั้งหมดกลายเป็นบอต

 
devil1032 2025-02-03

คาดหวังไว้มากจริงๆ.. นี่ไม่ใช่ one more thing ด้วยซ้ำ..
ประเด็น DeepSeek จะถูกกลบด้วยเรื่องนี้หรือเปล่านะ