7 คะแนน โดย GN⁺ 2026-02-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemini 3 Deep Think โมเดล AI ของ Google ที่มุ่งแก้ปัญหา ด้านวิทยาศาสตร์ การวิจัย และวิศวกรรม ได้รับการอัปเกรดครั้งใหญ่
  • เวอร์ชันใหม่นี้ถูกออกแบบผ่าน ความร่วมมือกับนักวิทยาศาสตร์และนักวิจัย เพื่อจัดการปัญหาซับซ้อนที่มีข้อมูลไม่สมบูรณ์หรือไม่มีคำตอบที่ชัดเจน
  • ทำผลงานได้ในระดับ เหรียญทอง ในโอลิมปิกและเบนช์มาร์กระดับนานาชาติหลากหลายสาขา เช่น คณิตศาสตร์ การเขียนโปรแกรม ฟิสิกส์ และเคมี
  • รองรับ งานวิจัยจริงและการประยุกต์ใช้ด้านวิศวกรรม พร้อมความสามารถใช้งานจริง เช่น สร้างโมเดลที่พิมพ์ 3D ได้จากสเก็ตช์
  • ใช้งานได้ผ่านผู้สมัครสมาชิก Google AI Ultra และ โปรแกรมเข้าถึงล่วงหน้าของ Gemini API โดยมีแผนขยายให้แก่นักวิจัยและองค์กรต่อไป

ภาพรวมสำคัญของ Gemini 3 Deep Think

  • Gemini 3 Deep Think คือ โหมดการให้เหตุผลเฉพาะทาง ที่ออกแบบมาเพื่อ แก้โจทย์ท้าทายสมัยใหม่ในด้านวิทยาศาสตร์ การวิจัย และวิศวกรรม
    • Google ทำงานร่วมกับนักวิทยาศาสตร์และนักวิจัยอย่างใกล้ชิด เพื่อเสริมความสามารถในการจัดการปัญหาที่ไม่มีคำตอบชัดเจนหรือมีข้อมูลไม่สมบูรณ์
    • ผสาน ความรู้เชิงทฤษฎีและการนำไปใช้ด้านวิศวกรรมในทางปฏิบัติ เพื่อพัฒนาเป็นโมเดลที่เน้นการใช้งานจริง
  • การอัปเกรดครั้งนี้เปิดให้ผู้สมัครสมาชิก Google AI Ultra ใช้งานผ่าน แอป Gemini และนักวิจัย วิศวกร และองค์กรสามารถสมัครเข้าถึงล่วงหน้าผ่าน Gemini API ได้

กรณีใช้งานจากผู้ใช้กลุ่มแรก

  • Lisa Carbone นักคณิตศาสตร์จาก Rutgers University ใช้ Deep Think เพื่อตรวจทานบทความคณิตศาสตร์ที่เกี่ยวข้องกับฟิสิกส์พลังงานสูง และพบ ข้อผิดพลาดเชิงตรรกะ ที่ผ่านการตรวจทานโดยมนุษย์มาแล้ว
  • Wang Lab แห่ง Duke University ปรับกระบวนการเติบโตของผลึกที่ซับซ้อนให้เหมาะสมเพื่อค้นหาวัสดุสารกึ่งตัวนำ และออกแบบ สูตรการเติบโตของฟิล์มบางขนาดมากกว่า 100μm
  • Anupam Pathak จากฝ่าย Platforms & Devices ของ Google ทดสอบ Deep Think เพื่อเร่งการออกแบบชิ้นส่วนทางกายภาพ

เพิ่มความแม่นยำทางคณิตศาสตร์และอัลกอริทึม

  • Deep Think ทำผลงานระดับเหรียญทองใน การแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติ และ การแข่งขันเขียนโปรแกรมสำหรับนักศึกษามหาวิทยาลัยระดับนานาชาติ
  • เวอร์ชันล่าสุดทำสถิติสูงสุดใน เบนช์มาร์กเชิงวิชาการ ดังนี้
    • Humanity’s Last Exam: 48.4% (ไม่ใช้เครื่องมือ)
    • ARC-AGI-2: 84.6% (รับรองโดย ARC Prize Foundation)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: ผลงานระดับเหรียญทอง
  • Deep Think ยังถูกนำไปใช้ในการพัฒนา เอเจนต์เฉพาะทางที่ทำการสำรวจทางคณิตศาสตร์ ด้วย

สำรวจขอบเขตวิทยาศาสตร์ที่ซับซ้อน

  • นอกเหนือจากคณิตศาสตร์และการเขียนโปรแกรมแล้ว ยังมีประสิทธิภาพที่ดีขึ้นใน วิทยาศาสตร์โดยรวม เช่น เคมีและฟิสิกส์
    • ในส่วนข้อเขียนของ โอลิมปิกฟิสิกส์และเคมีนานาชาติปี 2025 ทำผลลัพธ์ได้ในระดับเหรียญทอง
    • ทำคะแนนได้ 50.5% ใน CMT-Benchmark ซึ่งเป็นเบนช์มาร์กด้านฟิสิกส์ทฤษฎี
  • ประสิทธิภาพเหล่านี้พิสูจน์ให้เห็นถึง การขยายความสามารถด้านการให้เหตุผลเชิงวิทยาศาสตร์ ของ Deep Think

เร่งงานวิศวกรรมในโลกจริง

  • Deep Think รองรับ การตีความข้อมูลที่ซับซ้อน และ การสร้างแบบจำลองระบบทางกายภาพ โดยมุ่งให้ใช้งานได้จริงสำหรับนักวิจัยและวิศวกร
  • กำลังขยายการเข้าถึงในสภาพแวดล้อมการวิจัยจริงผ่าน Gemini API
  • ตัวอย่างเช่น ผู้ใช้สามารถ ป้อนสเก็ตช์เพื่อสร้างโมเดลที่พิมพ์ 3D ได้ และ Deep Think จะทำการวิเคราะห์ สร้างแบบจำลอง และสร้างไฟล์ให้ครบ

การเข้าถึงและการใช้งาน

  • ผู้สมัครสมาชิก Google AI Ultra สามารถใช้ Deep Think ได้ทันทีในแอป Gemini
  • นักวิจัย วิศวกร และองค์กร สามารถสมัครเข้าร่วม โปรแกรมเข้าถึงล่วงหน้า ผ่าน Gemini API ได้
  • Google คาดหวังว่า Deep Think จะช่วยให้เกิดการค้นพบทางวิทยาศาสตร์และกรณีการใช้งานใหม่ ๆ มากขึ้น

1 ความคิดเห็น

 
GN⁺ 2026-02-13
ความเห็นบน Hacker News
  • คะแนน Arc-AGI-2 สูงถึง 84.6% น่าทึ่งมาก
    ในบล็อกโพสต์อย่างเป็นทางการมีรายละเอียดของ Gemini 3 Deep Think อยู่

    • ก่อนหน้านี้ก็รู้สึกมาตลอดว่า Gemini 3 มีความ อเนกประสงค์ (general) จนน่าเหลือเชื่อ
      มันสามารถชนะ Balatro (ante 8) ได้ด้วยคำอธิบายเป็นข้อความอย่างเดียว แม้สำหรับมนุษย์จะไม่ใช่เรื่องยาก แต่การที่ LLM ทำได้โดยไม่มีการฝึกเฉพาะทางก็น่าทึ่งมาก
      ทดสอบใน Balatro Bench แล้ว Deepseek เล่นเกมนี้ไม่ได้เลย
    • แค่เมื่อ 1 ปีก่อน คะแนนบนเบนช์มาร์กนี้ยังอยู่แค่ราว 1~10% แต่ตอนนี้ขึ้นมาจนแทบเรียกได้ว่าเป็นระดับ AGI แล้ว ไม่น่าเชื่อจริงๆ
    • คะแนน ARC-AGI ที่เพิ่มขึ้นนั้นน่าสนใจ แต่การมองว่านี่คือ การกระโดดของ ‘ปัญญาทั่วไป’ ก็ดูเกินจริงไป
      ผมชอบล้อว่า G ใน ARC-AGI หมายถึง ‘graphical’ ก่อนหน้านี้โมเดลอ่อนเรื่องการให้เหตุผลเชิงพื้นที่ (spatial reasoning) และดูเหมือนว่าคราวนี้จะแก้จุดนั้นได้แล้ว
      ใน ARC-AGI 3 ก็หวังว่าจะมี โจทย์แบบเกมที่อาศัยการลองผิดลองถูก เพิ่มเข้ามา
    • ถ้าดูARC Prize leaderboard ตอนนี้ต้นทุนอยู่ที่ประมาณ $13.62 ต่อโจทย์
      ในทางปฏิบัติคงต้องรออีก 5~10 ปี ต้นทุนรันถึงจะลงมาอยู่ในระดับสมเหตุสมผล
      แต่ก็ยังสงสัยว่าโมเดลนี้ ฟิตกับเบนช์มาร์กมากเกินไป (overfitting) หรือเปล่า
    • ถ้าจะเทียบกันอย่างยุติธรรม ก็ควรเทียบกับโมเดลระดับเดียวกันอย่าง GPT-5.x Pro
  • รู้สึกว่าความเร็วในการปล่อยโมเดลนั้น เร็วผิดปกติขึ้นเรื่อยๆ
    แค่วันนี้ก็มีทั้ง Gemini 3 Deep Think และ GPT 5.3 Codex Spark ออกมาแล้ว ไม่กี่วันก่อนหน้านั้นก็มี Opus 4.6, GLM5, MiniMax M2.5

    • ดูเหมือนช่วงตรุษจีนจะมีผลอยู่เหมือนกัน
      สถาบันวิจัยในจีนมักปล่อยโมเดลช่วงนี้ ส่วนสถาบันวิจัยในสหรัฐก็น่าจะรีบเปิดตัวโมเดลที่แรงกว่าเพื่อหลีกเลี่ยงผลกระทบแบบ DeepSeek R1 (20 มกราคม 2025)
    • ทุกวันนี้มีโมเดลเยอะเกินไปจน แทบแยกไม่ออกแล้ว
      Gemini 3 Deep Think ดูไม่ใช่โมเดลใหม่ทั้งหมด แต่เหมือนเป็น Gemini 3 Pro ที่เพิ่ม ความสามารถด้านการให้เหตุผล (subagent) เข้าไป
      และยังเชื่อมกับเฟรมเวิร์กเอเจนต์ภายนอกอย่าง OpenClaw ได้ด้วย ดังนั้นกระแสถกเถียงเรื่อง ‘agent workflow’ อาจจะถูกพูดเกินจริงไป
    • ไม่กี่สัปดาห์ที่ผ่านมาเป็นช่วงที่ วงจรการเปิดตัวระเบิดสุดๆ จริงๆ
    • ถ้าจะสรุปสั้นๆ คำเดียวก็คือ Fast takeoff
  • Google กำลัง นำอยู่แบบชัดเจน
    คนเคยคิดว่าพวกเขาตามหลัง แต่กลับกลายเป็นว่านั่นอาจเป็นกลยุทธ์ที่ดีที่สุด

    • โมเดลน่าประทับใจ แต่ คุณภาพของผลิตภัณฑ์แย่มาก
      ผมใช้ Gemini web/CLI มาสองเดือนแล้ว ระหว่างคุยมันหลุดบริบทบ่อย ถ้าถามเรื่องการปรับปรุงคุณภาพอากาศก็จะตอบเป็นรายชื่อเครื่องฟอกอากาศแบบไม่เกี่ยวกับบริบท
      บางครั้งถึงขั้นอ้างเว็บโฆษณาชวนเชื่อของรัสเซีย หรือจู่ๆ ก็สลับเป็นภาษาจีนกลางประโยค
      คุณภาพแบบนี้จ่ายเดือนละ 20 ยูโรไม่คุ้มเลย
    • ปกติ Google มักช้าและเป็นระบบราชการ แต่ Google ในโหมดสงคราม ทำงานได้เร็วอย่างน่าทึ่ง
    • อีกไม่กี่ชั่วโมง OpenAI ก็คงปล่อยอะไรออกมาอีก การแข่งขันแบบนี้สนุกดี
      คนที่เคยบอกว่า ARC-AGI-2 คือขีดจำกัดของ LLM ตอนนี้ก็คงเปลี่ยนเกณฑ์กันอีก
      ดูเหมือนความพยายามส่วนใหญ่ของมนุษย์จะถูกใช้ไปกับการพิสูจน์ว่า “AI ยังไม่ใช่ AGI”
    • ถึงอย่างนั้นในแง่ การใช้งานจริงในโลกความเป็นจริง Google ก็ยังตามหลังอยู่
      Gemini 3 Pro ยังมีปัญหาอยู่มาก
  • ผมกำลังใช้ Gemini 3 Pro ทำ โครงการดิจิไทซ์เอกสารประวัติศาสตร์
    เป็นการสแกนบันทึกการประชุมลายมือภาษาเยอรมันช่วงปี 1885~1974 แล้วถอดความและแปลทีละหน้า
    ตอนนี้ประมวลผลไปแล้วประมาณ 2,370 หน้า, ความแม่นยำ 95% และค่า API อยู่ที่ราว $50
    ยังต้องตรวจทานด้วยมือ แต่ ประหยัดเวลาได้มหาศาล

    • อาจเพียงพอแม้ทำแค่รอบเดียว ดังนั้นหลังตรวจทานแล้วก็น่าจะต้องประเมินประสิทธิภาพโดยรวมอีกครั้ง
  • โดยสัญชาตญาณของผม โมเดลมีอยู่สามสเปกตรัม
    คือ แบบไม่ใช้การคิด, แบบใช้การคิด, และ แบบ best-of-N (Deep Think, GPT Pro)
    ความซับซ้อนในการคำนวณเพิ่มขึ้นประมาณเชิงเส้น, กำลังสอง, และกำลังสามตามลำดับ
    โมเดลแบบใช้การคิดสามารถแก้ปัญหาที่ต้อง เขียน scratchpad ได้

    • ขั้นต่อไปน่าจะเป็น agent swarm
      คือมีโมเดลผู้จัดการรับพรอมป์ต์ แล้วสร้างเอเจนต์ย่อยหลายตัวมาลองแบบขนาน ประเมินผล แล้วกระจายงานใหม่
    • จุดสำคัญของโมเดลแบบ best-of-N คือ การใช้คอนเท็กซ์ยาว
      Google ตั้งแต่เวอร์ชัน 2.5 ก็จัดการบริบทยาวได้ดีอย่างใช้งานได้จริงแล้ว
      แนวคิด pass@N ก็น่าสนใจมาก เหมาะกับงานค้นหาเชิงสำรวจที่ เปลี่ยนเวลาเป็นเงิน เช่น การหาช่องโหว่ความปลอดภัยหรือปัญหาการหาค่าเหมาะที่สุด
    • สำหรับคำถามที่ว่าโมเดลใหญ่แบบไม่ใช้การคิดจะให้ผลงานเท่ากับโมเดลเล็กแบบใช้การคิดได้ไหม โมเดลของ Anthropic เป็นตัวอย่างที่ดี
      ในภาพนี้ Opus 4.6 แสดงประสิทธิภาพสูงได้แม้ไม่มีการคิด
  • PDF วิธีประเมินผลของทุกเบนช์มาร์กอยู่ที่นี่
    คะแนน ARC-AGI-2 ที่ 84.6% นั้นอิงจาก ชุด semi-private และ
    ถ้าทำได้เกิน 85% บนชุด private จะถือว่า “solved” และได้รับ เงินรางวัล $700K
    ดูคู่มือ ARC Prize เพิ่มเติม

    • ถ้าดูจากชื่อเอกสารที่ใช้คำว่า “Gemini 3.1 Pro” ก็เหมือนว่าจะมีเวอร์ชันใหม่ออกมาเร็วๆ นี้
    • แต่ก็น่าจะยากที่จะเกิน 85% บนชุด private เพราะนั่นอาจหมายถึง ข้อมูลรั่วไหล
  • ทุกวันนี้โมเดลพัฒนา เร็วมากเกินไป จนรู้สึกว่างานของผมอาจหายไปในอีก 3~5 ปี
    ตอนนี้ดูเหมือน LLM จะเข้าสู่ช่วงที่พัฒนาตัวเองได้แล้ว

  • เสียดายที่ไม่มีบน OpenRouter
    ตอนนี้โมเดล Deep Think ระดับท็อปมักถูกปิดไว้ให้ใช้ได้เฉพาะบนแพลตฟอร์มของตัวเอง

    • OpenRouter ก็ดี แต่ litellm เป็นแค่ไลบรารี Python ธรรมดา เลยดูสะอาดกว่ามาก
      ดูเอกสาร litellm ได้
    • แต่ตอนนี้ก็รู้สึกเหมือน ยุคทอง (golden age) จบลงแล้ว
  • Gemini ให้ความรู้สึกเหมือนเป็น โมเดลที่ความรู้แน่นแต่ยืดหยุ่นน้อย มาโดยตลอด
    ถ้าขออะไรที่อยู่นอกสคริปต์ก็มักพังง่าย

    • จริงๆ แล้วประสบการณ์แบบนี้อาจเป็นเรื่องของ การปรับตัวของผู้ใช้ ก็ได้
      ผมใช้โมเดลของ Google มานาน เลยรู้สึกว่าโมเดลของ OpenAI แย่กว่ามาก
      ฝั่งผู้ใช้ OpenAI ก็คงรู้สึกว่าโมเดลของตัวเองดีที่สุดด้วยเหตุผลเดียวกัน
    • ในบางแง่ Gemini ก็เหมือนเป็น โมเดลที่คิดในแบบของตัวเอง
      ยังไม่ได้ลองทดสอบ แต่ความสามารถในการทำตามคำสั่งอาจดีขึ้นแล้วก็ได้
  • น่าทึ่งที่ความเร็วในการพัฒนาโมเดลสูงขนาดนี้
    เคยคิดว่าน่าจะชนกำแพงแล้ว แต่โมเดลใหม่ๆ กลับ ทำลายเบนช์มาร์กเดิมแบบหมดรูป

    • แต่ในขณะที่บริษัทต่างๆ มุ่ง ปรับคะแนนเบนช์มาร์กให้ดีที่สุด ความสัมพันธ์กับประสิทธิภาพจริงก็ยิ่งลดลงเรื่อยๆ