Gemini 2.5 Deep Think ใช้งานได้ในแอป Gemini

(blog.google)

2 คะแนน โดย GN⁺ 2025-08-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Gemini 2.5 Deep Think ถูกนำเข้าใช้งานในแอป Gemini สำหรับ สมาชิก Google AI Ultra เท่านั้น
เทคนิคการคิดแบบขนาน (parallel thinking) และ ผลการวิจัยใหม่ ถูกนำมาใช้ โดยอิงจากโมเดลที่ได้ระดับเหรียญทองใน IMO เพื่อปรับให้เหมาะกับการใช้งานจริงมากขึ้น
แสดง ประสิทธิภาพยอดเยี่ยม ในงานที่ซับซ้อนหลากหลาย เช่น การแก้ปัญหาเชิงสร้างสรรค์, การให้เหตุผลทางคณิตศาสตร์และวิทยาศาสตร์ และการพัฒนาอัลกอริทึม
เพื่อเพิ่มประสิทธิภาพ โมเดลได้ขยาย เวลาในการคิด (Thinking Time) เพื่อสำรวจไอเดียและวิธีแก้ปัญหาหลายๆ อย่างพร้อมกัน และสร้างการคิดเชิงลึกพร้อมผลลัพธ์ที่สร้างสรรค์ยิ่งขึ้น
เพื่อการพัฒนา AI ที่ปลอดภัยและมีความรับผิดชอบ มีการเสริมการประเมินและมาตรการรับมือ และได้ประกาศแผนขยายการใช้งานผ่าน API และองค์กรในอนาคต

เปิดตัว Gemini 2.5 Deep Think

ฟีเจอร์ Gemini 2.5 Deep Think ถูกนำเสนอให้ผู้ใช้ Google AI Ultra เข้าถึงได้ผ่าน แอป Gemini
เวอร์ชันนี้สะท้อนข้อเสนอแนะจากผู้ทดสอบที่เชื่อถือได้และผลการวิจัยล่าสุด
อิงจากโมเดลระดับ ทองคำ ในการแข่งขันนานาชาติทางคณิตศาสตร์ (IMO) ล่าสุด ปรับความเร็วและความเป็นไปได้ในการใช้งานให้เหมาะกับประสบการณ์ผู้ใช้จริงมากขึ้น
การเปิดตัวครั้งนี้ขยายศักยภาพของ Gemini ในฐานะเครื่องมือการแก้ปัญหาเชิงสร้างสรรค์ และวางแผนยกระดับฟีเจอร์จากข้อเสนอแนะของนักคณิตศาสตร์และนักวิจัย

หลักการทำงานของ Deep Think

นำ เทคนิคการคิดแบบขนาน มาใช้ให้ Gemini สำรวจ แนวคิดและวิธีแก้ปัญหาหลายอย่างได้พร้อมกัน เมื่อเจอปัญหาซับซ้อน และสามารถเปรียบเทียบ/ผสมผสานผลลัพธ์ได้
ขยาย เวลาในการให้เหตุผล (Thinking Time) ของโมเดลเพื่อให้สามารถสำรวจสมมติฐานหลากหลายอย่างลึกซึ้ง และค้นหาวิธีแก้ปัญหาที่สร้างสรรค์มากขึ้น
โมเดลได้รับการฝึกผ่าน การเรียนรู้แบบเสริมแรง เพื่อใช้ประโยชน์จาก เส้นทางการให้เหตุผลที่ขยายเพิ่ม นี้ได้อย่างเต็มที่ เพิ่มความสามารถในการแก้ปัญหาที่แม่นยำและลึกซึ้ง

ประสิทธิภาพหลักและการใช้งานของ Deep Think

การพัฒนาและออกแบบแบบค่อยเป็นค่อยไป: มีประสิทธิภาพสูงในงานที่พัฒนาระบบหรือการออกแบบที่ซับซ้อนแบบเป็นขั้นตอน
การค้นพบด้านวิทยาศาสตร์และคณิตศาสตร์: มีจุดแข็งในงานสำรวจเชิงสร้างสรรค์ขั้นสูง เช่น การให้เหตุผลทางคณิตศาสตร์หรือการตีความงานวิจัยทางวิทยาศาสตร์
การพัฒนาอัลกอริทึมและโค้ด: บรรลุผลงานระดับแนวหน้าในปัญหาการเขียนโค้ดที่ซับซ้อน ซึ่งต้องพิจารณาการจัดโครงสร้างปัญหา ความซับซ้อนเชิงเวลา และการแลกเปลี่ยน (trade-off) อย่างครบถ้วน
ใน Benchmark ล่าสุด (เช่น LiveCodeBench V6, Humanity’s Last Exam) แสดงให้เห็นว่าได้ ผลงานระดับสูงสุดด้านโค้ด/ความรู้/การให้เหตุผล เมื่อเทียบกับโมเดลเดิม

ความปลอดภัยและการพัฒนา AI อย่างมีความรับผิดชอบของ Gemini

Gemini 2.5 Deep Think แสดง ความปลอดภัยของเนื้อหา และ โทนที่เป็นกลาง ที่ดีขึ้นในการประเมินความปลอดภัยเมื่อเทียบกับโมเดล Pro เดิม
ความเสี่ยงได้รับการประเมินควบคู่ไปกับความซับซ้อนที่เพิ่มขึ้น โดยเสริมการประเมิน Frontier Safety และมาตรการตอบสนองที่จำเป็น
ผลการประเมินความปลอดภัยแบบละเอียดสามารถตรวจสอบได้ใน Model Card

วิธีใช้ Deep Think

สมาชิก Google AI Ultra สามารถเลือก 2.5 Pro จากตัวเลือกดรอปดาวน์ของโมเดลในแอป Gemini แล้วกดสวิตช์ Deep Think ที่แถบคำสั่งเพื่อใช้งานได้ตามจำนวนครั้งต่อวันที่กำหนด
ทำงานเชื่อมต่อแบบอัตโนมัติกับการรันโค้ด, Google Search และเครื่องมืออื่นๆ ได้ ทำให้สามารถสร้างคำตอบที่ยาวขึ้นอย่างชัดเจน
ในระยะใกล้ข้างหน้าจะมีการทดสอบเพิ่มเติมสำหรับ Gemini API และการใช้งานระดับองค์กร

1 ความคิดเห็น

GN⁺ 2025-08-02

ความเห็นจาก Hacker News

ลองทดสอบ agent Deep Think ตัวใหม่แล้ว แต่พอใส่พรอมป์ต์ไปแค่ห้าครั้งก็ชนลิมิตใช้งานรายวันทันที จ่าย $250 ต่อเดือนแล้วได้บริการระดับนี้ก็น่าผิดหวังพอสมควร เมื่อเทียบกับ o3-pro หรือ Grok 4 Heavy แล้วความคุ้มค่าด้านราคาดูด้อยกว่ามาก ในคอมมูนิตี้ AI ฟีเจอร์นี้เป็นแทบจะส่วนเดียวที่ทำให้คนสนใจว่าพอจะอธิบายราคาค่าสมัคร Google Ultra ได้ แต่ Google กลับให้โมเดลที่ดีที่สุดใช้ฟรีใน AI Studio ขณะที่คนจ่ายเงินจริงแบบผู้สมัคร Ultra กลับเจอนโยบายคิดค่าบริการแบบนี้ ก็ไม่เข้าใจจริง ๆ เรื่องประสิทธิภาพนั้น พอลองป้อนสถานการณ์ปัญหาธุรกิจยาก ๆ เข้าไป มันก็ให้วิธีแก้ที่ชัดเจนและโน้มน้าวได้ดี ซึ่งสอดคล้องกับผลประชุมภายในของเรา แต่สุดท้าย o3 ก็ให้ข้อสรุปคล้ายกันได้ในราคาที่ถูกกว่ามาก เพียงแต่รายงานของ o3 ดูจัดระเบียบน้อยกว่าเล็กน้อย คงต้องลองใช้อีกสักพักถึงจะรู้
- อาจยังไม่ได้พร้อมเชิงพาณิชย์หรือปรับแต่งจนสมบูรณ์เต็มที่ แต่ก็อาจเป็นกลยุทธ์ที่จะรีบออกก่อนกฎหมาย AI ของสหภาพยุโรป (EU AI Act) ที่จะเริ่มใช้วันที่ 2 สิงหาคม แล้วค่อยปรับให้เข้าเกณฑ์ภายใน 2 ปี ดังนั้นจึงมีความเป็นไปได้สูงที่พวกเขาจะปล่อยก่อนให้ผู้ใช้ส่วนน้อยพร้อมลิมิตการใช้งานที่เข้มงวด
- อยากรู้ว่า Deep Think ทำงานได้ดีแค่ไหนกับงานที่ต้องใช้ context ขนาดใหญ่ เพราะ parallel thinking อาจมีประโยชน์มากกับปัญหาบางประเภท เลยอยากทดลองดูว่ามันจะจัดการบริบทได้มากกว่าวิธี chain of thought แบบดั้งเดิมที่รองรับไม่ไหวหรือไม่
- หลายปีก่อน การวัดฝีมือการเขียนโค้ดของผมคือค้นหาคำตอบเองโดยไม่ใช้อินเทอร์เน็ต หรือโพสต์คำถามที่เรียบเรียงดีไว้ในที่อย่าง StackOverflow แล้วกลับมาตอบเอง บางทีก็มีคอมเมนต์แนว ๆ ว่า “งมอยู่ 3 วัน คำตอบนี้ช่วยชีวิตผมไว้” ซึ่งทำให้รู้สึกภูมิใจมาก สัปดาห์นี้ผมกำลังแก้ปัญหาที่ยากมากอยู่ แต่ AI ตระกูล Copilot แทบไม่ช่วยอะไรเลย ในงานเขียนโค้ด ความสามารถที่แท้จริงคือช่วงเวลาที่ไม่มีใครช่วยได้เลย (แม้แต่ AI) แล้วเราต้องอาศัยการสรุปความ การสังเคราะห์ และความคิดสร้างสรรค์ด้วยตัวเองเท่านั้นถึงจะผ่านไปได้ (เลยปลอบใจตัวเองว่า กว่าจะถูก AI coding agent แทนที่ทั้งหมดคงยังต้องใช้เวลาอีกหน่อย)
- เคยใช้ทั้ง Grok 4 และ 4 Heavy แล้ว จากประสบการณ์ของผมมันแย่มากจริง ๆ ต่อให้ใส่ query ได้เยอะแค่ไหน ถ้าคำตอบห่วยก็ไม่มีประโยชน์อะไร นี่คือเงินที่เสียไปกับ LLM ที่แย่ที่สุดในปีนี้ ผมลงทุนกับ AI หลายตัวพอสมควร แต่เงินที่จ่ายให้ Grok น่าเสียดายที่สุด
- ผมมักประหลาดใจเวลาเห็น Google ให้โมเดลระดับท็อปใช้ฟรีใน AI Studio แต่ให้ประโยชน์แก่ลูกค้าจริงเพียงนิดเดียว ถึงอย่างนั้นมันก็ไม่ได้น่าแปลกใจเลย คงเป็นเพราะ Google ไม่ได้ทำกำไรมากจากลูกค้า AI Ultra และให้ความสำคัญกับข้อมูลผู้ใช้จำนวนมหาศาลจากฟรีเทียร์ของ AI Studio มากกว่า การเปิดโมเดลที่ดีที่สุดฟรีทำให้ยึดส่วนแบ่งจากผู้ใช้ที่ต้องการสูงสุดได้ง่าย และในอนาคตก็ค่อยออกนโยบายเก็บเงินกับคนกลุ่มนี้ได้ อีกทั้งยังเป็นกลยุทธ์ที่ดีในการใช้ประโยชน์จากเซิร์ฟเวอร์ที่ว่างอยู่ของ Google ตอนนี้
ทุกคน นี่คือผลลัพธ์ที่ได้เมื่อใส่พรอมป์ต์ให้ Gemini Deep Think ว่า “ช่วยวาดภาพ SVG ของนกเพลิแกนขี่จักรยานให้หน่อย” https://www.svgviewer.dev/s/5R5iTexQ ผมลองก่อน Simon Willison อีก!
- อะไรก็ตามที่กลายเป็นมีมบน HN ก็มีชะตาต้องเข้าไปอยู่ในข้อมูลฝึกแน่นอน แค่นึกภาพว่าแต่ละบริษัท AI มีเด็กฝึกงานคนหนึ่งกำลังเหงื่อตกพยายามวาด SVG นกเพลิแกนเท่ ๆ ก็ขำแล้ว
- เพิ่งดูผลลัพธ์เมื่อกี้ ตกใจเหมือนกันว่ามันดูเป็นเพลิแกนชัดเจนทีเดียว ค่อนข้างดีเลย
- benchmark แบบมีมพวกนี้ (เช่น รูปสตรอว์เบอร์รี) ตลกดี แต่ช่วงนี้ถูกใส่เข้าไปในข้อมูลฝึกของโมเดลเยอะเกินไป เลยเป็นวิธีวัดที่หลอกได้ง่าย
- นี่แหละคุณค่าที่ทำให้รู้สึกเหมือนกำลังใช้ชีวิตอยู่ในอนาคตจริง ๆ
- พูดตรง ๆ นี่เป็นครั้งแรกที่ผมคิดว่า “ต่อให้ไม่เห็นพรอมป์ต์ ดูแค่ SVG ก็ยังเดาได้ว่านี่คือนกเพลิแกนขี่จักรยาน” ผลลัพธ์แบบนี้ รวมถึงกรณี vocal tower ก็ชวนประทับใจมาก ในแง่การรับรู้ภาพและพื้นที่ ผมว่ามันถือว่าก้าวหน้าไม่น้อย
ถ้าอยากลองรันเอง สามารถใช้ LLM cli ของ simonw กับปลั๊กอิน llm-consortium ได้ ข้อดี 1: ผสมหลายโมเดลใช้งานได้อย่างอิสระ ตั้งค่าชุดที่ต้องการได้โดยไม่ขึ้นกับแล็บ ข้อดี 2: ใช้ปลั๊กอิน llm-model-gateway เพื่อต่อเข้ากับแอปของตัวเองหรือเครื่องมือช่วยเขียนโค้ดผ่าน local API ได้ในครั้งเดียว https://x.com/karpathy/status/1870692546969735361
มีทั้งคำสั่งติดตั้ง ตัวอย่างคำสั่ง และตัวอย่างว่าทำ consortium of consortium ได้ด้วย เขาเขียนไว้เองทั้งหมด
https://GitHub.com/irthomasthomas/llm-consortium
- สงสัยว่าทำไมถึงเรียกสิ่งนี้ว่าเวอร์ชัน local ของ Gemini Deep Think เพราะสถาปัตยกรรมแบบ multi-agent น่าจะทำได้หลายวิธี และด้วย covariance ของหลายโมเดล ความผิดพลาดอาจซิงก์กันได้ ผมจึงคิดว่าการหาชุดโครงสร้างที่หลากหลายเพื่อลดสหสัมพันธ์ของข้อผิดพลาด โดยยังรักษาความแม่นยำรายตัวไว้ เป็นเรื่องสำคัญต่อการปรับประสิทธิภาพ อยากลองทดสอบเรื่องนี้กับ benchmark ที่มีคำตอบได้หลายแบบ
- สงสัยว่าสหภาพยุโรป (EU) คือ consortium of consortiums หรือเปล่า
- ถ้าใครรู้ว่ามีปลั๊กอิน OpenWebUI ที่รองรับฟังก์ชันแบบนี้ไหม ช่วยบอกที
- มีคนบอกว่าไม่เห็นคำสั่ง llm serve
มันไม่ใช่โมเดลตัวเดียวกับที่ได้เหรียญทองใน IMO (International Mathematical Olympiad) เมื่อไม่กี่สัปดาห์ก่อน แต่เป็นสายพันธุ์ใกล้เคียงกันมาก https://x.com/OfficialLoganK/status/1951262261512659430 ตอนนี้ยังไม่มีให้ใช้ผ่าน API
แนวทางครั้งนี้คล้ายกับ Grok 4 Heavy: รันเอเจนต์ “ให้เหตุผล” หลายตัวแบบขนาน แล้วเอาคำตอบมาเทียบกันก่อนเลือกอันที่ดีที่สุด ใช้เวลาราว 30 นาที ผลลัพธ์ยอดเยี่ยม แต่ถ้าจะเทียบ benchmark กันอย่างยุติธรรม ก็ควรเทียบกับ Grok 4 Heavy มากกว่า Grok 4 ซึ่งเป็นโมเดลแบบเอเจนต์เดี่ยวและเร็วกว่า
- ถ้าเอาพลังประมวลผลด้านการให้เหตุผลเท่าเดิมไปกระจายให้หลายเอเจนต์ จะได้ผลลัพธ์ดีกว่า ปัญหาแบบ “ยิ่งคิดนานคำตอบยิ่งแย่” ก็อาจแก้ได้ด้วยการแตกเส้นทางความคิดหลายสายแบบขนานในช่วงเวลาสั้น ๆ
- ในบทความระบุว่า Deep Think ใช้วิธีคิดแบบขนานเพื่อสร้างแนวคิดหลายแบบพร้อมกัน พิจารณาพร้อมกัน แล้วผสานและแก้ไขจนได้คำตอบสุดท้าย จากคำอธิบายนี้ยังไม่ชัดเจนว่ามีการใช้หลายเอเจนต์หรือไม่ จึงตีความได้หลายแบบ
- Grok-4 Heavy ใช้เครื่องมือช่วยแก้โจทย์ใน benchmark หลายข้อได้ค่อนข้างตรงไปตรงมา จึงมีข้อจำกัดในการเทียบกันตรง ๆ
- สงสัยว่าวิธีของ Google ต่างจาก Mixture of Experts อย่างไร เพราะ Mixture of Experts จะฝึกน้ำหนักของแต่ละ expert แตกต่างกันไปโดยตรง แต่กรณีนี้ดูเหมือนใช้แค่การปรับ temperature เพื่อให้ได้ความหลากหลายทางความคิด เลยอยากรู้ว่ามีงานวิจัยไหนเปรียบเทียบอย่างชัดเจนไหมว่า การรันโมเดลเดียวกันหลายครั้งเพื่อให้ได้แนวคิดหลากหลาย กับการรันหลายโมเดลที่ต่างกันทั้งสถาปัตยกรรม/น้ำหนักไปพร้อมกัน แบบไหนดีกว่ากัน
- น่าแปลกที่ยังไม่มีแอปหลัก ๆ ที่จับ LLM สำคัญหลายตัวมารันแข่งกันในที่เดียว แล้วคัดคำตอบสุดท้ายออกมา
OpenAI ขึ้นราคาเป็น $200, Anthropic มี $100 และ $200, Gemini อยู่ที่ $250, ส่วน Grok ไปได้ถึง $300 มีแค่ OpenAI ที่บอกว่า “แทบไม่จำกัด” และผมก็ยังไม่เคยชนลิมิตในแผน ChatGPT Pro จริง ๆ แต่ Claude Max เคยชนลิมิตหลายครั้ง สงสัยว่าทำไมบริษัทพวกนี้ถึงไม่เปิดเผยลิมิตให้ชัดเจน
- จุดประสงค์คือเก็บเงินซ้ำซ้อน ถ้าตั้งราคาอย่างเป็นธรรมก็ควรแสดงค่าบริการตามจำนวนโทเคนต่อ query เพื่อให้จ่ายเท่าที่ใช้จริง แต่บริษัทต้องการรายรับประจำที่แน่นอนและพยายามลดการใช้งานจริงให้น้อยที่สุด จึงขายแบบเหมือนไม่จำกัดรายเดือนหรือรายปี สุดท้ายก็เป็นโครงสร้างที่ทำให้เราจ่ายแพงกว่าการใช้งานจริง
- เหตุผลจริงที่ไม่ประกาศลิมิตล่วงหน้าคือ บริษัทต้องสามารถปรับลิมิตได้ยืดหยุ่นตามสภาพตลาดหรือภาระของโครงสร้างพื้นฐาน เวลาทราฟฟิกพุ่งฉับพลันแบบกระแสสร้างภาพ ChatGPT สไตล์ Ghibli ในอดีต ก็ต้องใส่ข้อจำกัด แต่ถ้าช่วงไหนมีทรัพยากรเหลืออย่างตอนนี้ ก็อาจปล่อยให้ใช้งานได้มากขึ้น
- ถ้าทำให้ลิมิตโปร่งใส ผู้ใช้ก็จะเริ่มหาช่องใช้ให้เต็มลิมิต สุดท้ายลิมิตของทุกคนจะยิ่งลดลง ดังนั้นการไม่เปิดเผยจึงอาจเป็นทางเลือกที่ดีกว่าสำหรับคนส่วนใหญ่ในทางปฏิบัติ
ช่วงไม่กี่เดือนที่ผ่านมา พอใช้ Gemini แล้วกลับรู้สึกว่ามันแย่ลงเรื่อย ๆ มี hallucination บ่อยมาก และถึงจะชี้ให้เห็น มันก็ยังดื้อ เชื่อถือได้ยากขึ้น
- จากประสบการณ์ของผม Flash ดีขึ้นเรื่อย ๆ ถึงจะจ่ายเงินให้ Pro อยู่ก็ยังใช้ Flash บ่อยกว่า Pro น่าผิดหวังตรงที่แทบไม่ค้นหาข้อมูลใหม่เลยและชอบวนอยู่กับข้อมูลฝึกเก่า ๆ แต่ Flash แทบไม่มีปัญหานี้เลย ส่วนงานเขียนโค้ด ผมใช้ Pro ผ่าน Gemini CLI ซึ่งทำได้ยอดเยี่ยมไม่ใช่แค่เขียนโค้ด แต่รวมถึงการเขียน design doc การแยกงานรายสัปดาห์ การจัดการตาราง และอื่น ๆ ด้วย เหมือนถ้าจัดโครงให้ดี มันก็จะดูแลบริบทของตัวเองต่อได้
- ผมก็มีประสบการณ์คล้ายกัน ตอนนี้เลิกใช้ Gemini Pro แล้ว มันยืดเยื้อเกินไปและเนื้อหาขัดแย้งกัน Claude Sonnet 4 ตอบได้ดีกว่า ช่วงหลังรู้สึกว่า Sonnet ไล่ระดับความสามารถมาใกล้ Opus มากขึ้นเยอะ หลังมีระบบโควตาใหม่ ผมจะเริ่มจาก Sonnet ก่อนเสมอ ตอนนี้เทียบกับ Opus แล้ว มันจัดการปัญหายากหรือซับซ้อนส่วนใหญ่ได้ดีทีเดียว เมื่อไม่กี่เดือนก่อนยังไม่รู้สึกแบบนี้เลย
- ผมก็รู้สึกเหมือนกันว่า Gemini แย่ลงเรื่อย ๆ แต่ benchmark อย่าง fiction.livebench ก็วัดความต่างนี้ออกมาเป็นตัวเลขได้ยาก เลยสงสัยว่าพวกเขากำลังทำ aggressive quantizing กับโมเดลมากเกินไปหรือเปล่า หรือจริง ๆ แล้วเป็นเพราะความคาดหวังของพวกเราสูงขึ้นเรื่อย ๆ
- อยากถามว่าเป็นปัญหาจากการเชื่อมต่อกับเครื่องมือเป็นหลักหรือไม่ และใช้ใน AI Studio หรือใช้ผ่าน API เพราะจากที่ผมเจอ มันมักแต่งเรื่องเครื่องมือที่ใช้ไม่ได้ขึ้นมาเอง และแสดงความมั่นใจเกินจริงกับผลลัพธ์
มีประกาศว่าผู้สมัคร Google AI Ultra สามารถใช้ Deep Think ในแอป Gemini ได้ตั้งแต่วันนี้ โดยให้จำนวนพรอมป์ต์แบบคงที่ แต่คำว่า “ชุดคงที่” นี้หมายถึงจำนวนคงที่ หรือหมายถึงประเภทพรอมป์ต์ที่กำหนดไว้ อยากรู้รายละเอียดให้ชัดกว่านี้
- ลิมิตคือวันละ 10 คำขอ เพราะพรอมป์ต์หนึ่งใช้เวลาคิดราว 30 นาที จึงเหมาะกับงานวิจัยหรืองานปัญหาซับซ้อนหลายชั้นมากกว่างานเขียนโค้ดทั่วไปหรือแต่งแฟนฟิก
เวลาจัดตารางด้วย Gemini CLI ต่อให้สั่งชัดเจนและคอยแทรกแซงหลายรอบว่าอย่าทำอะไรนอกลู่นอกทาง มันก็ยังพยายามแก้เองจนทำให้แผนพังบ่อย ๆ
- เอเจนต์สายนี้กลับสร้างความสับสนบ่อยเสียมากกว่า Claude Code (Anthropic) ได้รับความนิยมเพราะดึงประสิทธิภาพของโมเดลออกมาได้เต็มที่ แต่ Gemini CLI กลับทำให้ประสิทธิภาพดั้งเดิมของ Gemini Pro 2.5 ลดลง ผมเลยเลิกใช้ Gemini CLI ไปเลยแล้ว (ถึงจะฟรีก็ตาม) แต่สำหรับงานที่เน้นพรอมป์ต์ มันก็ยังทรงพลังมากและผมยังใช้อยู่เป็นประจำ
- ผมก็คล้ายกัน ถ้าโยนงานใหญ่และเป็นนามธรรมให้ Gemini CLI ตรง ๆ มันจะพลาดซ้ำ ๆ แต่ถ้าช่วยวางโครงชัดเจนให้หน่อย เช่น แยกการสร้างคอนเท็กซ์เป็นหลายขั้น มันจะทำผลงานได้น่าทึ่งมาก ผมจะสั่งในขั้นแรกให้อ่านโค้ดและเขียนเอกสารสรุปความต้องการเท่านั้น จากนั้นค่อยให้ใช้ผลลัพธ์นั้นไปทำ requirement spec แบบละเอียด ออกแบบ API และเขียน pseudocode ของ logic ที่ tricky ทีละขั้น สุดท้ายให้แตกงานพัฒนาออกเป็นแผนงานรายสัปดาห์ รายวัน และรายชั่วโมง แล้วค่อยใส่ข้อมูลให้เพียงพอเพื่อเขียนโค้ดจริง ถ้าจะทำอัตโนมัติเต็มรูปแบบก็คงทำเป็นสคริปต์ได้ แต่ในการใช้งานจริง แบบที่มีคนตรวจทาน ให้ feedback และทำ brainstorming วนไปจะได้ผลดีกว่า มันสามารถสร้าง context เองได้เกิน 90% และพักหลังถ้าใช้วิธีนี้ก็แทบไม่ค่อยพลาดแล้ว

Gemini 2.5 Deep Think ใช้งานได้ในแอป Gemini

เปิดตัว Gemini 2.5 Deep Think

หลักการทำงานของ Deep Think

ประสิทธิภาพหลักและการใช้งานของ Deep Think

ความปลอดภัยและการพัฒนา AI อย่างมีความรับผิดชอบของ Gemini

วิธีใช้ Deep Think

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News