2 คะแนน โดย GN⁺ 2025-08-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemini 2.5 Deep Think ถูกนำเข้าใช้งานในแอป Gemini สำหรับ สมาชิก Google AI Ultra เท่านั้น
  • เทคนิคการคิดแบบขนาน (parallel thinking) และ ผลการวิจัยใหม่ ถูกนำมาใช้ โดยอิงจากโมเดลที่ได้ระดับเหรียญทองใน IMO เพื่อปรับให้เหมาะกับการใช้งานจริงมากขึ้น
  • แสดง ประสิทธิภาพยอดเยี่ยม ในงานที่ซับซ้อนหลากหลาย เช่น การแก้ปัญหาเชิงสร้างสรรค์, การให้เหตุผลทางคณิตศาสตร์และวิทยาศาสตร์ และการพัฒนาอัลกอริทึม
  • เพื่อเพิ่มประสิทธิภาพ โมเดลได้ขยาย เวลาในการคิด (Thinking Time) เพื่อสำรวจไอเดียและวิธีแก้ปัญหาหลายๆ อย่างพร้อมกัน และสร้างการคิดเชิงลึกพร้อมผลลัพธ์ที่สร้างสรรค์ยิ่งขึ้น
  • เพื่อการพัฒนา AI ที่ปลอดภัยและมีความรับผิดชอบ มีการเสริมการประเมินและมาตรการรับมือ และได้ประกาศแผนขยายการใช้งานผ่าน API และองค์กรในอนาคต

เปิดตัว Gemini 2.5 Deep Think

  • ฟีเจอร์ Gemini 2.5 Deep Think ถูกนำเสนอให้ผู้ใช้ Google AI Ultra เข้าถึงได้ผ่าน แอป Gemini
  • เวอร์ชันนี้สะท้อนข้อเสนอแนะจากผู้ทดสอบที่เชื่อถือได้และผลการวิจัยล่าสุด
  • อิงจากโมเดลระดับ ทองคำ ในการแข่งขันนานาชาติทางคณิตศาสตร์ (IMO) ล่าสุด ปรับความเร็วและความเป็นไปได้ในการใช้งานให้เหมาะกับประสบการณ์ผู้ใช้จริงมากขึ้น
  • การเปิดตัวครั้งนี้ขยายศักยภาพของ Gemini ในฐานะเครื่องมือการแก้ปัญหาเชิงสร้างสรรค์ และวางแผนยกระดับฟีเจอร์จากข้อเสนอแนะของนักคณิตศาสตร์และนักวิจัย

หลักการทำงานของ Deep Think

  • นำ เทคนิคการคิดแบบขนาน มาใช้ให้ Gemini สำรวจ แนวคิดและวิธีแก้ปัญหาหลายอย่างได้พร้อมกัน เมื่อเจอปัญหาซับซ้อน และสามารถเปรียบเทียบ/ผสมผสานผลลัพธ์ได้
  • ขยาย เวลาในการให้เหตุผล (Thinking Time) ของโมเดลเพื่อให้สามารถสำรวจสมมติฐานหลากหลายอย่างลึกซึ้ง และค้นหาวิธีแก้ปัญหาที่สร้างสรรค์มากขึ้น
  • โมเดลได้รับการฝึกผ่าน การเรียนรู้แบบเสริมแรง เพื่อใช้ประโยชน์จาก เส้นทางการให้เหตุผลที่ขยายเพิ่ม นี้ได้อย่างเต็มที่ เพิ่มความสามารถในการแก้ปัญหาที่แม่นยำและลึกซึ้ง

ประสิทธิภาพหลักและการใช้งานของ Deep Think

  • การพัฒนาและออกแบบแบบค่อยเป็นค่อยไป: มีประสิทธิภาพสูงในงานที่พัฒนาระบบหรือการออกแบบที่ซับซ้อนแบบเป็นขั้นตอน
  • การค้นพบด้านวิทยาศาสตร์และคณิตศาสตร์: มีจุดแข็งในงานสำรวจเชิงสร้างสรรค์ขั้นสูง เช่น การให้เหตุผลทางคณิตศาสตร์หรือการตีความงานวิจัยทางวิทยาศาสตร์
  • การพัฒนาอัลกอริทึมและโค้ด: บรรลุผลงานระดับแนวหน้าในปัญหาการเขียนโค้ดที่ซับซ้อน ซึ่งต้องพิจารณาการจัดโครงสร้างปัญหา ความซับซ้อนเชิงเวลา และการแลกเปลี่ยน (trade-off) อย่างครบถ้วน
  • ใน Benchmark ล่าสุด (เช่น LiveCodeBench V6, Humanity’s Last Exam) แสดงให้เห็นว่าได้ ผลงานระดับสูงสุดด้านโค้ด/ความรู้/การให้เหตุผล เมื่อเทียบกับโมเดลเดิม

ความปลอดภัยและการพัฒนา AI อย่างมีความรับผิดชอบของ Gemini

  • Gemini 2.5 Deep Think แสดง ความปลอดภัยของเนื้อหา และ โทนที่เป็นกลาง ที่ดีขึ้นในการประเมินความปลอดภัยเมื่อเทียบกับโมเดล Pro เดิม
  • ความเสี่ยงได้รับการประเมินควบคู่ไปกับความซับซ้อนที่เพิ่มขึ้น โดยเสริมการประเมิน Frontier Safety และมาตรการตอบสนองที่จำเป็น
  • ผลการประเมินความปลอดภัยแบบละเอียดสามารถตรวจสอบได้ใน Model Card

วิธีใช้ Deep Think

  • สมาชิก Google AI Ultra สามารถเลือก 2.5 Pro จากตัวเลือกดรอปดาวน์ของโมเดลในแอป Gemini แล้วกดสวิตช์ Deep Think ที่แถบคำสั่งเพื่อใช้งานได้ตามจำนวนครั้งต่อวันที่กำหนด
  • ทำงานเชื่อมต่อแบบอัตโนมัติกับการรันโค้ด, Google Search และเครื่องมืออื่นๆ ได้ ทำให้สามารถสร้างคำตอบที่ยาวขึ้นอย่างชัดเจน
  • ในระยะใกล้ข้างหน้าจะมีการทดสอบเพิ่มเติมสำหรับ Gemini API และการใช้งานระดับองค์กร

1 ความคิดเห็น

 
GN⁺ 2025-08-02
ความเห็นจาก Hacker News
  • ลองทดสอบ agent Deep Think ตัวใหม่แล้ว แต่พอใส่พรอมป์ต์ไปแค่ห้าครั้งก็ชนลิมิตใช้งานรายวันทันที จ่าย $250 ต่อเดือนแล้วได้บริการระดับนี้ก็น่าผิดหวังพอสมควร เมื่อเทียบกับ o3-pro หรือ Grok 4 Heavy แล้วความคุ้มค่าด้านราคาดูด้อยกว่ามาก ในคอมมูนิตี้ AI ฟีเจอร์นี้เป็นแทบจะส่วนเดียวที่ทำให้คนสนใจว่าพอจะอธิบายราคาค่าสมัคร Google Ultra ได้ แต่ Google กลับให้โมเดลที่ดีที่สุดใช้ฟรีใน AI Studio ขณะที่คนจ่ายเงินจริงแบบผู้สมัคร Ultra กลับเจอนโยบายคิดค่าบริการแบบนี้ ก็ไม่เข้าใจจริง ๆ เรื่องประสิทธิภาพนั้น พอลองป้อนสถานการณ์ปัญหาธุรกิจยาก ๆ เข้าไป มันก็ให้วิธีแก้ที่ชัดเจนและโน้มน้าวได้ดี ซึ่งสอดคล้องกับผลประชุมภายในของเรา แต่สุดท้าย o3 ก็ให้ข้อสรุปคล้ายกันได้ในราคาที่ถูกกว่ามาก เพียงแต่รายงานของ o3 ดูจัดระเบียบน้อยกว่าเล็กน้อย คงต้องลองใช้อีกสักพักถึงจะรู้

    • อาจยังไม่ได้พร้อมเชิงพาณิชย์หรือปรับแต่งจนสมบูรณ์เต็มที่ แต่ก็อาจเป็นกลยุทธ์ที่จะรีบออกก่อนกฎหมาย AI ของสหภาพยุโรป (EU AI Act) ที่จะเริ่มใช้วันที่ 2 สิงหาคม แล้วค่อยปรับให้เข้าเกณฑ์ภายใน 2 ปี ดังนั้นจึงมีความเป็นไปได้สูงที่พวกเขาจะปล่อยก่อนให้ผู้ใช้ส่วนน้อยพร้อมลิมิตการใช้งานที่เข้มงวด
    • อยากรู้ว่า Deep Think ทำงานได้ดีแค่ไหนกับงานที่ต้องใช้ context ขนาดใหญ่ เพราะ parallel thinking อาจมีประโยชน์มากกับปัญหาบางประเภท เลยอยากทดลองดูว่ามันจะจัดการบริบทได้มากกว่าวิธี chain of thought แบบดั้งเดิมที่รองรับไม่ไหวหรือไม่
    • หลายปีก่อน การวัดฝีมือการเขียนโค้ดของผมคือค้นหาคำตอบเองโดยไม่ใช้อินเทอร์เน็ต หรือโพสต์คำถามที่เรียบเรียงดีไว้ในที่อย่าง StackOverflow แล้วกลับมาตอบเอง บางทีก็มีคอมเมนต์แนว ๆ ว่า “งมอยู่ 3 วัน คำตอบนี้ช่วยชีวิตผมไว้” ซึ่งทำให้รู้สึกภูมิใจมาก สัปดาห์นี้ผมกำลังแก้ปัญหาที่ยากมากอยู่ แต่ AI ตระกูล Copilot แทบไม่ช่วยอะไรเลย ในงานเขียนโค้ด ความสามารถที่แท้จริงคือช่วงเวลาที่ไม่มีใครช่วยได้เลย (แม้แต่ AI) แล้วเราต้องอาศัยการสรุปความ การสังเคราะห์ และความคิดสร้างสรรค์ด้วยตัวเองเท่านั้นถึงจะผ่านไปได้ (เลยปลอบใจตัวเองว่า กว่าจะถูก AI coding agent แทนที่ทั้งหมดคงยังต้องใช้เวลาอีกหน่อย)
    • เคยใช้ทั้ง Grok 4 และ 4 Heavy แล้ว จากประสบการณ์ของผมมันแย่มากจริง ๆ ต่อให้ใส่ query ได้เยอะแค่ไหน ถ้าคำตอบห่วยก็ไม่มีประโยชน์อะไร นี่คือเงินที่เสียไปกับ LLM ที่แย่ที่สุดในปีนี้ ผมลงทุนกับ AI หลายตัวพอสมควร แต่เงินที่จ่ายให้ Grok น่าเสียดายที่สุด
    • ผมมักประหลาดใจเวลาเห็น Google ให้โมเดลระดับท็อปใช้ฟรีใน AI Studio แต่ให้ประโยชน์แก่ลูกค้าจริงเพียงนิดเดียว ถึงอย่างนั้นมันก็ไม่ได้น่าแปลกใจเลย คงเป็นเพราะ Google ไม่ได้ทำกำไรมากจากลูกค้า AI Ultra และให้ความสำคัญกับข้อมูลผู้ใช้จำนวนมหาศาลจากฟรีเทียร์ของ AI Studio มากกว่า การเปิดโมเดลที่ดีที่สุดฟรีทำให้ยึดส่วนแบ่งจากผู้ใช้ที่ต้องการสูงสุดได้ง่าย และในอนาคตก็ค่อยออกนโยบายเก็บเงินกับคนกลุ่มนี้ได้ อีกทั้งยังเป็นกลยุทธ์ที่ดีในการใช้ประโยชน์จากเซิร์ฟเวอร์ที่ว่างอยู่ของ Google ตอนนี้
  • ทุกคน นี่คือผลลัพธ์ที่ได้เมื่อใส่พรอมป์ต์ให้ Gemini Deep Think ว่า “ช่วยวาดภาพ SVG ของนกเพลิแกนขี่จักรยานให้หน่อย” https://www.svgviewer.dev/s/5R5iTexQ ผมลองก่อน Simon Willison อีก!

    • อะไรก็ตามที่กลายเป็นมีมบน HN ก็มีชะตาต้องเข้าไปอยู่ในข้อมูลฝึกแน่นอน แค่นึกภาพว่าแต่ละบริษัท AI มีเด็กฝึกงานคนหนึ่งกำลังเหงื่อตกพยายามวาด SVG นกเพลิแกนเท่ ๆ ก็ขำแล้ว
    • เพิ่งดูผลลัพธ์เมื่อกี้ ตกใจเหมือนกันว่ามันดูเป็นเพลิแกนชัดเจนทีเดียว ค่อนข้างดีเลย
    • benchmark แบบมีมพวกนี้ (เช่น รูปสตรอว์เบอร์รี) ตลกดี แต่ช่วงนี้ถูกใส่เข้าไปในข้อมูลฝึกของโมเดลเยอะเกินไป เลยเป็นวิธีวัดที่หลอกได้ง่าย
    • นี่แหละคุณค่าที่ทำให้รู้สึกเหมือนกำลังใช้ชีวิตอยู่ในอนาคตจริง ๆ
    • พูดตรง ๆ นี่เป็นครั้งแรกที่ผมคิดว่า “ต่อให้ไม่เห็นพรอมป์ต์ ดูแค่ SVG ก็ยังเดาได้ว่านี่คือนกเพลิแกนขี่จักรยาน” ผลลัพธ์แบบนี้ รวมถึงกรณี vocal tower ก็ชวนประทับใจมาก ในแง่การรับรู้ภาพและพื้นที่ ผมว่ามันถือว่าก้าวหน้าไม่น้อย
  • ถ้าอยากลองรันเอง สามารถใช้ LLM cli ของ simonw กับปลั๊กอิน llm-consortium ได้ ข้อดี 1: ผสมหลายโมเดลใช้งานได้อย่างอิสระ ตั้งค่าชุดที่ต้องการได้โดยไม่ขึ้นกับแล็บ ข้อดี 2: ใช้ปลั๊กอิน llm-model-gateway เพื่อต่อเข้ากับแอปของตัวเองหรือเครื่องมือช่วยเขียนโค้ดผ่าน local API ได้ในครั้งเดียว https://x.com/karpathy/status/1870692546969735361
    มีทั้งคำสั่งติดตั้ง ตัวอย่างคำสั่ง และตัวอย่างว่าทำ consortium of consortium ได้ด้วย เขาเขียนไว้เองทั้งหมด
    https://GitHub.com/irthomasthomas/llm-consortium

    • สงสัยว่าทำไมถึงเรียกสิ่งนี้ว่าเวอร์ชัน local ของ Gemini Deep Think เพราะสถาปัตยกรรมแบบ multi-agent น่าจะทำได้หลายวิธี และด้วย covariance ของหลายโมเดล ความผิดพลาดอาจซิงก์กันได้ ผมจึงคิดว่าการหาชุดโครงสร้างที่หลากหลายเพื่อลดสหสัมพันธ์ของข้อผิดพลาด โดยยังรักษาความแม่นยำรายตัวไว้ เป็นเรื่องสำคัญต่อการปรับประสิทธิภาพ อยากลองทดสอบเรื่องนี้กับ benchmark ที่มีคำตอบได้หลายแบบ
    • สงสัยว่าสหภาพยุโรป (EU) คือ consortium of consortiums หรือเปล่า
    • ถ้าใครรู้ว่ามีปลั๊กอิน OpenWebUI ที่รองรับฟังก์ชันแบบนี้ไหม ช่วยบอกที
    • มีคนบอกว่าไม่เห็นคำสั่ง llm serve
  • มันไม่ใช่โมเดลตัวเดียวกับที่ได้เหรียญทองใน IMO (International Mathematical Olympiad) เมื่อไม่กี่สัปดาห์ก่อน แต่เป็นสายพันธุ์ใกล้เคียงกันมาก https://x.com/OfficialLoganK/status/1951262261512659430 ตอนนี้ยังไม่มีให้ใช้ผ่าน API

  • แนวทางครั้งนี้คล้ายกับ Grok 4 Heavy: รันเอเจนต์ “ให้เหตุผล” หลายตัวแบบขนาน แล้วเอาคำตอบมาเทียบกันก่อนเลือกอันที่ดีที่สุด ใช้เวลาราว 30 นาที ผลลัพธ์ยอดเยี่ยม แต่ถ้าจะเทียบ benchmark กันอย่างยุติธรรม ก็ควรเทียบกับ Grok 4 Heavy มากกว่า Grok 4 ซึ่งเป็นโมเดลแบบเอเจนต์เดี่ยวและเร็วกว่า

    • ถ้าเอาพลังประมวลผลด้านการให้เหตุผลเท่าเดิมไปกระจายให้หลายเอเจนต์ จะได้ผลลัพธ์ดีกว่า ปัญหาแบบ “ยิ่งคิดนานคำตอบยิ่งแย่” ก็อาจแก้ได้ด้วยการแตกเส้นทางความคิดหลายสายแบบขนานในช่วงเวลาสั้น ๆ
    • ในบทความระบุว่า Deep Think ใช้วิธีคิดแบบขนานเพื่อสร้างแนวคิดหลายแบบพร้อมกัน พิจารณาพร้อมกัน แล้วผสานและแก้ไขจนได้คำตอบสุดท้าย จากคำอธิบายนี้ยังไม่ชัดเจนว่ามีการใช้หลายเอเจนต์หรือไม่ จึงตีความได้หลายแบบ
    • Grok-4 Heavy ใช้เครื่องมือช่วยแก้โจทย์ใน benchmark หลายข้อได้ค่อนข้างตรงไปตรงมา จึงมีข้อจำกัดในการเทียบกันตรง ๆ
    • สงสัยว่าวิธีของ Google ต่างจาก Mixture of Experts อย่างไร เพราะ Mixture of Experts จะฝึกน้ำหนักของแต่ละ expert แตกต่างกันไปโดยตรง แต่กรณีนี้ดูเหมือนใช้แค่การปรับ temperature เพื่อให้ได้ความหลากหลายทางความคิด เลยอยากรู้ว่ามีงานวิจัยไหนเปรียบเทียบอย่างชัดเจนไหมว่า การรันโมเดลเดียวกันหลายครั้งเพื่อให้ได้แนวคิดหลากหลาย กับการรันหลายโมเดลที่ต่างกันทั้งสถาปัตยกรรม/น้ำหนักไปพร้อมกัน แบบไหนดีกว่ากัน
    • น่าแปลกที่ยังไม่มีแอปหลัก ๆ ที่จับ LLM สำคัญหลายตัวมารันแข่งกันในที่เดียว แล้วคัดคำตอบสุดท้ายออกมา
  • OpenAI ขึ้นราคาเป็น $200, Anthropic มี $100 และ $200, Gemini อยู่ที่ $250, ส่วน Grok ไปได้ถึง $300 มีแค่ OpenAI ที่บอกว่า “แทบไม่จำกัด” และผมก็ยังไม่เคยชนลิมิตในแผน ChatGPT Pro จริง ๆ แต่ Claude Max เคยชนลิมิตหลายครั้ง สงสัยว่าทำไมบริษัทพวกนี้ถึงไม่เปิดเผยลิมิตให้ชัดเจน

    • จุดประสงค์คือเก็บเงินซ้ำซ้อน ถ้าตั้งราคาอย่างเป็นธรรมก็ควรแสดงค่าบริการตามจำนวนโทเคนต่อ query เพื่อให้จ่ายเท่าที่ใช้จริง แต่บริษัทต้องการรายรับประจำที่แน่นอนและพยายามลดการใช้งานจริงให้น้อยที่สุด จึงขายแบบเหมือนไม่จำกัดรายเดือนหรือรายปี สุดท้ายก็เป็นโครงสร้างที่ทำให้เราจ่ายแพงกว่าการใช้งานจริง
    • เหตุผลจริงที่ไม่ประกาศลิมิตล่วงหน้าคือ บริษัทต้องสามารถปรับลิมิตได้ยืดหยุ่นตามสภาพตลาดหรือภาระของโครงสร้างพื้นฐาน เวลาทราฟฟิกพุ่งฉับพลันแบบกระแสสร้างภาพ ChatGPT สไตล์ Ghibli ในอดีต ก็ต้องใส่ข้อจำกัด แต่ถ้าช่วงไหนมีทรัพยากรเหลืออย่างตอนนี้ ก็อาจปล่อยให้ใช้งานได้มากขึ้น
    • ถ้าทำให้ลิมิตโปร่งใส ผู้ใช้ก็จะเริ่มหาช่องใช้ให้เต็มลิมิต สุดท้ายลิมิตของทุกคนจะยิ่งลดลง ดังนั้นการไม่เปิดเผยจึงอาจเป็นทางเลือกที่ดีกว่าสำหรับคนส่วนใหญ่ในทางปฏิบัติ
  • ช่วงไม่กี่เดือนที่ผ่านมา พอใช้ Gemini แล้วกลับรู้สึกว่ามันแย่ลงเรื่อย ๆ มี hallucination บ่อยมาก และถึงจะชี้ให้เห็น มันก็ยังดื้อ เชื่อถือได้ยากขึ้น

    • จากประสบการณ์ของผม Flash ดีขึ้นเรื่อย ๆ ถึงจะจ่ายเงินให้ Pro อยู่ก็ยังใช้ Flash บ่อยกว่า Pro น่าผิดหวังตรงที่แทบไม่ค้นหาข้อมูลใหม่เลยและชอบวนอยู่กับข้อมูลฝึกเก่า ๆ แต่ Flash แทบไม่มีปัญหานี้เลย ส่วนงานเขียนโค้ด ผมใช้ Pro ผ่าน Gemini CLI ซึ่งทำได้ยอดเยี่ยมไม่ใช่แค่เขียนโค้ด แต่รวมถึงการเขียน design doc การแยกงานรายสัปดาห์ การจัดการตาราง และอื่น ๆ ด้วย เหมือนถ้าจัดโครงให้ดี มันก็จะดูแลบริบทของตัวเองต่อได้
    • ผมก็มีประสบการณ์คล้ายกัน ตอนนี้เลิกใช้ Gemini Pro แล้ว มันยืดเยื้อเกินไปและเนื้อหาขัดแย้งกัน Claude Sonnet 4 ตอบได้ดีกว่า ช่วงหลังรู้สึกว่า Sonnet ไล่ระดับความสามารถมาใกล้ Opus มากขึ้นเยอะ หลังมีระบบโควตาใหม่ ผมจะเริ่มจาก Sonnet ก่อนเสมอ ตอนนี้เทียบกับ Opus แล้ว มันจัดการปัญหายากหรือซับซ้อนส่วนใหญ่ได้ดีทีเดียว เมื่อไม่กี่เดือนก่อนยังไม่รู้สึกแบบนี้เลย
    • ผมก็รู้สึกเหมือนกันว่า Gemini แย่ลงเรื่อย ๆ แต่ benchmark อย่าง fiction.livebench ก็วัดความต่างนี้ออกมาเป็นตัวเลขได้ยาก เลยสงสัยว่าพวกเขากำลังทำ aggressive quantizing กับโมเดลมากเกินไปหรือเปล่า หรือจริง ๆ แล้วเป็นเพราะความคาดหวังของพวกเราสูงขึ้นเรื่อย ๆ
    • อยากถามว่าเป็นปัญหาจากการเชื่อมต่อกับเครื่องมือเป็นหลักหรือไม่ และใช้ใน AI Studio หรือใช้ผ่าน API เพราะจากที่ผมเจอ มันมักแต่งเรื่องเครื่องมือที่ใช้ไม่ได้ขึ้นมาเอง และแสดงความมั่นใจเกินจริงกับผลลัพธ์
  • มีประกาศว่าผู้สมัคร Google AI Ultra สามารถใช้ Deep Think ในแอป Gemini ได้ตั้งแต่วันนี้ โดยให้จำนวนพรอมป์ต์แบบคงที่ แต่คำว่า “ชุดคงที่” นี้หมายถึงจำนวนคงที่ หรือหมายถึงประเภทพรอมป์ต์ที่กำหนดไว้ อยากรู้รายละเอียดให้ชัดกว่านี้

    • ลิมิตคือวันละ 10 คำขอ เพราะพรอมป์ต์หนึ่งใช้เวลาคิดราว 30 นาที จึงเหมาะกับงานวิจัยหรืองานปัญหาซับซ้อนหลายชั้นมากกว่างานเขียนโค้ดทั่วไปหรือแต่งแฟนฟิก
  • เวลาจัดตารางด้วย Gemini CLI ต่อให้สั่งชัดเจนและคอยแทรกแซงหลายรอบว่าอย่าทำอะไรนอกลู่นอกทาง มันก็ยังพยายามแก้เองจนทำให้แผนพังบ่อย ๆ

    • เอเจนต์สายนี้กลับสร้างความสับสนบ่อยเสียมากกว่า Claude Code (Anthropic) ได้รับความนิยมเพราะดึงประสิทธิภาพของโมเดลออกมาได้เต็มที่ แต่ Gemini CLI กลับทำให้ประสิทธิภาพดั้งเดิมของ Gemini Pro 2.5 ลดลง ผมเลยเลิกใช้ Gemini CLI ไปเลยแล้ว (ถึงจะฟรีก็ตาม) แต่สำหรับงานที่เน้นพรอมป์ต์ มันก็ยังทรงพลังมากและผมยังใช้อยู่เป็นประจำ
    • ผมก็คล้ายกัน ถ้าโยนงานใหญ่และเป็นนามธรรมให้ Gemini CLI ตรง ๆ มันจะพลาดซ้ำ ๆ แต่ถ้าช่วยวางโครงชัดเจนให้หน่อย เช่น แยกการสร้างคอนเท็กซ์เป็นหลายขั้น มันจะทำผลงานได้น่าทึ่งมาก ผมจะสั่งในขั้นแรกให้อ่านโค้ดและเขียนเอกสารสรุปความต้องการเท่านั้น จากนั้นค่อยให้ใช้ผลลัพธ์นั้นไปทำ requirement spec แบบละเอียด ออกแบบ API และเขียน pseudocode ของ logic ที่ tricky ทีละขั้น สุดท้ายให้แตกงานพัฒนาออกเป็นแผนงานรายสัปดาห์ รายวัน และรายชั่วโมง แล้วค่อยใส่ข้อมูลให้เพียงพอเพื่อเขียนโค้ดจริง ถ้าจะทำอัตโนมัติเต็มรูปแบบก็คงทำเป็นสคริปต์ได้ แต่ในการใช้งานจริง แบบที่มีคนตรวจทาน ให้ feedback และทำ brainstorming วนไปจะได้ผลดีกว่า มันสามารถสร้าง context เองได้เกิน 90% และพักหลังถ้าใช้วิธีนี้ก็แทบไม่ค่อยพลาดแล้ว