3 ปีจาก GPT-3 สู่ Gemini 3

(oneusefulthing.org)

5 คะแนน โดย GN⁺ 2025-11-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Gemini 3 ของ Google ได้พัฒนาไปไกลกว่าการเป็นแชตบอตสนทนาธรรมดา สู่ AI คู่หูดิจิทัล ที่ทำงานจริงได้ เช่น เขียนโค้ด ท่องเว็บ และจัดการไฟล์
Antigravity ที่เปิดตัวพร้อมกัน เป็น เครื่องมือแบบเอเจนต์ ที่เข้าถึงคอมพิวเตอร์ของผู้ใช้เพื่อเขียนโปรแกรมได้อย่างอัตโนมัติ และใช้ ระบบ Inbox เพื่อขออนุมัติหรือความช่วยเหลือ
Gemini 3 สามารถทำงานตามคำสั่งของผู้ใช้ได้ตั้งแต่ สร้างเว็บไซต์ วิเคราะห์ข้อมูล ไปจนถึงเขียนงานวิจัย และแสดงให้เห็นถึง ความสามารถด้านการวิจัยระดับ PhD
แม้ยังมีข้อผิดพลาดอยู่ แต่เป็นข้อผิดพลาดในระดับ ความต่างด้านวิจารณญาณและความเข้าใจ ทำให้มีลักษณะใกล้เคียง “สมาชิกทีม AI” ที่ทำงานร่วมกับมนุษย์
บทความเน้นย้ำว่าเรากำลัง “เปลี่ยนผ่านจากยุคของแชตบอตสู่ยุคของคู่หูดิจิทัล” และมนุษย์กำลังเปลี่ยนบทบาทจากผู้คอยแก้ความผิดพลาดของ AI ไปเป็น ผู้จัดการที่คอยกำกับงานของ AI

การมาของ Gemini 3 และการเปลี่ยนแปลงตลอด 3 ปี

Google Gemini 3 ที่ปรากฏขึ้นราว 3 ปีหลังการเปิดตัว ChatGPT เป็นตัวอย่างที่สะท้อนความเร็วของพัฒนาการด้าน AI
- ในยุค GPT-3.5 ปี 2022 AI ยังทำได้เพียงสร้างย่อหน้าหรือบทกวีอย่างง่าย
- แต่ในปี 2025 Gemini 3 พัฒนาไปถึงระดับที่สามารถเขียนโค้ดและออกแบบ เกมแบบอินเทอร์แอ็กทีฟ ได้ด้วยตัวเอง
Gemini 3 สร้าง เกมที่เล่นได้จริง ชื่อ “Candy-Powered FTL Starship Simulator” ตามคำขอของผู้ใช้
- สิ่งนี้แสดงให้เห็นว่า AI ได้พัฒนาจากยุคที่เพียงอธิบายข้อความ ไปสู่ขั้นที่ ลงมือสร้างโค้ดและอินเทอร์เฟซได้โดยตรง

Antigravity และ AI แบบเอเจนต์

Google เปิดตัวเครื่องมือสำหรับนักพัฒนาชื่อ Antigravity พร้อมกับ Gemini 3
- เป็นระบบที่คล้ายกับ Claude Code หรือ OpenAI Codex โดยสามารถเข้าถึงคอมพิวเตอร์ของผู้ใช้และเขียนโค้ดได้อย่างอัตโนมัติ
Antigravity นำแนวคิด Inbox มาใช้ โดยเมื่อ AI ต้องการการอนุมัติหรือความช่วยเหลือระหว่างทำงาน ก็จะส่งการแจ้งเตือนไปยังผู้ใช้
ผู้ใช้สามารถสั่งงานเป็นภาษาอังกฤษ และ AI จะนำไปปฏิบัติในรูปแบบโค้ด
- ตัวอย่างเช่น วิเคราะห์ไฟล์บทความจดหมายข่าวของผู้เขียน และสร้าง เว็บไซต์ที่สรุปการคาดการณ์เกี่ยวกับ AI ขึ้นมาโดยอัตโนมัติ
- AI สามารถค้นหาเว็บ รันโค้ด ทดสอบบนเบราว์เซอร์ และแพ็กผลลัพธ์ให้อยู่ในรูปแบบที่นำไป deploy บน Netlify ได้

Gemini 3 ในฐานะ AI เพื่อการทำงานร่วมกัน

Gemini 3 แบ่งปันความคืบหน้าอย่างโปร่งใสระหว่างทำงานผ่าน การขออนุมัติจากผู้ใช้
- ผู้ใช้สามารถตรวจสอบและแก้ไขข้อเสนอของ AI ระหว่างการทำงานร่วมกัน
- กระบวนการนี้ให้ประสบการณ์ที่ใกล้เคียงกับ “การบริหารจัดการ AI”
AI ยังไม่สมบูรณ์แบบ แต่ข้อผิดพลาดส่วนใหญ่อยู่ในระดับ ความต่างด้านวิจารณญาณ หรือ การตีความเจตนาไม่ตรงกัน และแทบไม่พบปัญหา hallucination แบบเดิม
การทำงานร่วมกับ Gemini 3 มีลักษณะคล้ายกับ “การบริหารสมาชิกในทีม” มากกว่าการพิมพ์พรอมป์ตอย่างง่าย และเน้นปฏิสัมพันธ์ที่ลึกขึ้น

ความสามารถด้านการวิจัยและการประเมินว่า “ระดับ PhD”

Gemini 3 สามารถทำงานด้าน การวิเคราะห์ชุดข้อมูลวิจัยและการเขียนงานวิชาการ
- กู้คืนและจัดระเบียบไฟล์ข้อมูลคราวด์ฟันดิงเก่า พร้อมทำการวิเคราะห์ใหม่
- เขียน งานวิชาการความยาว 14 หน้า ในหัวข้อ “การก่อตั้งสตาร์ทอัปและกลยุทธ์ธุรกิจ”
AI สามารถตั้งสมมติฐานด้วยตนเอง ทำการวิเคราะห์ทางสถิติ และสร้าง ตัวชี้วัดของตัวเอง (การวัดความแปลกใหม่ของไอเดีย)
ผลลัพธ์มีคุณภาพในระดับนักศึกษาบัณฑิตศึกษา แม้เทคนิคทางสถิติและการพัฒนาทฤษฎีบางส่วนยังไม่สมบูรณ์
- แต่เมื่อให้คำสั่งเพิ่มเติม คุณภาพก็พัฒนาขึ้นอย่างมาก
- ผู้เขียนประเมินว่า “สติปัญญาระดับ PhD อยู่ไม่ไกลแล้ว”

การเปลี่ยนผ่านสู่คู่หูดิจิทัล

Gemini 3 เป็น AI คู่หูที่ทั้งคิดและลงมือทำได้ และผู้คนนับพันล้านทั่วโลกสามารถเข้าถึงได้
พัฒนาการของ AI ยังไม่มีสัญญาณชะลอตัว ขณะที่ การเติบโตของโมเดลแบบเอเจนต์ และ ความสำคัญของทักษะการบริหาร AI เด่นชัดขึ้น
ผู้เขียนอธิบายว่าเราอยู่ในช่วงที่ “ยุคของแชตบอตกำลังเปลี่ยนไปสู่ยุคของคู่หูดิจิทัล”
- มนุษย์ไม่ได้เป็นเพียงผู้แก้ข้อผิดพลาดของ AI อีกต่อไป แต่กำลังกลายเป็น ผู้จัดการที่คอยกำกับงานของ AI
ท้ายที่สุด Gemini 3 ยังสาธิตความสามารถเชิงสร้างสรรค์ที่ก้าวพ้นข้อความ เช่น สร้างภาพปกบล็อกด้วยโค้ดเพียงอย่างเดียว
อย่างไรก็ตาม การให้ AI เข้าถึงคอมพิวเตอร์ย่อมมี ความเสี่ยงด้านความปลอดภัย จึงต้องใช้อย่างระมัดระวัง

1 ความคิดเห็น

GN⁺ 2025-11-26

ความคิดเห็นบน Hacker News

ทุกครั้งที่เห็นบทความแบบนี้ มักมีสิ่งหนึ่งที่หายไปเสมอ — คือคำถามว่า “มันดีไหม มันแม่นยำไหม”
- มักโชว์แต่ส่วนที่น่าประทับใจ แต่ในความเป็นจริงหลายครั้งก็ ไม่ได้มีการตรวจสอบคุณภาพ
- ในโค้ดที่ฉันพอเข้าใจ ฉันมองเห็นปัญหาด้านความปลอดภัยหรือข้อผิดพลาดได้ แต่พอเป็นเปเปอร์ 14 หน้าในสาขาที่ไม่รู้จัก ก็อดสงสัยไม่ได้ว่า “ต้องเชื่อว่าใช้ได้ดีไปเลยหรือ?”
- สุดท้ายแล้ว สิ่งที่ฉันรู้กลับอยู่ในระดับที่ส่งขึ้นโปรดักชันไม่ได้ แต่สิ่งที่ไม่รู้กลับดูยิ่งใหญ่น่าทึ่ง
- ฉันไม่เข้าใจความขัดแย้งแบบนี้
- วิธีหนึ่งคือเชื่อถือ การประเมินจากผู้เชี่ยวชาญ หรือไม่ก็ให้มันทำงานซับซ้อนที่เราตรวจสอบได้ด้วยตัวเอง
  - ตัวอย่างเช่น เมื่อก่อนถ้าให้เขียนโค้ด Sobel filter อย่าง edgeDetect(image) ความสำเร็จหรือล้มเหลวจะแตกต่างกันไปตามแต่ละโมเดล
  - ไม่นานมานี้ฉันลองให้ทำ WebGL glow shader แล้วมันสร้างเดโมที่ใช้งานได้จริง และเข้ากันได้กับโมดูลที่ฉันทำไว้
  - ของแบบนี้ตรวจสอบได้ทันทีจากประสิทธิภาพและความถูกต้องของภาพ
  - แต่ถึงจะบอกว่า “ทำได้” ก็ไม่ได้แปลว่าจะทำได้ทุกครั้ง ควรตีความว่าอย่างน้อยมันเคยทำสำเร็จมาแล้วครั้งหนึ่ง
- โมเดลรุ่นล่าสุด (Codex 5.1, Sonnet 4.5, Opus 4.5) กำลังเข้าใกล้ระดับที่ พร้อมส่งขึ้นใช้งานจริง มากขึ้นเรื่อย ๆ
  - เกณฑ์ของฉันคือ “wtfs per line” และตัวเลขนั้นกำลังลดลงอย่างรวดเร็ว
  - ฉัน deploy หลายโปรเจ็กต์ได้โดยไม่มีปัญหาด้วย Codex 5.1 (เช่น pine.town)
- ช่วงท้ายบทความก็มีการพูดถึง จุดแข็งและจุดอ่อน ของเปเปอร์นี้จริง ๆ
- เพราะโมเดลมีแนวโน้มจะพยายามทำให้ผู้ใช้พอใจ มันจึงอาจให้คำตอบผิดแบบ มั่นใจเกินจริง
  - ถ้าผู้ใช้ไม่ตรวจสอบ ก็อาจถูกหลอกได้
น่าสนใจที่จนถึงตอนนี้ วิธีโต้ตอบกับ AI ส่วนใหญ่ยังคงยึด กล่องข้อความ เป็นศูนย์กลาง
- การมาของเครื่องมืออย่าง Claude Code หรือ OpenAI Codex เป็นการเปลี่ยนแปลงครั้งใหญ่
- ดูเหมือนว่ามูลค่ามหาศาลจะเกิดขึ้นกับคนที่ทำ อินเทอร์เฟซ AI แห่งอนาคตได้อย่างถูกต้อง
- ข้อความยังคงมีประสิทธิภาพเพราะมีความหนาแน่นของข้อมูลสูง
  - สามารถเลื่อนอ่านคร่าว ๆ ได้ในไม่กี่วินาที และ คีย์บอร์ด ก็ยังเป็นเครื่องมือป้อนข้อมูลที่ทรงประสิทธิภาพที่สุด
- เหตุผลที่ Unix CLI ยังคงเป็นแบบข้อความมาเกิน 50 ปีก็อยู่ในบริบทเดียวกัน
  - แม้จะมีความพยายามกับข้อมูลแบบมีโครงสร้างอย่าง PowerShell แต่สุดท้ายก็ใช้งานได้ไม่ทั่วไปพอ
  - การทำให้ AI เข้าใจอินเทอร์เฟซที่มนุษย์ใช้อยู่เดิมเป็นแนวทางที่ทรงพลังยิ่งกว่า
- ความหมกมุ่นกับการหา AI UI แบบใหม่อาจมากเกินไป
  - โดยแก่นแท้แล้ว สิ่งที่มนุษย์จัดการได้ง่ายยังคงเป็น ข้อความ ตาราง กราฟ
- โลกนี้โดยธรรมชาติเป็น มัลติโหมด
  - ฉันคิดว่าขั้นต่อไปคือ อินเทอร์เฟซแบบบูรณาการ ที่จัดการทั้งข้อความและข้อมูลหลายประเภทได้ร่วมกัน
  - โดยเฉพาะเมื่อ robotics ก้าวหน้า องค์ประกอบ 3D ก็น่าจะยิ่งสำคัญ
- อินเทอร์เฟซเสียง ของ ChatGPT เป็นธรรมชาติอย่างน่าทึ่ง จนบางทีเหมาะกับการระดมความคิดมากกว่าเสียอีก
ปัญหา “ภาพหลอน (hallucination)” ยังคงมีอยู่
- แม้จะมีข้อผิดพลาดที่ละเอียดและดูเป็นมนุษย์มากขึ้น แต่ก็ยังมี ข้อผิดพลาดร้ายแรง ปะปนอยู่
- ฉันให้ Claude เขียนเรื่องสั้น 20 หน้า แต่มันยังรักษา ลำดับเวลาและความสอดคล้องของตัวละคร ขั้นพื้นฐานไม่ได้เลย
- โมเดลช่วงหลัง ๆ ไม่ได้แค่พลาดแบบง่าย ๆ แต่จะ ยืนยันข้อมูลผิดอย่างมั่นใจ และถึงขั้นสร้างเอกสารอ้างอิงที่ไม่มีอยู่จริง
สำหรับคำถามว่า “มันมีสติปัญญาระดับ PhD หรือไม่?” ในฐานะนักศึกษาปริญญาโท/เอก ฉันก็รู้สึกคล้ายกัน
- เวลาคุยกับโมเดลรุ่นล่าสุด มันให้ความรู้สึกเหมือนกำลังคุยกับ นักวิจัยเฉพาะทาง
- ถึงอย่างนั้นฉันก็ยังคิดว่า สติปัญญาตามธรรมชาติและแรงจูงใจ ของมนุษย์ยังสำคัญอยู่
- ในการเขียนโค้ด มันเหมือนทำงานกับ นักพัฒนาสองคน — คนหนึ่งเป็นระดับกลางที่เก่งพอตัว อีกคนหนึ่งกลับหลุดโลกไปเลย
  - ปัญหาคือทั้งคู่หน้าตาเหมือนกันจนแยกไม่ออก
- ฉันมักทดลองให้ โมเดล SOTA สองตัวคุยกันเอง
  - ไม่นานมานี้ฉันจับ Gemini-3 กับ ChatGPT-5.1 มาคุยกัน แล้วพวกมันอภิปรายถึงปัญหา neural atrophy ที่อาจเกิดขึ้นเมื่อมนุษย์เลิกคิดเอง
  - ฉากที่ AI กังวลว่าจะทำอย่างไรให้มนุษย์ “ยังต้องคิด” อยู่นั้นน่าประทับใจมาก
- น่าเสียดายที่ใน HN ความเห็นแบบนี้มักโดน โหวตลบโดยไม่มีเหตุผล อยู่บ่อย ๆ
ความก้าวหน้าของ Google เกิดขึ้นทั้งในด้าน ซอฟต์แวร์และฮาร์ดแวร์
- บริษัททำทั้งการฝึกและการอนุมานบนฮาร์ดแวร์ของตัวเอง
- เมื่อก่อนจุดแข็งของ Google คือ การใช้ฮาร์ดแวร์เอนกประสงค์ แต่ตอนนี้วิวัฒน์ไปคนละทางอย่างสิ้นเชิงแล้ว
Gemini 3 น่าประทับใจ แต่ก็ยังให้ความรู้สึกว่าอยู่ภายใน ข้อจำกัดของวรรณกรรมที่มีอยู่เดิม
- ถ้าขอไอเดียใหม่สำหรับปัญหาคณิตศาสตร์ มันจะ วนกลับไปพูดผลลัพธ์เดิมที่มีอยู่แล้ว
- Terrence Tao ก็ใช้มันช่วยแก้ปัญหาคณิตศาสตร์เหมือนกัน แต่ดูเหมือนจะใช้เป็น เครื่องมือช่วยต่อยอดไอเดีย มากกว่าจะได้ผลลัพธ์ใหม่อย่างแท้จริง
- ฉันเองก็ลองกับ Thinking with 3 Pro แล้ว พบว่าต้องคอยป้อน hint แบบละเอียดมาก มันถึงจะค่อย ๆ เข้าใกล้ไอเดียของฉันได้
- สุดท้าย ความทึ่งอาจมาจาก ขีดจำกัดของความคาดหวังของผู้ใช้ มากกว่าความสามารถของโมเดลเอง
- โดยพื้นฐานแล้ว โมเดลพวกนี้ใกล้เคียงกับบทบาทของ บรรณารักษ์ความรู้ มากกว่า ไม่ใช่ต้นกำเนิดของไอเดียใหม่
- การสำรวจเชิงสร้างสรรค์อย่างแท้จริงต้องอาศัยการสำรวจพื้นที่ที่มีโอกาสถูกสำรวจน้อยกว่าแบบเชิงความน่าจะเป็น และต้องตั้งเป้าหมายกับประเมินผลได้ด้วยตัวเอง
  - สถาปัตยกรรม Transformer ปัจจุบันถูกออกแบบมาให้เลือก โทเค็นที่น่าจะเป็นไปได้มากที่สุด ดังนั้นโดยเนื้อแท้จึงมุ่งหา ความสอดคล้องมากกว่าความใหม่
  - เพราะแบบนั้น แม้จะเพิ่ม temperature สูงขึ้น ก็จะนำไปสู่ คุณภาพความสอดคล้องของข้อความที่ลดลง มากกว่าความคิดสร้างสรรค์
  - ถ้าจะแก้ปัญหานี้ได้ ต้องมี การสร้างเป้าหมายแบบปรับตัวและการประเมินบนฐานการจำลอง แต่ต้นทุนการคำนวณสูงมาก
  - สุดท้ายแล้ว ฉันมองว่าสถาปัตยกรรม LLM ในปัจจุบันยังไปไม่ถึง สติปัญญาที่แท้จริง
- การเพิ่ม คำสั่งกำหนดเอง ว่า “ให้ใช้การค้นหาเว็บแบบเรียลไทม์” ก็ช่วยเรื่องการค้นหาข้อมูลล่าสุดได้
GPT-3 เปิดตัวในเดือนมิถุนายน 2020 ส่วน ChatGPT เป็นเวอร์ชัน 3.5
- เป็นข้อผิดพลาดเล็กน้อย แต่ก็อยากชี้ให้ตรงเพื่อความแม่นยำ
คำพูดที่ว่า “Human in the loop” กำลังพัฒนาจาก มนุษย์ที่คอยแก้ข้อผิดพลาดของ AI ไปเป็น มนุษย์ที่คอยสั่งการ AI นั้นได้ยินมานานแล้ว
- ฉันสงสัยว่าเมื่อไรสิ่งนี้จะกลายเป็นความจริงอย่างชัดเจนเสียที
- ดูเหมือนคงไม่มีช่วงเวลาที่ชัดเจนแบบเด็ดขาด
  - เหมือนกับที่ผู้จัดการไม่อาจกลายเป็น “คนที่คอยสั่งอย่างเดียว” ได้ เพราะย่อมมี สัดส่วนงานแก้ไข อยู่เสมอ
- ถ้าลองต่อเครื่องมือ CLI กับเอเจนต์เข้าด้วยกันโดยตรง จะรู้สึกว่าเราได้ ข้ามจุดเปลี่ยนนั้น มาแล้ว
- สำหรับฉันเอง รู้สึกว่าเข้าสู่ ช่วงที่สั่งการ AI แล้วจริง ๆ
มีคำถามว่าการ รันเครื่องมืออย่าง Claude Code หรือ Antigrav บนระบบโลคัลโดยตรง ปลอดภัยหรือไม่
- ผลิตภัณฑ์ที่อิง VS Code ปลอดภัยกว่าเพราะมี ข้อจำกัดการเข้าถึง workspace ส่วนเทอร์มินัลอย่าง Warp จะควบคุมด้วย รายการอนุญาต/บล็อกคำสั่ง
- บางระบบสามารถปิดข้อจำกัดด้วยแฟล็กได้ แต่ก็ต้อง ตั้งใจทำเองเท่านั้น
- ฉันจะรันงานแบบนี้เฉพาะใน Podman development container เท่านั้นเสมอ
- เครื่องมือที่สร้างมาเพื่อแก้ปัญหานี้คือ Leash — เป็นโปรเจ็กต์โอเพนซอร์สสำหรับควบคุมด้านความปลอดภัย
- บางคนก็แค่พูดว่า “Yolo” แล้วรับความเสี่ยงรันไปเลย
- ในความเป็นจริง ผู้ใช้ส่วนใหญ่ก็มักจะ รันบนโลคัลโดยตรง กันอยู่แล้ว

3 ปีจาก GPT-3 สู่ Gemini 3

การมาของ Gemini 3 และการเปลี่ยนแปลงตลอด 3 ปี

Antigravity และ AI แบบเอเจนต์

Gemini 3 ในฐานะ AI เพื่อการทำงานร่วมกัน

ความสามารถด้านการวิจัยและการประเมินว่า “ระดับ PhD”

การเปลี่ยนผ่านสู่คู่หูดิจิทัล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News