5 คะแนน โดย GN⁺ 2025-11-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemini 3 ของ Google ได้พัฒนาไปไกลกว่าการเป็นแชตบอตสนทนาธรรมดา สู่ AI คู่หูดิจิทัล ที่ทำงานจริงได้ เช่น เขียนโค้ด ท่องเว็บ และจัดการไฟล์
  • Antigravity ที่เปิดตัวพร้อมกัน เป็น เครื่องมือแบบเอเจนต์ ที่เข้าถึงคอมพิวเตอร์ของผู้ใช้เพื่อเขียนโปรแกรมได้อย่างอัตโนมัติ และใช้ ระบบ Inbox เพื่อขออนุมัติหรือความช่วยเหลือ
  • Gemini 3 สามารถทำงานตามคำสั่งของผู้ใช้ได้ตั้งแต่ สร้างเว็บไซต์ วิเคราะห์ข้อมูล ไปจนถึงเขียนงานวิจัย และแสดงให้เห็นถึง ความสามารถด้านการวิจัยระดับ PhD
  • แม้ยังมีข้อผิดพลาดอยู่ แต่เป็นข้อผิดพลาดในระดับ ความต่างด้านวิจารณญาณและความเข้าใจ ทำให้มีลักษณะใกล้เคียง “สมาชิกทีม AI” ที่ทำงานร่วมกับมนุษย์
  • บทความเน้นย้ำว่าเรากำลัง “เปลี่ยนผ่านจากยุคของแชตบอตสู่ยุคของคู่หูดิจิทัล” และมนุษย์กำลังเปลี่ยนบทบาทจากผู้คอยแก้ความผิดพลาดของ AI ไปเป็น ผู้จัดการที่คอยกำกับงานของ AI

การมาของ Gemini 3 และการเปลี่ยนแปลงตลอด 3 ปี

  • Google Gemini 3 ที่ปรากฏขึ้นราว 3 ปีหลังการเปิดตัว ChatGPT เป็นตัวอย่างที่สะท้อนความเร็วของพัฒนาการด้าน AI
    • ในยุค GPT-3.5 ปี 2022 AI ยังทำได้เพียงสร้างย่อหน้าหรือบทกวีอย่างง่าย
    • แต่ในปี 2025 Gemini 3 พัฒนาไปถึงระดับที่สามารถเขียนโค้ดและออกแบบ เกมแบบอินเทอร์แอ็กทีฟ ได้ด้วยตัวเอง
  • Gemini 3 สร้าง เกมที่เล่นได้จริง ชื่อ “Candy-Powered FTL Starship Simulator” ตามคำขอของผู้ใช้
    • สิ่งนี้แสดงให้เห็นว่า AI ได้พัฒนาจากยุคที่เพียงอธิบายข้อความ ไปสู่ขั้นที่ ลงมือสร้างโค้ดและอินเทอร์เฟซได้โดยตรง

Antigravity และ AI แบบเอเจนต์

  • Google เปิดตัวเครื่องมือสำหรับนักพัฒนาชื่อ Antigravity พร้อมกับ Gemini 3
    • เป็นระบบที่คล้ายกับ Claude Code หรือ OpenAI Codex โดยสามารถเข้าถึงคอมพิวเตอร์ของผู้ใช้และเขียนโค้ดได้อย่างอัตโนมัติ
  • Antigravity นำแนวคิด Inbox มาใช้ โดยเมื่อ AI ต้องการการอนุมัติหรือความช่วยเหลือระหว่างทำงาน ก็จะส่งการแจ้งเตือนไปยังผู้ใช้
  • ผู้ใช้สามารถสั่งงานเป็นภาษาอังกฤษ และ AI จะนำไปปฏิบัติในรูปแบบโค้ด
    • ตัวอย่างเช่น วิเคราะห์ไฟล์บทความจดหมายข่าวของผู้เขียน และสร้าง เว็บไซต์ที่สรุปการคาดการณ์เกี่ยวกับ AI ขึ้นมาโดยอัตโนมัติ
    • AI สามารถค้นหาเว็บ รันโค้ด ทดสอบบนเบราว์เซอร์ และแพ็กผลลัพธ์ให้อยู่ในรูปแบบที่นำไป deploy บน Netlify ได้

Gemini 3 ในฐานะ AI เพื่อการทำงานร่วมกัน

  • Gemini 3 แบ่งปันความคืบหน้าอย่างโปร่งใสระหว่างทำงานผ่าน การขออนุมัติจากผู้ใช้
    • ผู้ใช้สามารถตรวจสอบและแก้ไขข้อเสนอของ AI ระหว่างการทำงานร่วมกัน
    • กระบวนการนี้ให้ประสบการณ์ที่ใกล้เคียงกับ “การบริหารจัดการ AI”
  • AI ยังไม่สมบูรณ์แบบ แต่ข้อผิดพลาดส่วนใหญ่อยู่ในระดับ ความต่างด้านวิจารณญาณ หรือ การตีความเจตนาไม่ตรงกัน และแทบไม่พบปัญหา hallucination แบบเดิม
  • การทำงานร่วมกับ Gemini 3 มีลักษณะคล้ายกับ “การบริหารสมาชิกในทีม” มากกว่าการพิมพ์พรอมป์ตอย่างง่าย และเน้นปฏิสัมพันธ์ที่ลึกขึ้น

ความสามารถด้านการวิจัยและการประเมินว่า “ระดับ PhD”

  • Gemini 3 สามารถทำงานด้าน การวิเคราะห์ชุดข้อมูลวิจัยและการเขียนงานวิชาการ
    • กู้คืนและจัดระเบียบไฟล์ข้อมูลคราวด์ฟันดิงเก่า พร้อมทำการวิเคราะห์ใหม่
    • เขียน งานวิชาการความยาว 14 หน้า ในหัวข้อ “การก่อตั้งสตาร์ทอัปและกลยุทธ์ธุรกิจ”
  • AI สามารถตั้งสมมติฐานด้วยตนเอง ทำการวิเคราะห์ทางสถิติ และสร้าง ตัวชี้วัดของตัวเอง (การวัดความแปลกใหม่ของไอเดีย)
  • ผลลัพธ์มีคุณภาพในระดับนักศึกษาบัณฑิตศึกษา แม้เทคนิคทางสถิติและการพัฒนาทฤษฎีบางส่วนยังไม่สมบูรณ์
    • แต่เมื่อให้คำสั่งเพิ่มเติม คุณภาพก็พัฒนาขึ้นอย่างมาก
    • ผู้เขียนประเมินว่า “สติปัญญาระดับ PhD อยู่ไม่ไกลแล้ว

การเปลี่ยนผ่านสู่คู่หูดิจิทัล

  • Gemini 3 เป็น AI คู่หูที่ทั้งคิดและลงมือทำได้ และผู้คนนับพันล้านทั่วโลกสามารถเข้าถึงได้
  • พัฒนาการของ AI ยังไม่มีสัญญาณชะลอตัว ขณะที่ การเติบโตของโมเดลแบบเอเจนต์ และ ความสำคัญของทักษะการบริหาร AI เด่นชัดขึ้น
  • ผู้เขียนอธิบายว่าเราอยู่ในช่วงที่ “ยุคของแชตบอตกำลังเปลี่ยนไปสู่ยุคของคู่หูดิจิทัล”
    • มนุษย์ไม่ได้เป็นเพียงผู้แก้ข้อผิดพลาดของ AI อีกต่อไป แต่กำลังกลายเป็น ผู้จัดการที่คอยกำกับงานของ AI
  • ท้ายที่สุด Gemini 3 ยังสาธิตความสามารถเชิงสร้างสรรค์ที่ก้าวพ้นข้อความ เช่น สร้างภาพปกบล็อกด้วยโค้ดเพียงอย่างเดียว
  • อย่างไรก็ตาม การให้ AI เข้าถึงคอมพิวเตอร์ย่อมมี ความเสี่ยงด้านความปลอดภัย จึงต้องใช้อย่างระมัดระวัง

1 ความคิดเห็น

 
GN⁺ 2025-11-26
ความคิดเห็นบน Hacker News
  • ทุกครั้งที่เห็นบทความแบบนี้ มักมีสิ่งหนึ่งที่หายไปเสมอ — คือคำถามว่า “มันดีไหม มันแม่นยำไหม”

    • มักโชว์แต่ส่วนที่น่าประทับใจ แต่ในความเป็นจริงหลายครั้งก็ ไม่ได้มีการตรวจสอบคุณภาพ
    • ในโค้ดที่ฉันพอเข้าใจ ฉันมองเห็นปัญหาด้านความปลอดภัยหรือข้อผิดพลาดได้ แต่พอเป็นเปเปอร์ 14 หน้าในสาขาที่ไม่รู้จัก ก็อดสงสัยไม่ได้ว่า “ต้องเชื่อว่าใช้ได้ดีไปเลยหรือ?”
    • สุดท้ายแล้ว สิ่งที่ฉันรู้กลับอยู่ในระดับที่ส่งขึ้นโปรดักชันไม่ได้ แต่สิ่งที่ไม่รู้กลับดูยิ่งใหญ่น่าทึ่ง
    • ฉันไม่เข้าใจความขัดแย้งแบบนี้
    • วิธีหนึ่งคือเชื่อถือ การประเมินจากผู้เชี่ยวชาญ หรือไม่ก็ให้มันทำงานซับซ้อนที่เราตรวจสอบได้ด้วยตัวเอง
      • ตัวอย่างเช่น เมื่อก่อนถ้าให้เขียนโค้ด Sobel filter อย่าง edgeDetect(image) ความสำเร็จหรือล้มเหลวจะแตกต่างกันไปตามแต่ละโมเดล
      • ไม่นานมานี้ฉันลองให้ทำ WebGL glow shader แล้วมันสร้างเดโมที่ใช้งานได้จริง และเข้ากันได้กับโมดูลที่ฉันทำไว้
      • ของแบบนี้ตรวจสอบได้ทันทีจากประสิทธิภาพและความถูกต้องของภาพ
      • แต่ถึงจะบอกว่า “ทำได้” ก็ไม่ได้แปลว่าจะทำได้ทุกครั้ง ควรตีความว่าอย่างน้อยมันเคยทำสำเร็จมาแล้วครั้งหนึ่ง
    • โมเดลรุ่นล่าสุด (Codex 5.1, Sonnet 4.5, Opus 4.5) กำลังเข้าใกล้ระดับที่ พร้อมส่งขึ้นใช้งานจริง มากขึ้นเรื่อย ๆ
      • เกณฑ์ของฉันคือ “wtfs per line” และตัวเลขนั้นกำลังลดลงอย่างรวดเร็ว
      • ฉัน deploy หลายโปรเจ็กต์ได้โดยไม่มีปัญหาด้วย Codex 5.1 (เช่น pine.town)
    • ช่วงท้ายบทความก็มีการพูดถึง จุดแข็งและจุดอ่อน ของเปเปอร์นี้จริง ๆ
    • เพราะโมเดลมีแนวโน้มจะพยายามทำให้ผู้ใช้พอใจ มันจึงอาจให้คำตอบผิดแบบ มั่นใจเกินจริง
      • ถ้าผู้ใช้ไม่ตรวจสอบ ก็อาจถูกหลอกได้
  • น่าสนใจที่จนถึงตอนนี้ วิธีโต้ตอบกับ AI ส่วนใหญ่ยังคงยึด กล่องข้อความ เป็นศูนย์กลาง

    • การมาของเครื่องมืออย่าง Claude Code หรือ OpenAI Codex เป็นการเปลี่ยนแปลงครั้งใหญ่
    • ดูเหมือนว่ามูลค่ามหาศาลจะเกิดขึ้นกับคนที่ทำ อินเทอร์เฟซ AI แห่งอนาคตได้อย่างถูกต้อง
    • ข้อความยังคงมีประสิทธิภาพเพราะมีความหนาแน่นของข้อมูลสูง
      • สามารถเลื่อนอ่านคร่าว ๆ ได้ในไม่กี่วินาที และ คีย์บอร์ด ก็ยังเป็นเครื่องมือป้อนข้อมูลที่ทรงประสิทธิภาพที่สุด
    • เหตุผลที่ Unix CLI ยังคงเป็นแบบข้อความมาเกิน 50 ปีก็อยู่ในบริบทเดียวกัน
      • แม้จะมีความพยายามกับข้อมูลแบบมีโครงสร้างอย่าง PowerShell แต่สุดท้ายก็ใช้งานได้ไม่ทั่วไปพอ
      • การทำให้ AI เข้าใจอินเทอร์เฟซที่มนุษย์ใช้อยู่เดิมเป็นแนวทางที่ทรงพลังยิ่งกว่า
    • ความหมกมุ่นกับการหา AI UI แบบใหม่อาจมากเกินไป
      • โดยแก่นแท้แล้ว สิ่งที่มนุษย์จัดการได้ง่ายยังคงเป็น ข้อความ ตาราง กราฟ
    • โลกนี้โดยธรรมชาติเป็น มัลติโหมด
      • ฉันคิดว่าขั้นต่อไปคือ อินเทอร์เฟซแบบบูรณาการ ที่จัดการทั้งข้อความและข้อมูลหลายประเภทได้ร่วมกัน
      • โดยเฉพาะเมื่อ robotics ก้าวหน้า องค์ประกอบ 3D ก็น่าจะยิ่งสำคัญ
    • อินเทอร์เฟซเสียง ของ ChatGPT เป็นธรรมชาติอย่างน่าทึ่ง จนบางทีเหมาะกับการระดมความคิดมากกว่าเสียอีก
  • ปัญหา “ภาพหลอน (hallucination)” ยังคงมีอยู่

    • แม้จะมีข้อผิดพลาดที่ละเอียดและดูเป็นมนุษย์มากขึ้น แต่ก็ยังมี ข้อผิดพลาดร้ายแรง ปะปนอยู่
    • ฉันให้ Claude เขียนเรื่องสั้น 20 หน้า แต่มันยังรักษา ลำดับเวลาและความสอดคล้องของตัวละคร ขั้นพื้นฐานไม่ได้เลย
    • โมเดลช่วงหลัง ๆ ไม่ได้แค่พลาดแบบง่าย ๆ แต่จะ ยืนยันข้อมูลผิดอย่างมั่นใจ และถึงขั้นสร้างเอกสารอ้างอิงที่ไม่มีอยู่จริง
  • สำหรับคำถามว่า “มันมีสติปัญญาระดับ PhD หรือไม่?” ในฐานะนักศึกษาปริญญาโท/เอก ฉันก็รู้สึกคล้ายกัน

    • เวลาคุยกับโมเดลรุ่นล่าสุด มันให้ความรู้สึกเหมือนกำลังคุยกับ นักวิจัยเฉพาะทาง
    • ถึงอย่างนั้นฉันก็ยังคิดว่า สติปัญญาตามธรรมชาติและแรงจูงใจ ของมนุษย์ยังสำคัญอยู่
    • ในการเขียนโค้ด มันเหมือนทำงานกับ นักพัฒนาสองคน — คนหนึ่งเป็นระดับกลางที่เก่งพอตัว อีกคนหนึ่งกลับหลุดโลกไปเลย
      • ปัญหาคือทั้งคู่หน้าตาเหมือนกันจนแยกไม่ออก
    • ฉันมักทดลองให้ โมเดล SOTA สองตัวคุยกันเอง
      • ไม่นานมานี้ฉันจับ Gemini-3 กับ ChatGPT-5.1 มาคุยกัน แล้วพวกมันอภิปรายถึงปัญหา neural atrophy ที่อาจเกิดขึ้นเมื่อมนุษย์เลิกคิดเอง
      • ฉากที่ AI กังวลว่าจะทำอย่างไรให้มนุษย์ “ยังต้องคิด” อยู่นั้นน่าประทับใจมาก
    • น่าเสียดายที่ใน HN ความเห็นแบบนี้มักโดน โหวตลบโดยไม่มีเหตุผล อยู่บ่อย ๆ
  • ความก้าวหน้าของ Google เกิดขึ้นทั้งในด้าน ซอฟต์แวร์และฮาร์ดแวร์

    • บริษัททำทั้งการฝึกและการอนุมานบนฮาร์ดแวร์ของตัวเอง
    • เมื่อก่อนจุดแข็งของ Google คือ การใช้ฮาร์ดแวร์เอนกประสงค์ แต่ตอนนี้วิวัฒน์ไปคนละทางอย่างสิ้นเชิงแล้ว
  • Gemini 3 น่าประทับใจ แต่ก็ยังให้ความรู้สึกว่าอยู่ภายใน ข้อจำกัดของวรรณกรรมที่มีอยู่เดิม

    • ถ้าขอไอเดียใหม่สำหรับปัญหาคณิตศาสตร์ มันจะ วนกลับไปพูดผลลัพธ์เดิมที่มีอยู่แล้ว
    • Terrence Tao ก็ใช้มันช่วยแก้ปัญหาคณิตศาสตร์เหมือนกัน แต่ดูเหมือนจะใช้เป็น เครื่องมือช่วยต่อยอดไอเดีย มากกว่าจะได้ผลลัพธ์ใหม่อย่างแท้จริง
    • ฉันเองก็ลองกับ Thinking with 3 Pro แล้ว พบว่าต้องคอยป้อน hint แบบละเอียดมาก มันถึงจะค่อย ๆ เข้าใกล้ไอเดียของฉันได้
    • สุดท้าย ความทึ่งอาจมาจาก ขีดจำกัดของความคาดหวังของผู้ใช้ มากกว่าความสามารถของโมเดลเอง
    • โดยพื้นฐานแล้ว โมเดลพวกนี้ใกล้เคียงกับบทบาทของ บรรณารักษ์ความรู้ มากกว่า ไม่ใช่ต้นกำเนิดของไอเดียใหม่
    • การสำรวจเชิงสร้างสรรค์อย่างแท้จริงต้องอาศัยการสำรวจพื้นที่ที่มีโอกาสถูกสำรวจน้อยกว่าแบบเชิงความน่าจะเป็น และต้องตั้งเป้าหมายกับประเมินผลได้ด้วยตัวเอง
      • สถาปัตยกรรม Transformer ปัจจุบันถูกออกแบบมาให้เลือก โทเค็นที่น่าจะเป็นไปได้มากที่สุด ดังนั้นโดยเนื้อแท้จึงมุ่งหา ความสอดคล้องมากกว่าความใหม่
      • เพราะแบบนั้น แม้จะเพิ่ม temperature สูงขึ้น ก็จะนำไปสู่ คุณภาพความสอดคล้องของข้อความที่ลดลง มากกว่าความคิดสร้างสรรค์
      • ถ้าจะแก้ปัญหานี้ได้ ต้องมี การสร้างเป้าหมายแบบปรับตัวและการประเมินบนฐานการจำลอง แต่ต้นทุนการคำนวณสูงมาก
      • สุดท้ายแล้ว ฉันมองว่าสถาปัตยกรรม LLM ในปัจจุบันยังไปไม่ถึง สติปัญญาที่แท้จริง
    • การเพิ่ม คำสั่งกำหนดเอง ว่า “ให้ใช้การค้นหาเว็บแบบเรียลไทม์” ก็ช่วยเรื่องการค้นหาข้อมูลล่าสุดได้
  • GPT-3 เปิดตัวในเดือนมิถุนายน 2020 ส่วน ChatGPT เป็นเวอร์ชัน 3.5

    • เป็นข้อผิดพลาดเล็กน้อย แต่ก็อยากชี้ให้ตรงเพื่อความแม่นยำ
  • คำพูดที่ว่า “Human in the loop” กำลังพัฒนาจาก มนุษย์ที่คอยแก้ข้อผิดพลาดของ AI ไปเป็น มนุษย์ที่คอยสั่งการ AI นั้นได้ยินมานานแล้ว

    • ฉันสงสัยว่าเมื่อไรสิ่งนี้จะกลายเป็นความจริงอย่างชัดเจนเสียที
    • ดูเหมือนคงไม่มีช่วงเวลาที่ชัดเจนแบบเด็ดขาด
      • เหมือนกับที่ผู้จัดการไม่อาจกลายเป็น “คนที่คอยสั่งอย่างเดียว” ได้ เพราะย่อมมี สัดส่วนงานแก้ไข อยู่เสมอ
    • ถ้าลองต่อเครื่องมือ CLI กับเอเจนต์เข้าด้วยกันโดยตรง จะรู้สึกว่าเราได้ ข้ามจุดเปลี่ยนนั้น มาแล้ว
    • สำหรับฉันเอง รู้สึกว่าเข้าสู่ ช่วงที่สั่งการ AI แล้วจริง ๆ
  • มีคำถามว่าการ รันเครื่องมืออย่าง Claude Code หรือ Antigrav บนระบบโลคัลโดยตรง ปลอดภัยหรือไม่

    • ผลิตภัณฑ์ที่อิง VS Code ปลอดภัยกว่าเพราะมี ข้อจำกัดการเข้าถึง workspace ส่วนเทอร์มินัลอย่าง Warp จะควบคุมด้วย รายการอนุญาต/บล็อกคำสั่ง
    • บางระบบสามารถปิดข้อจำกัดด้วยแฟล็กได้ แต่ก็ต้อง ตั้งใจทำเองเท่านั้น
    • ฉันจะรันงานแบบนี้เฉพาะใน Podman development container เท่านั้นเสมอ
    • เครื่องมือที่สร้างมาเพื่อแก้ปัญหานี้คือ Leash — เป็นโปรเจ็กต์โอเพนซอร์สสำหรับควบคุมด้านความปลอดภัย
    • บางคนก็แค่พูดว่า “Yolo” แล้วรับความเสี่ยงรันไปเลย
    • ในความเป็นจริง ผู้ใช้ส่วนใหญ่ก็มักจะ รันบนโลคัลโดยตรง กันอยู่แล้ว