5 คะแนน โดย GN⁺ 2026-01-17 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • Cursor ประกาศว่าได้ทำการทดลองที่ ‘เอเจนต์เขียนโค้ดอัตโนมัติ’ ทำงานต่อเนื่องหลายสัปดาห์ เพื่อสำรวจว่าสามารถทำงานโครงการที่ปกติต้องใช้เวลาหลายเดือนโดยทีมมนุษย์ให้เป็นอัตโนมัติได้มากเพียงใด
  • เพื่อทดสอบระบบนี้ จึงตั้งเป้าหมายเป็น ‘สร้างเว็บเบราว์เซอร์ตั้งแต่ต้น’ และอ้างว่าเอเจนต์ได้เขียนโค้ดมากกว่า 1 ล้านบรรทัดตลอดเวลาราวหนึ่งสัปดาห์
  • อย่างไรก็ตาม GitHub repository ที่เปิดเผย (fastrender) แสดงให้เห็นข้อผิดพลาดในการคอมไพล์จำนวนมากและ CI ล้มเหลว จึงยืนยันได้ว่า ยังไม่ใช่เบราว์เซอร์ที่ใช้งานได้จริง
  • Cursor ไม่ได้แสดงให้เห็นว่าใช้งานได้จริงหรือมีเดโมที่ทำซ้ำได้ หรือคอมมิตที่บิลด์ได้ และก็ไม่มีหลักฐานความสำเร็จที่เป็นรูปธรรมของผลการทดลอง
  • ถึงอย่างนั้น Cursor ก็ยังใช้ถ้อยคำว่า “เอเจนต์ได้สร้างความคืบหน้าที่มีความหมายในโครงการขนาดใหญ่” ทำให้เกิดภาพลักษณ์ว่าโครงการประสบความสำเร็จทั้งที่ยังไม่มีการพิสูจน์ประสิทธิภาพจริง

ภาพรวมการทดลองจากบล็อกของ Cursor

  • เมื่อวันที่ 14 มกราคม 2026 Cursor ได้เผยแพร่บทความบล็อกชื่อ Scaling long-running autonomous coding
    • เป้าหมายคือการสำรวจว่า “จะขยายขอบเขตของโปรเจกต์ที่โดยปกติต้องใช้เวลาหลายเดือนโดยทีมมนุษย์ด้วยเอเจนต์เขียนโค้ดอัตโนมัติได้ไกลแค่ไหน”
  • หลังจากลองหลายแนวทาง บริษัทอธิบายว่าได้มาถึงระบบที่ “แก้ปัญหาด้านการประสานงานและขยายไปสู่โปรเจกต์ขนาดใหญ่ได้โดยไม่ต้องพึ่งเอเจนต์เดี่ยว”
  • เพื่อยืนยันแนวคิดนี้ จึงทำ การทดลอง ‘สร้างเว็บเบราว์เซอร์ตั้งแต่ต้น’ และระบุว่าเอเจนต์ได้เขียนโค้ดมากกว่า 1 ล้านบรรทัดในไฟล์ 1,000 ไฟล์ตลอดเวลาราวหนึ่งสัปดาห์
    • ซอร์สโค้ดถูกเผยแพร่ใน GitHub repository wilsonzlin/fastrender

ความไม่ชัดเจนของผลการทดลอง

  • Cursor อ้างว่า “เอเจนต์ตัวใหม่เข้าใจโค้ดเบสและสร้างความคืบหน้าที่มีความหมายได้” และ “มี worker หลายร้อยตัว push ไปยัง branch เดียวกันพร้อมกัน”
    • แต่ ไม่ได้ระบุอย่างชัดเจนว่าเบราว์เซอร์ทำงานได้จริงหรือไม่
  • ในโพสต์มี วิดีโอภาพหน้าจอ รวมอยู่ด้วย แต่ไม่มีเดโมที่รันได้จริงหรือคำอธิบายผลลัพธ์อย่างเป็นรูปธรรม
  • นอกเหนือจากข้อความว่า “การสร้างเบราว์เซอร์ตั้งแต่ต้นเป็นเรื่องยากมาก” ก็ ไม่มีการแสดงหลักฐานว่าใช้งานได้จริง

ผลการตรวจสอบโค้ดเบส

  • เมื่อลองบิลด์ repository โดยตรง พบว่า การคอมไพล์ไลบรารี ‘fastrender’ ล้มเหลว (34 errors, 94 warnings)
  • จากผลการรัน GitHub Actions ล่าสุดก็พบว่า มี workflow error และการคอมไพล์ล้มเหลวจำนวนมาก
    • จาก 100 คอมมิตล่าสุด ไม่มีคอมมิตใดบิลด์ผ่านได้ตามปกติเลย
  • ภายในโค้ดถูกประเมินว่าเป็นผลลัพธ์ระดับ ‘AI slop’ ที่ไร้เจตนาหรือโครงสร้าง
    • ดูเหมือนว่าแม้แต่คำสั่ง cargo build หรือ cargo check ก็ยังไม่เคยถูกรัน
    • issue ที่เกี่ยวข้อง #98 ก็ยังคงเปิดอยู่ในตอนนี้

ปัญหาเรื่องการทำซ้ำได้และความน่าเชื่อถือ

  • บล็อกของ Cursor ไม่มีคำอธิบายเลยเกี่ยวกับวิธีรัน ผลลัพธ์ที่คาดหวัง หรือวิธีการทำงาน
  • ไม่มีเดโมที่ทำซ้ำได้, คู่มือการบิลด์, หรือคอมมิตที่ผ่านการยืนยันแล้ว (tag/release/commit) ให้มา
  • ถึงอย่างนั้น โครงสร้างและถ้อยคำของบทความกลับทำให้ดูเหมือนเป็น “ต้นแบบที่ใช้งานได้จริง”
  • Cursor ไม่ได้ระบุชัดว่า “มันใช้งานได้” จึงอาจไม่ใช่ข้อความเท็จ แต่ก็ ทิ้งความประทับใจที่สื่อถึงความสำเร็จ

บทสรุปและการประเมิน

  • Cursor ไม่ได้อ้างว่าเป็น “เบราว์เซอร์ระดับ production” แต่ด้วยคำอย่าง ‘ความคืบหน้าที่มีความหมาย’ และ ‘การสร้างเบราว์เซอร์’ จึง ทำให้การทดลองดูเหมือนประสบความสำเร็จ
  • แต่ในความเป็นจริง ไม่มีทั้งหลักฐานการทำงาน โค้ดที่บิลด์ได้ หรือผลลัพธ์ที่ทำซ้ำได้
  • คำกล่าวอ้างว่า “เอเจนต์หลายร้อยตัวร่วมมือกันและสร้างความคืบหน้าในโครงการขนาดใหญ่” เป็นเพียง คำกล่าวอ้างที่ไม่มีหลักฐานรองรับใดๆ
    • แม้แต่เกณฑ์ขั้นต่ำอย่าง “คอมไพล์ได้และสามารถเรนเดอร์ไฟล์ HTML อย่างง่ายได้” ก็ยังไม่ผ่าน
  • โดยสรุป การทดลองของ Cursor จึงเป็นกรณีที่ ไม่ได้แสดงศักยภาพของการขยายงานเขียนโค้ดอัตโนมัติ แต่กลับเผยให้เห็นข้อจำกัดของการสร้างโค้ดปริมาณมาก

5 ความคิดเห็น

 
kimjoin2 2026-01-18

ฮ่าๆๆ

 
laeyoung 2026-01-17

บทความที่เกี่ยวข้อง - 장시간 실행되는 자율 코딩의 확장

 
sinbumu 2026-01-19

จริง ๆ แล้วมันก็แค่แสดงให้เห็นอย่างสำเร็จว่าพวกเขายังปลดนักพัฒนาไม่ได้~

 
jjw9512151 2026-01-18

ผลลัพธ์ที่ประสบความสำเร็จ = ยังไล่พวกเราออกไม่ได้นะ ไอ้พวกผู้บริหารเอ๊ย

 
GN⁺ 2026-01-17
ความเห็นจาก Hacker News
  • ควรมีคนชี้ให้เด่นที่สุดว่าการทดลองสัปดาห์นี้สุดท้ายก็เป็นแค่ wrapper ที่ใช้การไม่ได้ของ Servo (เบราว์เซอร์ที่พัฒนาด้วย Rust)
    คอมเมนต์ที่เกี่ยวข้องอยู่ที่นี่

    • สงสัยว่ามีใครเคยลอง เขียนซ้ำโปรเจกต์โอเพนซอร์สยอดนิยมด้วย AI บ้างไหม
      ถ้าเป็น LLM รุ่นล่าสุดก็น่าจะเก่งพอสมควรทั้งในเรื่องฟอกใบอนุญาตหรือคัดลอก dependency ดูแล้วน่าจะเป็น benchmark แบบใหม่ที่น่าสนใจ
    • เห็นทวีตที่บอกว่ามีคนคอมไพล์สำเร็จจริง
    • ผลลัพธ์ด้านลบ ก็มีคุณค่าเหมือนกัน ถ้าตั้งใจเปิดเผยก็น่านับถือ ถ้าหลุดออกมาเพราะพลาดก็ขำดี
      ขอชนแก้วให้ Cursor ที่มอบความบันเทิงประจำวันนี้
    • ตอนแรกเห็นสกรีนช็อตแล้วแอบรู้สึกว่างานฉันอาจตกอยู่ในความเสี่ยง
      แต่พอรู้ว่าไม่มีเอนจินและพังหมดทั้งระบบ Cursor ก็ดูน่าอับอายจริง ๆ
  • โพสต์บล็อกทางการของ Cursor เขียนด้วยโทนที่ค่อนข้างระมัดระวัง แต่
    บนTwitterกลับให้ภาพเกินจริงประมาณว่า “สร้างเบราว์เซอร์ด้วย GPT-5.2”
    ความจริงคือแยกเอเจนต์ออกเป็นหลายพันตัวให้สร้าง commit ต่อเนื่องกันหลายสัปดาห์ แต่ผลงานที่ได้ยังใช้งานไม่ได้

    • คำว่า “แก้ merge conflict ได้” แทบไม่มีความหมายอะไร แค่ใช้กลยุทธ์ ours หรือ theirs ก็แก้ได้เสมอ
    • ถ้าอย่างนั้นมีใครรันมันสำเร็จจริงหรือเปล่า? สกรีนช็อตมาจากไหน? ในโค้ดมี error เยอะเกินไป
    • พออ่านจากลิงก์แล้วมันดูเหมือนเบราว์เซอร์ใช้งานได้ เลยสงสัยว่าจะเรียกว่า “ระมัดระวัง” ได้อย่างไร
  • ฉันลองตรวจเองด้วยการรัน cargo check กับ 100 commit ล่าสุด
    ผลคือพังทั้งหมด ดูล็อกผลลัพธ์

    • ตอนนี้มีคอมเมนต์ใหม่บอกว่าคอมไพล์ได้แล้ว
    • ที่จริงสกรีนช็อตอาจถูกจัดฉากก็ได้ ถ้าใช้ มีดโกนของอ็อกคัม นั่นคือคำอธิบายที่ง่ายที่สุด
  • การโปรโมตแบบนี้สุดท้ายก็ดูเป็นส่วนหนึ่งของ กลยุทธ์ระดมทุน
    ก่อนหน้านี้ก็เคยโพสต์คลุมเครือหลายครั้ง เช่น โมเดลภายในเขียนโค้ดได้มากแค่ไหน
    ไม่ได้แปลว่าไม่มีอะไรจริงเลย แต่ก็น่าเสียดายที่ไม่เปิดเผยผลลัพธ์ให้สาธารณะเห็น

    • ต่างจากผู้ให้บริการโมเดลรายอื่น ตรงที่ ไม่เคยเปิดเผย benchmark ซึ่งเป็นเรื่องที่ทำให้ไม่พอใจมาตลอด
      Cursor เคยเป็นกระแสอยู่พักหนึ่ง แต่ตอนนี้เอเจนต์แบบทำงานบนเทอร์มินัลกำลังมาแรง
      บริษัทเราก็กำลังจะยกเลิกสัญญากับ Cursor แล้วเปลี่ยนไปใช้ Claude Code
      โปรเจกต์เบราว์เซอร์นี้ก็น่าจะเป็นความพยายามเรียกความสนใจกลับมา
    • การพูดเกินจริงแบบนี้สุดท้ายก็เป็นแค่ การปั่นมูลค่าตลาด เท่านั้น ไม่มีทาง оправдаться
    • ทุกวันนี้บริษัท LLM ทุกเจ้าพึ่งพาการตลาดแบบ 'vibe-coded' มากกว่าความจริง
      ตอนเปิดตัว GPT-5 ก็คล้ายกัน ความก้าวหน้าที่เป็นรูปธรรมกำลังชะลอลง
    • เมื่อก่อนฉันเกลียดการโอ้อวดแบบนี้ แต่ตอนนี้เริ่มยอมรับว่าโลกมันก็เป็นแบบนี้
      สุดท้ายแล้วคำตอบคือ ตรวจสอบ ไม่ใช่เชื่อใจ
  • Cursor กำลังทำ Excel clone ด้วยการทดลองคล้ายกัน
    ตามคลัง GitHub
    จาก workflow 160,000 ครั้ง สำเร็จแค่ 247 ครั้ง และส่วนใหญ่ล้มเหลวเพราะใช้งบเกิน
    พวกเอเจนต์ไม่สนข้อจำกัดแบบนั้นเลยแม้แต่น้อย

  • commit ล่าสุดตอนนี้ build และรันได้แล้ว (อย่างน้อยบน Mac)
    แต่ก็ยังเป็น โค้ดเละเทะ 3 ล้านบรรทัด อยู่ดี
    หน้าเว็บที่อยู่ในวิดีโอโปรโมตของ Cursor ยังเรนเดอร์ไม่ออก น่าจะใช้ build คนละตัว

    • cargo check ผ่านก็จริง แต่พอดู git log แล้วมีอะไรน่าสงสัย
      มีร่องรอยว่ามนุษย์เข้าไปแก้เอง ไม่ใช่เอเจนต์ล้วน ๆ
      ดูการวิเคราะห์ commit log
  • คิดว่าโพสต์ต้นฉบับก็เป็นแค่ พาดหัวล่อคลิก
    ประโยคว่า “AI agent หลายพันตัวสร้างเบราว์เซอร์” มันเร้าเกินไป

    • ต่อไปถ้ามีใครบอกว่า “AI สร้างเบราว์เซอร์แล้ว” ก็จะลิงก์กรณีนี้ให้ดูได้
    • โปรเจกต์ที่ใช้งานจริงไม่ได้กำลังหมุนอยู่ในวัฏจักรข่าวอย่างรวดเร็ว
      น่าเสียดายที่คำว่า “ข่าวปลอม” ถูกทำให้มีมลทินทางการเมืองไปแล้ว เพราะมันเหมาะกับวงการนี้มาก
  • CEO ของ Cursor อ้างว่า “สร้าง rendering engine และ JS VM ด้วย Rust ตั้งแต่ศูนย์” แต่
    พอดูรายการ dependencyจริง
    กลับใช้ ไลบรารีสาย Servo อย่าง html5ever, cssparser, rquickjs ตามเดิม
    สุดท้ายก็แค่ห่อ Servo ไว้ชั้นหนึ่ง และยังคอมไพล์ไม่ผ่านด้วยซ้ำ

    • ไม่เข้าใจว่าทำไมถึงต้องอ้างว่าทำ CSS กับ JS เองด้วย
      คนส่วนใหญ่แค่ดูโค้ดก็น่าจะรู้ทันที คงคิดว่า คนทั่วไปจะไม่ตรวจสอบ
      พอเป็นแบบนี้ความเข้าใจผิดก็แพร่กระจาย แล้วถึงจะแก้ทีหลังก็ไม่มีใครสนใจ
    • ในความเป็นจริงมันประกอบขึ้นจาก parser HTML/CSS ของ Servo, QuickJS, resvg, egui, wgpu ฯลฯ
      จะบอกว่านั่นคือ 3M lines ก็น่าขำดี
    • ยังมี selectors, taffy รวมอยู่ด้วย และบางส่วนก็ใช้ dependency รุ่นเก่า
    • JS engine ก็แค่คัดลอกโปรเจกต์ส่วนตัวมาใส่ไว้ในโฟลเดอร์ vendor
      ดูเพิ่มเติมที่นี่
    • สงสัยว่าโค้ด layout ใช้ของ Servo หรือว่า Cursor เขียนเอง
      ส่วนนั้นคือพื้นที่ที่ยากที่สุดของเบราว์เซอร์
  • คิดว่า แนวทางการตลาด แบบนี้กลับทำร้ายตัวเองมากกว่า
    งานออกแบบและ UX ของ Cursor ดีมาก แต่พอเป็นงานที่ลึกขึ้นกลับมีบั๊กเยอะเกินไป
    การเพิ่มโมเดล Claude ช่วยให้ดีขึ้นนิดหน่อย แต่ก็ยังสู้ Antigravity ไม่ได้
    แถมโควตาสมาชิก $20 ก็หมดเร็วมาก โอกาสที่โมเดลจะดีขึ้น 10 เท่าและถูกลง 10 เท่าก็ดูต่ำ

    • พอได้ลองใช้แอปจากหลายบริษัท AI ที่เต็มไปด้วยบั๊ก ก็ยิ่งรู้สึกว่างานจริงยังต้องพึ่ง ทักษะมนุษย์ อยู่ดี
      พอเห็นโมเดลธุรกิจของ OpenAI เริ่มหันไปทางโฆษณา
      ก็ยิ่งรู้สึกว่า Google เข้าใจเทคโนโลยีนี้ในแบบที่สมจริงกว่ามาตั้งแต่แรก
  • เรื่องแบบนี้สุดท้ายก็มีไว้เพื่อ คนขายพลั่ว
    CEO ที่ไม่ค่อยเข้าใจอะไรอาจหลงเชื่อข่าวแบบนี้จนถึงขั้นปลดพนักงานจริงก็ได้