- Cursor ประกาศว่าได้ทำการทดลองที่ ‘เอเจนต์เขียนโค้ดอัตโนมัติ’ ทำงานต่อเนื่องหลายสัปดาห์ เพื่อสำรวจว่าสามารถทำงานโครงการที่ปกติต้องใช้เวลาหลายเดือนโดยทีมมนุษย์ให้เป็นอัตโนมัติได้มากเพียงใด
- เพื่อทดสอบระบบนี้ จึงตั้งเป้าหมายเป็น ‘สร้างเว็บเบราว์เซอร์ตั้งแต่ต้น’ และอ้างว่าเอเจนต์ได้เขียนโค้ดมากกว่า 1 ล้านบรรทัดตลอดเวลาราวหนึ่งสัปดาห์
- อย่างไรก็ตาม GitHub repository ที่เปิดเผย (fastrender) แสดงให้เห็นข้อผิดพลาดในการคอมไพล์จำนวนมากและ CI ล้มเหลว จึงยืนยันได้ว่า ยังไม่ใช่เบราว์เซอร์ที่ใช้งานได้จริง
- Cursor ไม่ได้แสดงให้เห็นว่าใช้งานได้จริงหรือมีเดโมที่ทำซ้ำได้ หรือคอมมิตที่บิลด์ได้ และก็ไม่มีหลักฐานความสำเร็จที่เป็นรูปธรรมของผลการทดลอง
- ถึงอย่างนั้น Cursor ก็ยังใช้ถ้อยคำว่า “เอเจนต์ได้สร้างความคืบหน้าที่มีความหมายในโครงการขนาดใหญ่” ทำให้เกิดภาพลักษณ์ว่าโครงการประสบความสำเร็จทั้งที่ยังไม่มีการพิสูจน์ประสิทธิภาพจริง
ภาพรวมการทดลองจากบล็อกของ Cursor
- เมื่อวันที่ 14 มกราคม 2026 Cursor ได้เผยแพร่บทความบล็อกชื่อ “Scaling long-running autonomous coding”
- เป้าหมายคือการสำรวจว่า “จะขยายขอบเขตของโปรเจกต์ที่โดยปกติต้องใช้เวลาหลายเดือนโดยทีมมนุษย์ด้วยเอเจนต์เขียนโค้ดอัตโนมัติได้ไกลแค่ไหน”
- หลังจากลองหลายแนวทาง บริษัทอธิบายว่าได้มาถึงระบบที่ “แก้ปัญหาด้านการประสานงานและขยายไปสู่โปรเจกต์ขนาดใหญ่ได้โดยไม่ต้องพึ่งเอเจนต์เดี่ยว”
- เพื่อยืนยันแนวคิดนี้ จึงทำ การทดลอง ‘สร้างเว็บเบราว์เซอร์ตั้งแต่ต้น’ และระบุว่าเอเจนต์ได้เขียนโค้ดมากกว่า 1 ล้านบรรทัดในไฟล์ 1,000 ไฟล์ตลอดเวลาราวหนึ่งสัปดาห์
ความไม่ชัดเจนของผลการทดลอง
- Cursor อ้างว่า “เอเจนต์ตัวใหม่เข้าใจโค้ดเบสและสร้างความคืบหน้าที่มีความหมายได้” และ “มี worker หลายร้อยตัว push ไปยัง branch เดียวกันพร้อมกัน”
- แต่ ไม่ได้ระบุอย่างชัดเจนว่าเบราว์เซอร์ทำงานได้จริงหรือไม่
- ในโพสต์มี วิดีโอภาพหน้าจอ รวมอยู่ด้วย แต่ไม่มีเดโมที่รันได้จริงหรือคำอธิบายผลลัพธ์อย่างเป็นรูปธรรม
- นอกเหนือจากข้อความว่า “การสร้างเบราว์เซอร์ตั้งแต่ต้นเป็นเรื่องยากมาก” ก็ ไม่มีการแสดงหลักฐานว่าใช้งานได้จริง
ผลการตรวจสอบโค้ดเบส
- เมื่อลองบิลด์ repository โดยตรง พบว่า การคอมไพล์ไลบรารี ‘fastrender’ ล้มเหลว (34 errors, 94 warnings)
- จากผลการรัน GitHub Actions ล่าสุดก็พบว่า มี workflow error และการคอมไพล์ล้มเหลวจำนวนมาก
- จาก 100 คอมมิตล่าสุด ไม่มีคอมมิตใดบิลด์ผ่านได้ตามปกติเลย
- ภายในโค้ดถูกประเมินว่าเป็นผลลัพธ์ระดับ ‘AI slop’ ที่ไร้เจตนาหรือโครงสร้าง
- ดูเหมือนว่าแม้แต่คำสั่ง
cargo build หรือ cargo check ก็ยังไม่เคยถูกรัน
- issue ที่เกี่ยวข้อง #98 ก็ยังคงเปิดอยู่ในตอนนี้
ปัญหาเรื่องการทำซ้ำได้และความน่าเชื่อถือ
- บล็อกของ Cursor ไม่มีคำอธิบายเลยเกี่ยวกับวิธีรัน ผลลัพธ์ที่คาดหวัง หรือวิธีการทำงาน
- ไม่มีเดโมที่ทำซ้ำได้, คู่มือการบิลด์, หรือคอมมิตที่ผ่านการยืนยันแล้ว (tag/release/commit) ให้มา
- ถึงอย่างนั้น โครงสร้างและถ้อยคำของบทความกลับทำให้ดูเหมือนเป็น “ต้นแบบที่ใช้งานได้จริง”
- Cursor ไม่ได้ระบุชัดว่า “มันใช้งานได้” จึงอาจไม่ใช่ข้อความเท็จ แต่ก็ ทิ้งความประทับใจที่สื่อถึงความสำเร็จ
บทสรุปและการประเมิน
- Cursor ไม่ได้อ้างว่าเป็น “เบราว์เซอร์ระดับ production” แต่ด้วยคำอย่าง ‘ความคืบหน้าที่มีความหมาย’ และ ‘การสร้างเบราว์เซอร์’ จึง ทำให้การทดลองดูเหมือนประสบความสำเร็จ
- แต่ในความเป็นจริง ไม่มีทั้งหลักฐานการทำงาน โค้ดที่บิลด์ได้ หรือผลลัพธ์ที่ทำซ้ำได้
- คำกล่าวอ้างว่า “เอเจนต์หลายร้อยตัวร่วมมือกันและสร้างความคืบหน้าในโครงการขนาดใหญ่” เป็นเพียง คำกล่าวอ้างที่ไม่มีหลักฐานรองรับใดๆ
- แม้แต่เกณฑ์ขั้นต่ำอย่าง “คอมไพล์ได้และสามารถเรนเดอร์ไฟล์ HTML อย่างง่ายได้” ก็ยังไม่ผ่าน
- โดยสรุป การทดลองของ Cursor จึงเป็นกรณีที่ ไม่ได้แสดงศักยภาพของการขยายงานเขียนโค้ดอัตโนมัติ แต่กลับเผยให้เห็นข้อจำกัดของการสร้างโค้ดปริมาณมาก
5 ความคิดเห็น
ฮ่าๆๆ
บทความที่เกี่ยวข้อง - 장시간 실행되는 자율 코딩의 확장
จริง ๆ แล้วมันก็แค่แสดงให้เห็นอย่างสำเร็จว่าพวกเขายังปลดนักพัฒนาไม่ได้~
ผลลัพธ์ที่ประสบความสำเร็จ = ยังไล่พวกเราออกไม่ได้นะ ไอ้พวกผู้บริหารเอ๊ย
ความเห็นจาก Hacker News
ควรมีคนชี้ให้เด่นที่สุดว่าการทดลองสัปดาห์นี้สุดท้ายก็เป็นแค่ wrapper ที่ใช้การไม่ได้ของ Servo (เบราว์เซอร์ที่พัฒนาด้วย Rust)
คอมเมนต์ที่เกี่ยวข้องอยู่ที่นี่
ถ้าเป็น LLM รุ่นล่าสุดก็น่าจะเก่งพอสมควรทั้งในเรื่องฟอกใบอนุญาตหรือคัดลอก dependency ดูแล้วน่าจะเป็น benchmark แบบใหม่ที่น่าสนใจ
ขอชนแก้วให้ Cursor ที่มอบความบันเทิงประจำวันนี้
แต่พอรู้ว่าไม่มีเอนจินและพังหมดทั้งระบบ Cursor ก็ดูน่าอับอายจริง ๆ
โพสต์บล็อกทางการของ Cursor เขียนด้วยโทนที่ค่อนข้างระมัดระวัง แต่
บนTwitterกลับให้ภาพเกินจริงประมาณว่า “สร้างเบราว์เซอร์ด้วย GPT-5.2”
ความจริงคือแยกเอเจนต์ออกเป็นหลายพันตัวให้สร้าง commit ต่อเนื่องกันหลายสัปดาห์ แต่ผลงานที่ได้ยังใช้งานไม่ได้
oursหรือtheirsก็แก้ได้เสมอฉันลองตรวจเองด้วยการรัน
cargo checkกับ 100 commit ล่าสุดผลคือพังทั้งหมด ดูล็อกผลลัพธ์
การโปรโมตแบบนี้สุดท้ายก็ดูเป็นส่วนหนึ่งของ กลยุทธ์ระดมทุน
ก่อนหน้านี้ก็เคยโพสต์คลุมเครือหลายครั้ง เช่น โมเดลภายในเขียนโค้ดได้มากแค่ไหน
ไม่ได้แปลว่าไม่มีอะไรจริงเลย แต่ก็น่าเสียดายที่ไม่เปิดเผยผลลัพธ์ให้สาธารณะเห็น
Cursor เคยเป็นกระแสอยู่พักหนึ่ง แต่ตอนนี้เอเจนต์แบบทำงานบนเทอร์มินัลกำลังมาแรง
บริษัทเราก็กำลังจะยกเลิกสัญญากับ Cursor แล้วเปลี่ยนไปใช้ Claude Code
โปรเจกต์เบราว์เซอร์นี้ก็น่าจะเป็นความพยายามเรียกความสนใจกลับมา
ตอนเปิดตัว GPT-5 ก็คล้ายกัน ความก้าวหน้าที่เป็นรูปธรรมกำลังชะลอลง
สุดท้ายแล้วคำตอบคือ ตรวจสอบ ไม่ใช่เชื่อใจ
Cursor กำลังทำ Excel clone ด้วยการทดลองคล้ายกัน
ตามคลัง GitHub
จาก workflow 160,000 ครั้ง สำเร็จแค่ 247 ครั้ง และส่วนใหญ่ล้มเหลวเพราะใช้งบเกิน
พวกเอเจนต์ไม่สนข้อจำกัดแบบนั้นเลยแม้แต่น้อย
commit ล่าสุดตอนนี้ build และรันได้แล้ว (อย่างน้อยบน Mac)
แต่ก็ยังเป็น โค้ดเละเทะ 3 ล้านบรรทัด อยู่ดี
หน้าเว็บที่อยู่ในวิดีโอโปรโมตของ Cursor ยังเรนเดอร์ไม่ออก น่าจะใช้ build คนละตัว
cargo checkผ่านก็จริง แต่พอดูgit logแล้วมีอะไรน่าสงสัยมีร่องรอยว่ามนุษย์เข้าไปแก้เอง ไม่ใช่เอเจนต์ล้วน ๆ
ดูการวิเคราะห์ commit log
คิดว่าโพสต์ต้นฉบับก็เป็นแค่ พาดหัวล่อคลิก
ประโยคว่า “AI agent หลายพันตัวสร้างเบราว์เซอร์” มันเร้าเกินไป
น่าเสียดายที่คำว่า “ข่าวปลอม” ถูกทำให้มีมลทินทางการเมืองไปแล้ว เพราะมันเหมาะกับวงการนี้มาก
CEO ของ Cursor อ้างว่า “สร้าง rendering engine และ JS VM ด้วย Rust ตั้งแต่ศูนย์” แต่
พอดูรายการ dependencyจริง
กลับใช้ ไลบรารีสาย Servo อย่าง html5ever, cssparser, rquickjs ตามเดิม
สุดท้ายก็แค่ห่อ Servo ไว้ชั้นหนึ่ง และยังคอมไพล์ไม่ผ่านด้วยซ้ำ
คนส่วนใหญ่แค่ดูโค้ดก็น่าจะรู้ทันที คงคิดว่า คนทั่วไปจะไม่ตรวจสอบ
พอเป็นแบบนี้ความเข้าใจผิดก็แพร่กระจาย แล้วถึงจะแก้ทีหลังก็ไม่มีใครสนใจ
จะบอกว่านั่นคือ 3M lines ก็น่าขำดี
ดูเพิ่มเติมที่นี่
ส่วนนั้นคือพื้นที่ที่ยากที่สุดของเบราว์เซอร์
คิดว่า แนวทางการตลาด แบบนี้กลับทำร้ายตัวเองมากกว่า
งานออกแบบและ UX ของ Cursor ดีมาก แต่พอเป็นงานที่ลึกขึ้นกลับมีบั๊กเยอะเกินไป
การเพิ่มโมเดล Claude ช่วยให้ดีขึ้นนิดหน่อย แต่ก็ยังสู้ Antigravity ไม่ได้
แถมโควตาสมาชิก $20 ก็หมดเร็วมาก โอกาสที่โมเดลจะดีขึ้น 10 เท่าและถูกลง 10 เท่าก็ดูต่ำ
พอเห็นโมเดลธุรกิจของ OpenAI เริ่มหันไปทางโฆษณา
ก็ยิ่งรู้สึกว่า Google เข้าใจเทคโนโลยีนี้ในแบบที่สมจริงกว่ามาตั้งแต่แรก
เรื่องแบบนี้สุดท้ายก็มีไว้เพื่อ คนขายพลั่ว
CEO ที่ไม่ค่อยเข้าใจอะไรอาจหลงเชื่อข่าวแบบนี้จนถึงขั้นปลดพนักงานจริงก็ได้