เปรียบเทียบเอเจนต์ Vibe Coding 4 ตัวด้วยพรอมป์ต์เดียวกัน (Lovable, Gemini, Rork, Flowith)
(stdy.blog)ลองทดสอบบริการที่เพิ่งได้รู้จักใหม่ ๆ โดยทำ vibe coding กับเอเจนต์ 4 ตัวที่มีจุดแข็งต่างกันออกไป (ก่อนหน้านี้เคย เปรียบเทียบบริการ AI prototyping (v0, Lovable, Replit, Bolt, Tempo, Mocha) ด้วยการทำ deep research + ลองใช้ทีละตัว มาแล้ว รอบนี้เลยลองให้แต่ละตัวสร้างจากพรอมป์ต์เดียวกันเพื่อเทียบกัน)
- Lovable: หนึ่งในผู้นำของบริการ AI prototyping สร้าง UI ที่ลื่นไหลสวยงามได้อย่างรวดเร็ว และ deploy แบบ public ได้ทันที
- Gemini App Build: ใช้งานใน Google AI Studio สามารถสร้างแอปที่เรียก Gemini API ได้ฟรี และไม่มีการจำกัดจำนวนรอบแชต
- Rork: บริการ vibe coding ตัวแรกที่มี mobile app simulator ในตัว สามารถทดสอบผ่านแอปบนสมาร์ตโฟนได้
- Flowith Neo: ซูเปอร์เอเจนต์ที่ทำงานได้ตลอด 24 ชั่วโมง รองรับงานหลากหลายรวมถึงการเขียนโค้ดแบบ multi-agent
ทั้งหมดใช้เงื่อนไขเดียวกัน โดยใส่ เอกสารประกอบเวิร์กช็อปฝึกทักษะการขอความช่วยเหลือ ที่เคยพัฒนาร่วมกับคนรู้จัก แล้วขอให้ “สร้างแอปจำลองสถานการณ์สำหรับฝึกด้วยตัวเอง”
แต่ละบริการถูกประเมินแบบค่อนข้างอิงความรู้สึกส่วนตัวตามเกณฑ์ 7 ข้อดังนี้ (รวม 70 คะแนน)
- กระบวนการพัฒนา
- ประสิทธิภาพ: ต้องอาศัยการแทรกแซงจากเราน้อยแค่ไหนกว่าจะได้แอปที่ใช้งานได้
- ความสะดวก: ทดสอบและดีบักได้ง่ายหรือไม่
- ความเร็ว: พัฒนาได้เร็วหรือไม่
- ค่าใช้จ่าย: ต้นทุนในการพัฒนาต่ำหรือไม่
- ผลลัพธ์ของการพัฒนา
- ฟังก์ชันการทำงาน: ฟีเจอร์ครบและตรงความคาดหวังหรือไม่
- การใช้งาน: UI/UX ของแอปที่สร้างมาดูเข้าใจง่ายและสวยงามหรือไม่
- ประสิทธิผล: ช่วยฝึกทักษะการขอความช่วยเหลือได้จริงหรือไม่
สรุปผลการประเมิน
(ภาพสรุปแบบตาราง และภาพการทำงานแบบละเอียดของแต่ละบริการอยู่ในบล็อก)
โดยรวม:
- กระบวนการพัฒนา: Lovable > Gemini >> Rork >>>> Flowith
- ผลลัพธ์ของการพัฒนา: Lovable ~= Flowith > Gemini = Rork
เสร็จในกี่เทิร์น:
- Lovable กับ Gemini เสร็จตั้งแต่เทิร์นแรกทั้งคู่ (Gemini แก้บั๊กเองหนึ่งครั้งแล้วจบ)
- Rork เสร็จใน 3 เทิร์นหลังจากแก้บั๊ก 2 รอบ (โดยแปะข้อความ error ให้มัน)
- Flowith ถึงจะพยายามแก้เองและมีการแทรกแซงด้วยตนเองหลายครั้งก็ยังไม่เสร็จ แต่มี preview ออกมาเรื่อย ๆ ระหว่างทางจึงยังเห็นผลลัพธ์ระหว่างทำได้
ความเห็น
- อาจมีความลำเอียงส่วนตัวอยู่บ้าง แต่โดยรวม Lovable เหนือกว่าชัดเจน ถึงอย่างนั้นแต่ละตัวก็มีจุดเด่นเฉพาะชัดเจน
- Gemini: ประสบการณ์ที่ได้ทดสอบการเรียก LLM ได้ทันทีนั้นพิเศษมาก
- Rork: พอได้ทดสอบ mobile app บนมือถือจริงทันที ก็ให้ความรู้สึกแบบแอปโดยเฉพาะ
- Flowith: ทำงานวิจัยเพิ่มเติมได้จริงจัง ถ้าสร้างเสร็จได้ก็คงดีมาก...
- Flowith ที่คาดหวังไว้มาก แม้ผลลัพธ์ระหว่างทางจะน่าประทับใจ แต่ยังไม่เหมาะจะใช้เป็นเครื่องมือหลักสำหรับ vibe coding ที่สำคัญคือไม่ได้คิดค่าใช้จ่ายแบบข้อความแชต แต่คิดเป็นเครดิต ทำให้ต้นทุนสูงเกินไป
- อนึ่ง การประเมินกระบวนการพัฒนาไม่ได้อิงแค่ครั้งนี้ แต่ดูจากประสบการณ์รวมทั้งหมดด้วย Rork เพิ่งลองครั้งแรก ส่วน Lovable ใช้หลายครั้งแล้ว และ Gemini กับ Flowith ลองสร้างมาอย่างละ 3 ชิ้น
การประเมินแบบละเอียด
🥇 อันดับ 1 Lovable - 63 คะแนน (เสร็จในเทิร์นแรก)
กระบวนการพัฒนา
- ประสิทธิภาพ: 9
- ความสะดวก: 9
- ความเร็ว: 10
- ค่าใช้จ่าย: 7
พูดง่าย ๆ คือทำได้ดีหมดทุกอย่าง การสร้างในเทิร์นแรกเร็วและสะอาดที่สุด ระบบแก้บั๊กอัตโนมัติตามข้อความ error ใช้งานสะดวก มี visual edit ฟรีและการแก้บั๊กฟรีที่ดี หากต้องการแก้โค้ด แบบเสียเงินทำได้ตรงนั้นเลย ส่วนแบบฟรีทำได้ผ่านการเชื่อม GitHub และ การ deploy แบบ public ได้ทันที ก็เป็นข้อดีมาก
ผลลัพธ์ของการพัฒนา
- ฟังก์ชันการทำงาน: 9
- การใช้งาน: 10
- ประสิทธิผล: 9
UI สวยสมชื่อและแทบไม่มีที่ติ ฟังก์ชันอาจไม่ได้หลากหลายมาก แต่ตีความเอกสารประกอบอย่างสร้างสรรค์ ทำให้ใช้งานได้เข้าใจง่าย และมีฟีเจอร์ที่ควรมีครบ
ข้อเสียคือบังคับให้ต้องทำตาม 3 ขั้นของการขอความช่วยเหลือทุกครั้ง ส่วนตัว simulation ก็เป็นแบบ rule-based ที่ค่อนข้างเรียบง่าย แต่ก็เหมาะสม ทำให้รู้สึกว่าถ้าเอาจุดดีจากบริการอื่น ๆ เช่น LLM มาต่อเพิ่มก็น่าจะลงตัว
🥈 อันดับ 2 Gemini App Build - 56 คะแนน (เสร็จในเทิร์นแรกหลังแก้บั๊กเองหนึ่งครั้ง)
กระบวนการพัฒนา
- ประสิทธิภาพ: 7
- ความสะดวก: 8
- ความเร็ว: 8
- ค่าใช้จ่าย: 10
จุดเด่นคือแชตฟรีและเรียก Gemini ได้ฟรี เทิร์นแรกทำออกมาได้ค่อนข้างดี และ บั๊กที่เกิดขึ้นทันทีหลังสร้างเสร็จก็แก้เองได้
แต่พอเป็น multi-turn จะทำได้ไม่ค่อยดี แม้จะมีระบบแก้บั๊กอัตโนมัติตามข้อความ error แต่สุดท้ายแก้บั๊กนั้นไม่สำเร็จจนต้องแทรกแซงเอง ไม่มี visual edit แต่ การแก้โค้ดทำได้สะดวกที่สุด ข้อเสียคือถ้าจะ deploy ต้องใช้ Cloud Run
ผลลัพธ์ของการพัฒนา
- ฟังก์ชันการทำงาน: 8
- การใช้งาน: 6
- ประสิทธิผล: 9
UI ดูแข็งทื่อชัดเจน ชวนให้นึกถึงเครื่องมือของ Google และแทบไม่ได้ตีความเนื้อหาในเอกสารประกอบอย่างสร้างสรรค์ แต่เอามาตรง ๆ เลย อีกทั้งยังบังคับให้ทำครบทั้ง 3 ขั้นทุกครั้งจึงมีความไม่สะดวกอยู่บ้าง
อย่างไรก็ตาม ประสบการณ์ที่ใน simulation สามารถแชตแล้วให้ AI ตอบกลับได้นั้นมีความยูนีกและได้ผลจริงมาก เลยได้คะแนนเพิ่มตรงนี้ เพราะมีแค่ตัวนี้ที่ทำได้
🥉 อันดับ 3 Rork - 46 คะแนน (เสร็จใน 3 เทิร์น)
กระบวนการพัฒนา
- ประสิทธิภาพ: 7
- ความสะดวก: 5
- ความเร็ว: 7
- ค่าใช้จ่าย: 4
จุดเด่นคือทำเป็น mobile app ได้จริง ทดสอบบนมือถือได้ทั้ง Android และ iPhone ผ่านแอป Expo Go และใช้งานได้ดี อีกทั้งยัง เลือกโมเดลสำหรับสร้างได้ รวมถึง Claude Sonnet 4 มีระบบแก้บั๊กอัตโนมัติและแก้บั๊กได้จริงด้วย
แต่แก้โค้ดโดยตรงไม่ได้ ไม่มี visual edit และที่สำคัญคือการแก้บั๊กต้องเสียเงิน ซึ่งเป็นปัญหาใหญ่ เอาจริง ๆ ถ้าบั๊กนั้นเป็นแอปที่มันสร้างมาเสียเองตั้งแต่เทิร์นแรก ก็น่าจะให้แก้ฟรีไม่ใช่หรือ?
ผลลัพธ์ของการพัฒนา
- ฟังก์ชันการทำงาน: 8
- การใช้งาน: 7
- ประสิทธิผล: 8
มีแค่ตัวนี้ที่สร้างออกมาเป็นภาษาอังกฤษ UI แข็งและไม่ค่อยสวย เนื้อหาในเอกสารประกอบก็ถูกนำมาใช้ตรง ๆ ค่อนข้างมาก ถึงอย่างนั้นฟีเจอร์ที่ควรมีก็มีครบ และสามารถเรียกใช้ฟังก์ชัน 3 แบบแยกกันได้จึงสะดวก
ส่วน simulation ใช้วิธีให้ตอบแบบปรนัยแล้วประเมินผลให้ จึงรู้สึกว่าเหมาะสำหรับผู้เริ่มต้นฝึกมาก แต่ข้อความยาวเกินไปหน่อย
อันดับ 4 Flowith Neo - 35 คะแนน (ไม่เสร็จหลังผ่านไป n เทิร์น)
กระบวนการพัฒนา
- ประสิทธิภาพ: 1
- ความสะดวก: 3
- ความเร็ว: 3
- ค่าใช้จ่าย: 1
การวางแผนเพิ่มเติมผ่าน web search ทำได้ดี แต่ถึงจะทำงานเยอะมากก็ไม่เคยสร้างเสร็จเลยสักครั้งตลอดการทำแอป 3 ตัว มันจะลองรันเองก่อน แล้ววางแผนใหม่เพื่อแก้บั๊ก แต่สุดท้ายก็แก้ไม่สำเร็จ เพราะไม่ได้คิดเงินต่อข้อความ จึงเกิดการลอง-พลาดซ้ำเองจนกินเครดิตจำนวนมาก ซึ่งน่าหงุดหงิดมาก
ระหว่างทางจะ deploy แต่ละเวอร์ชันขึ้น public URL ให้ทุกครั้ง แต่หลายครั้งเวอร์ชันเก่ากลับดีกว่า หากเกิดการสร้างล้มเหลวระหว่างทางก็ต้องสั่งรันใหม่เองแบบ manual โค้ดจะดูได้ก็ต่อเมื่อดาวน์โหลดออกมาเท่านั้น และแน่นอนว่าการแก้ไขก็ทำได้ผ่านพรอมป์ต์อย่างเดียว ใช้ visual edit ไม่ได้
ผลลัพธ์ของการพัฒนา
- ฟังก์ชันการทำงาน: 9
- การใช้งาน: 10
- ประสิทธิผล: 7
การวางแผนครั้งแรกและ preview ระหว่างทางน่าประทับใจมาก แม้สุดท้ายจะสร้างไม่เสร็จ และแต่ละเวอร์ชันก็แตกต่างกันไป แต่ก็มีองค์ประกอบหลายอย่างที่น่าเอาไปใช้ต่อจากแอปอื่น เช่น การประเมินล่วงหน้าให้เข้มงวดยิ่งขึ้น หรือการฝึกด้วยสถานการณ์และระดับความยากที่หลากหลาย UI ก็สวยเช่นกัน ยกเว้นบางจุดที่แปลก ๆ และโดยรวมถือว่าใส่ใจรายละเอียดมากที่สุด
2 ความคิดเห็น
ผมกำลังใช้ bolt.new อยู่ เลยอยากลองเปรียบเทียบดูว่าอันนี้เป็นอย่างไรบ้าง
ผมเองก็น่าจะได้ลองใช้ Bolt เยอะในเดือนมิถุนายนเพราะมีแฮกกาธอนของ Bolt (เงินรางวัลรวม 1 ล้านดอลลาร์) https://www.stdy.blog/registered-at-vibe-coding-hackathon/ แล้วค่อยมาเปรียบเทียบกันอีกทีหลังจากนั้นครับ ฮ่าๆ