เขียนโค้ดด้วย AI ที่บ้านโดยไม่ใช้เงินแบบบริษัท
(stephen.bochinski.dev)- ทางเลือกในการลดค่าใช้จ่ายสำหรับการเขียนโค้ดด้วย AI ส่วนตัวมี 3 แบบ ได้แก่ โฮสต์เอง, เช่า API ของโมเดลโอเพนซอร์ส และปรับการสมัครสมาชิกฟรอนเทียร์ให้คุ้มที่สุด
- การโฮสต์เองคือการซื้ออุปกรณ์แล้วรันโมเดลโอเพนซอร์สบนเครื่องในบ้าน จากนั้นจะไม่ต้องจ่ายตามจำนวนโทเค็นอีก แต่มี ต้นทุนเริ่มต้น สูง และโมเดลที่รันได้จริงที่บ้านก็ยังด้อยกว่าโมเดลจากห้องวิจัยฟรอนเทียร์
- หากเช่าโมเดลโอเพนซอร์สผ่าน API ก็ไม่ต้องผูกเงินหลายพันดอลลาร์ไว้กับชุด GPU ไม่ต้องเสียแรงรีดประสิทธิภาพออกมา และเปลี่ยนไปใช้ตัวเลือกที่ถูกกว่าหรือดีกว่าในเดือนถัดไปได้ง่าย
- การสมัครสมาชิกฟรอนเทียร์ของ OpenAI และ Anthropic ที่ราคาราว 400 ดอลลาร์ ต่อเดือน สามารถให้ปริมาณการใช้งาน API ตามราคาปกติราว 2,800 ดอลลาร์ แต่เวิร์กโฟลว์ AI-native ขนาดใหญ่จะกินโทเค็นที่รวมมาให้อย่างรวดเร็ว
- วิธีที่เหมาะที่สุดคือกลยุทธ์แบบผสม ใช้การสมัครสมาชิกฟรอนเทียร์กับงานคิดวิเคราะห์ยากและการเขียนสเปก และใช้ API ของโอเพนซอร์ส กับงานเล็ก ๆ ที่เป็นเชิงกลไก
สามทางเลือก
- การเขียนโค้ดด้วย AI ที่บ้านโดยไม่ต้องใช้จ่ายระดับบริษัทมีอยู่ 3 วิธี และวิธีที่เหมาะจะขึ้นอยู่มากกับว่าคุณเชื่อมั่นต่อฮาร์ดแวร์และการเปิดตัวโมเดลในอีก 1 ปีข้างหน้ามากแค่ไหน
- โฮสต์เอง คือการซื้ออุปกรณ์ด้วยตัวเองและรันโมเดลโอเพนซอร์สแบบโลคัล ซึ่งหลังจากนั้นจะไม่มีค่าใช้จ่ายต่อโทเค็น
- ต้นทุนเริ่มต้นสูง และโมเดลที่สามารถรันได้จริงที่บ้านก็อ่อนกว่ารุ่นที่ห้องวิจัยฟรอนเทียร์ปล่อยออกมา
- จะคุ้มค่าเมื่อสามารถใช้อุปกรณ์อย่างต่อเนื่องกับงานรันระยะยาวที่ให้โมเดลช้าแต่ราคาถูกทำงานข้ามคืนได้เท่านั้น
- คนส่วนใหญ่ยากที่จะรักษาอุปกรณ์ในบ้านให้อยู่ภายใต้โหลดสูงแบบนั้นตลอดเวลา และฮาร์ดแวร์ที่ซื้อวันนี้อาจดูเป็นการตัดสินใจที่ไม่ดีในอีก 1 ปี
- เช่า API ของโมเดลโอเพนซอร์ส คือการเช่าใช้โมเดลโอเพนซอร์สแบบเดียวกันจากผู้ให้บริการผ่านค่าบริการ API ซึ่งเป็นตัวเลือกที่เหมาะกับคนส่วนใหญ่
- ไม่ต้องทุ่มเงินหลายพันดอลลาร์กับชุด GPU เดียว และไม่ต้องหลีกเลี่ยงงานจูนประสิทธิภาพระยะยาวจากโมเดลเปิด
- เปลี่ยนไปใช้ตัวเลือกที่ถูกกว่าหรือดีกว่าในเดือนถัดไปได้ง่าย และไม่ต้องขายอุปกรณ์ต่อ
- บริการอย่าง OpenRouter ทำให้การสลับแทบจะเป็นการแก้ไขเพียงบรรทัดเดียว
- ปรับการสมัครสมาชิกฟรอนเทียร์ให้คุ้มที่สุด คือการใช้ประโยชน์จากการสมัครของ OpenAI และ Anthropic ให้เต็มที่
- แพ็กเกจราว 400 ดอลลาร์ต่อเดือนให้ปริมาณการใช้งาน API ตามราคาปกติประมาณ 2,800 ดอลลาร์ จึงมีผลลดราคามากตราบใดที่ยังไม่แตะเพดาน
- แพ็กเกจคิดตามการใช้งาน และเวิร์กโฟลว์ AI-native ขนาดใหญ่จะใช้โทเค็นที่รวมมาให้อย่างรวดเร็ว
- เหมาะกับงานที่มนุษย์เป็นผู้ขับเคลื่อนโดยตรง แต่ไม่เพียงพอสำหรับเป็นเอนจินของเอเจนต์ที่รันทั้งวัน
ชุดผสมที่ได้ผลที่สุด
- วิธีที่ได้ผลที่สุดคือการใช้ การสมัครสมาชิกฟรอนเทียร์ ควบคู่กับ API ของโมเดลโอเพนซอร์ส
- คงการสมัครสมาชิกฟรอนเทียร์ไว้บางส่วนสำหรับงานคิดวิเคราะห์ยากและการเขียนสเปก แล้วใช้อัตราค่าบริการ API ของโมเดลโอเพนซอร์สกับงานเชิงกลไกขนาดเล็ก
- หากใช้ การพัฒนาแบบขับเคลื่อนด้วยสเปก จะได้โครงสร้างที่โมเดลราคาแพงทำแผน ส่วนโมเดลราคาถูกทำตามแผนนั้นให้ครบ
- หากทำวิธีนี้ได้ดี ทีมขนาดวิศวกร 20 คนสามารถสร้างผลลัพธ์ระดับหนึ่งเดือนได้ด้วยงบราว 1,000 ดอลลาร์
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เหมือนกำลังมาถึงทางตันและไม่รู้ว่าจะไต่ไปขั้นถัดไปอย่างไร ตอนนี้ใช้ แพลน Codex $100/เดือน กับ 5.5-xhigh ต่อเนื่องอยู่ ซึ่งก็ดูว่าเพียงพอ
ผมจะคิดก่อนว่าต้องทำอะไรต่อ จากนั้นใช้เซสชันแชตช่วยลงรายละเอียดคำขอให้ชัดเจนจนเกือบพร้อมลงมือพัฒนา แล้วให้ Codex จัดการงานเป็นหน่วยคอมมิต ก่อนจะเช็กแบบง่าย ๆ บน local dev server ถ้าจำเป็นก็ขอให้แก้ แล้วค่อยให้คอมมิต หลังจากนั้นก็ให้มันแนะนำขั้นถัดไปตามสเปกอยู่ดี บางครั้งก็ต้อง “อนุมัติ” คำขอนอก sandbox เป็นระยะ ๆ
ยังไม่เจองานที่คุ้มจะปล่อยรันข้ามคืน จะสั่งแผนใหญ่ทีเดียวก็ได้ แต่บ่อยครั้งระหว่างทางก็มักอยากเปลี่ยนผลลัพธ์ย่อยบางอย่างอยู่ดี เลยรู้สึกว่าเปลือง
ต่อไปคงต้องหาพวก machine VM ที่สามารถ tunnel คำขอจาก Codex GUI ได้บ้าง ไม่ค่อยอยากให้สิทธิ์เข้าถึง “อันตราย” กับ Mac ทั้งเครื่องของตัวเอง
ไม่เข้าใจเลยว่าคนทำ side project เขาทำอะไรกันถึงเผาโทเค็นได้เร็วขนาดนั้น และต้องมีทั้งสมาชิก $200/เดือน สองเจ้าแล้วยังเสียค่าโทเค็นเพิ่มอีก
ผมเจออยู่กรณีเดียวที่การปล่อยให้ AI ทำงานต่อเนื่องหลายชั่วโมงยังพอฟังขึ้น คือกำลัง reverse engineer widget ตัวหนึ่งที่มี firmware image อยู่ห้าชุด เลย dump ไบนารีออกมาแล้วให้ AI ช่วย decompile และ reverse engineer โปรเจกต์เฟิร์มแวร์ที่พัวพันกันหลายชุด เป็นงานที่ซับซ้อนแต่ขอบเขตชัดมาก ไม่ใช่งานยากเท่าไรนัก แค่เป็นงานปริมาณมาก และผลลัพธ์ก็เป็นเพียงกองข้อความหน้าตาเหมือน C เพื่อใช้อ้างอิงข้อมูลเท่านั้น ไม่สามารถคอมไพล์ได้ตรง ๆ คุณภาพของผลลัพธ์ขึ้นกับ assembly ต้นทางอย่างมาก และงานทั้งหมดก็เป็นเอกสารในรูปแบบโค้ด
เพราะความเสี่ยงเป็นศูนย์ ผมเลยปล่อยให้ AI จัดการเองแบบไร้คนดูแลได้อย่างสบายใจ ถึงอย่างนั้นพอมันเคาะออกมาเป็นรูปแบบโปรเจกต์ C ที่มอง assembly ออก ผมก็อ่านและอนุมานต่อได้ง่ายขึ้นมาก ถือว่าเป็นชัยชนะง่าย ๆ
ขอให้มันสร้างโปรแกรมเสร็จปุ๊บ ก็ถาม AI ต่อทันทีว่าต้องรันยังไง ถ้ามีบั๊กก็ถาม AI ว่าอะไรผิด หรือไม่ก็ทิ้งทั้งหมดแล้วเปลี่ยนโมเดล/ฮาร์เนสลองใหม่
ตัวอย่างคือ https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
มันต่างจากเวิร์กโฟลว์แบบมืออาชีพที่คุณอธิบายโดยสิ้นเชิง ใกล้เคียงของเล่นผู้บริโภคมากกว่า
ใช้ไปประมาณ $4.8 สำหรับ 320,000,000 โทเค็น ตอนยังใช้แพลน Claude ผมรู้สึกกดดันว่า LLM ต้องทำอะไรอยู่ตลอดถึงจะคุ้มราคา พอเปลี่ยนมาเป็น DeepSeek ก็ไม่คิดแบบนั้นอีกแล้ว ไม่ใช้สมาชิกแบบเหมาจ่ายก็ไม่รู้สึกผิด และไม่กังวลเรื่องลิมิตด้วย เพราะแค่จ่ายเพิ่มก็พอ โดยเฉพาะที่ไม่มีลิมิตรายชั่วโมง ทำให้รู้สึกถึงความต่างชัดมากเวลา รันแบบขนาน
การซื้อโทเค็นเพิ่มไม่ได้ทำให้ความสามารถในการคิด “อัปเลเวล” คนที่ปล่อยระบบอัตโนมัติมากกว่านี้น่าจะกำลังวิ่งนำหน้าความคิดตัวเองมากเกินไป และสุดท้ายสิ่งนั้นจะกลายเป็นตัวฉุดรั้ง
รัน Trellis2 -> ultrashapes -> Trellis2 -> ต่อ rigging และตั้งค่า animation บน RTX 5090
แต่ 99% ของงานนั้นคือ Codex รอผลลัพธ์ออกมา ถ้ารัน 12 ชั่วโมง ส่วนใหญ่ก็แค่ตั้ง sleep ไว้เยอะ ๆ ไม่เคยใช้โทเค็นหมดเลย Codex $100/เดือน ชนลิมิตรายสัปดาห์ในราว 3 วัน เพราะผมรันเอเจนต์พร้อมกัน 10 ตัวแล้วให้โค้ด asset pipeline แบบบ้าคลั่ง เลยอัปเกรด แพลน $200/เดือน ให้เครดิตมากกว่า 4 เท่า เลยยังไม่เคยชนกำแพงและลุยได้เต็มที่
แม้จะบอกว่า “เริ่มต้นคือ self-hosting ซื้อเครื่องมา รันโมเดลโอเพนซอร์สบนเครื่องตัวเอง แล้วหลังจากนั้นก็ไม่ต้องจ่ายตามจำนวนโทเค็น” แต่ค่าไฟก็ไม่ได้ฟรี
สำหรับผม มันก็เหมือนยอมจ่ายพรีเมียมเพื่อความเป็นส่วนตัวในท้ายที่สุด และสำหรับผมมันคุ้มค่า
ดังนั้นในกรณีของผมจึงไม่มีค่าใช้จ่ายฮาร์ดแวร์เพิ่ม เพราะเป็นการซื้อทดแทนอยู่แล้ว
การรันโมเดล AI ที่บ้านบนอุปกรณ์นี้เป็นสิ่งที่ผมอยากทำเอง และถ้าจำเป็นก็จะใช้ OpenRouter
ผมยอมรับว่าการคำนวณเรื่องความคุ้มทุนในบทความนี้ถูกต้อง แต่ก็รู้สึกเศร้าอย่างมากที่ผลลัพธ์คือเรากลายเป็นแค่คนคอยดูแลเครื่องจักรที่มาทำงานที่เราเคยรัก
ในระยะยาว การแยกแยะความแตกต่างเล็กๆ แบบนี้อาจมีความหมายก็ได้
ความผิดพลาดในชีวิตของผม—ตอนนี้ก็อายุมากพอจนแทบแก้ไม่ได้แล้ว—คือการเชื่อว่าถ้ายังได้รับความเติมเต็มจากงานมากพอ ก็จะชดเชยการขาดความเติมเต็มส่วนตัวด้านอื่นได้
ผมชอบเสมอที่ได้ช่วยผู้คนโดยตรงผ่านงานที่ตัวเองทั้งชอบและทำได้ดี และนั่นก็ช่วยกันความเศร้าจากการที่สร้างชีวิตครอบครัวแบบดั้งเดิมได้ยาก
ผมเคยคิดว่าเราน่าจะหาความสุขแบบนั้นได้ในรูปแบบใหม่ๆ เสมอ แต่ถ้าไม่มีการเอนกลับไปทางความพยายามของมนุษย์มากกว่านี้ แม้แต่ความสุขเล็กๆ จากการสำรวจสิ่งเหล่านี้ด้วยอุปกรณ์ของตัวเองในแบบของตัวเอง ก็คงไม่เพียงพอ
โลกที่เราสร้างขึ้นมาด้วยมือนั้นช่างหม่นหมอง ทุกวันนี้ผมกลัวการแก่ลงไปอีกในโลกแบบนี้
ถ้าซื้อ 6000 ก็คงต้องจ่ายราว 7,000–8,000 ดอลลาร์ แต่มีโอกาสสูงว่ามูลค่าขายต่อจะยังดีพอสมควร 3090 ตอนนี้ก็ยังได้เกิน 50% ของราคาแนะนำขายปลีกอยู่เลย แม้จะไม่ทำ LLM มันก็ยังเป็นข้อเสนอที่น่าสนใจสำหรับการเทรนโมเดล vision แบบ convolutional neural network “ดั้งเดิม” อยู่ดี 96GB ใส่ batch size มหาศาลได้ เหตุผลใหญ่ที่สุดของการอัปเกรดคือประสิทธิภาพต่อวัตต์เกือบเพิ่มเป็นสองเท่า ตัวอย่างเช่น 4000 Pro Blackwell ใช้ไฟประมาณครึ่งหนึ่งของ 3090 ที่ประสิทธิภาพใกล้เคียงกัน
ผู้คนมักชอบสมมติว่าค่าใช้จ่ายฝั่งทุนจมหายไปเลย แต่เหมือนที่เห็นกับ RAM ผมคิดว่าไม่ควรมั่นใจเกินไปว่าถ้าจำเป็นแล้วจะขายต่อไม่ได้
ผมลองคำนวณแล้ว และถ้าไม่นับเรื่องความเป็นส่วนตัว มันไม่สมเหตุสมผลเลย ถึงอย่างนั้นผมก็ยังทำ [0]
0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
ถ้ามองจากมุมของการใช้พลังงานไฟฟ้าล้วนๆ จุดคุ้มทุนอยู่ตรงไหน?
ไม่เข้าใจจริง ๆ ว่าคนอื่นใช้เงินกันยังไงถึงขนาดนั้น
ผมใช้ แพ็กเกจ Cursor เดือนละ $60 ในโหมดอัตโนมัติมาตลอด ต่อให้ปล่อยให้มันช่วยวางแผนและเขียนโค้ดตลอดทั้งคืน 4 วันต่อสัปดาห์ ก็ยังไม่เคยเข้าใกล้โควตาที่รวมมาให้เลย
เขาทำอะไรต่างออกไปกันแน่ ถึงได้มีค่าใช้จ่ายสูงขนาดนั้น?
ใช้แบบตามปริมาณ, ใช้โมเดลเสียเงินตัวอื่น หรือเปิดโหมดที่สูงกว่านี้หรือเปล่า? ผมไม่เข้าใจว่าทำไมต้องใช้แบบนั้น สำหรับงานที่ผมทำ ผลลัพธ์จาก Auto ดีแบบเหลือเชื่อ และยังไม่เคยเจอปัญหาที่มันทำได้ไม่ดีพอเลย
ตอนสัมภาษณ์รับคนเข้าทีมที่บริษัท ผู้สมัครบอกว่าในที่ทำงานปัจจุบันใช้เงินกับโทเคนเดือนละ $2K ผมนึกภาพไม่ออกจริง ๆ ว่าต้องเกิดอะไรขึ้นถึงจะเป็นแบบนั้น
ตอนอยู่สตาร์ตอัปเล็ก ๆ เราใช้แพ็กเกจ Max เดือนละ $200 ตอนนี้ใช้ปริมาณเท่าเดิมแต่จ่ายให้ Claude enterprise เดือนละหลายพันดอลลาร์ช่วงต้น ๆ
Anthropic อุดหนุนการใช้งานฝั่งผู้บริโภค และไปทำกำไรค่อนข้างดีจาก no data retention (ZDR) กับลูกค้าองค์กร
เช่น ผมสั่งเอเจนต์ที่เข้าถึงเบราว์เซอร์, ล็อก, เมตริก, GitHub และ CI logs ให้ไปทำฟีเจอร์ใหม่ได้
ถ้ามีรายงานบั๊กใน Slack สักไม่กี่อัน ผมก็เปิดเอเจนต์เพิ่มอีกสองสามตัว ถ้า PM อยากแก้ UI ก็เปิดเอเจนต์อีกตัว งานจำนวนมากที่นักพัฒนาทำจริง ๆ ไม่ได้ซับซ้อนเสมอไป และผมก็แค่รีวิว PR สุดท้ายแล้วคอมเมนต์เหมือนที่คอมเมนต์ให้เพื่อนร่วมงาน จากนั้นเอเจนต์ก็จะกลับไปแก้ตามคอมเมนต์และขอรีวิวใหม่
ระหว่างนั้นผมก็เอาความสนใจจริง ๆ ไปลงกับฟีเจอร์ที่หนักกว่า, เอกสารออกแบบ, การวิเคราะห์ข้อมูล ฯลฯ
ส่วนตัวผมจ่ายเดือนละ $300 และเรื่องงานจ่ายหลักพันดอลลาร์ เอเจนต์สามารถ เปลี่ยนผลิตภาพได้จริง ๆ และคุ้มค่ากับเงินที่จ่ายมาก
สำหรับบริษัท มันคือคำถามว่าจะจ่ายเดือนละไม่กี่พันดอลลาร์ หรือจะจ้างวิศวกรเพิ่มอีกหนึ่งคนที่มีต้นทุนรวมปีละหลายแสนดอลลาร์ สำหรับผมตอนนี้ อย่างน้อยมันคือ ตัวคูณ 2 เท่า
ถ้าดูจากบริบทของการคุยกับคนแบบนั้น คำอธิบายที่ง่ายที่สุดสำหรับคำถามชวนงงนี้ก็น่าจะใช่เลย ผมยังมองไม่ออกด้วยซ้ำว่าจะใช้ถึง $2K ต่อเดือนได้ยังไง เว้นแต่จะตั้งใจผลาญเครดิตเล่น
เวลาผมใช้ AI ผมใช้แค่ตัวเครื่องมือแบบล้วน ๆ และ context ก็คือโค้ดที่กำลังทำอยู่แบบตรง ๆ ผมแค่อยากดูว่ามันช่วยแก้ปัญหาเฉพาะนั้นได้ไหม ส่วนโค้ดเบสที่เหลือผมเข้าใจดีพอจะตัดสินได้ว่าคำตอบนั้นดีหรือไม่ดี
เรื่องเล็ก ๆ ระดับล่างก็ทำให้เอเจนต์สะดุดได้ เมื่อกี้นี้มันยังพยายามเลี่ยงการอ่านข้อความผิดพลาดที่บอกว่าฟังก์ชันต้องคืนค่าเป็น bool เลยลองทำเรื่องเดิมซ้ำไป 10 แบบกว่าผมจะหยุดมัน สกิลก็อาจก่อปัญหาได้เหมือนกัน เช่น ถ้าให้สิทธิ์ มันชอบมากที่จะไปอ่านซอร์สโค้ดของไลบรารีที่ผมใช้ ซึ่งนั่นเป็นโพรงกระต่ายดี ๆ นี่เอง
ถ้าความหมายคือ “ต้นทุนเริ่มต้นสูง และโมเดลที่รันที่บ้านได้จริงก็ด้อยกว่าโมเดลจากแล็บชั้นนำ ดังนั้นจะคุ้มก็ต่อเมื่อมีงานรันยาวที่ใช้โมเดลช้าแต่ถูกอัดทั้งคืนเพื่อให้เครื่องไม่ว่าง” แบบนี้ บทความนี้ก็ไม่ใช่บทความเรื่องทำ AI coding ที่บ้าน แต่เป็นบทความเรื่อง vibe coding ที่บ้าน
ผมไม่เห็นด้วยกับบทความนี้หลายจุด ตอนนี้ผมกำลังพิมพ์คอมเมนต์นี้จากคอมพิวเตอร์ที่บ้าน RAM 64GB ไม่มี GPU และผมทำ AI coding เยอะมากโดยเสียเงินน้อยมาก
ผมรัน Gemma 4 26b (mixture-of-experts) กับ Qwen 3 coder ผ่าน Ollama ใช้ GitHub Copilot สำหรับ code completion และใช้ฟรีเทียร์ของ Gemini กับ Mistral API ด้วย ผมมีบัญชี Gemini API แบบเสียเงินเหมือนกัน แต่ตอนนี้เป็นแบบเติมเงินล่วงหน้าแล้ว เลยไม่ต้องกังวลว่าจะพลาดโดนบิล $1000 อีกต่อไป แม้แต่ Gemini Flash Lite 3.1 ก็ทำอะไรได้ค่อนข้างเยอะ
ของพวกนี้ไม่มีอันไหนเผาโทเคนเพื่อสร้างกองสปาเกตตีโค้ดราคาแพง แต่ก็ถือว่าเป็น AI coding ชัดเจน
มันอาจไม่ได้เหมาะกับ vibe coding แบบ “ปืนใหญ่ยิงสลอป” แต่โค้ดส่วนตัวของผมไม่อยากให้กลายเป็นสปาเกตตีอยู่แล้ว ผมเลยไม่ได้จะทำ vibe coding สิ่งที่ผมต้องการคือให้มันช่วยค้นโพสต์ใน Stack Overflow กับ Reddit ได้ทันทีจากในกล่องแชต ช่วยลดความเจ็บปวดทางกายภาพจากการต้องพิมพ์โค้ด TypeScript เอง และช่วยลดการงมหาสาเหตุของปัญหา Docker คลุมเครือแบบไม่รู้จบ ผมเป็นแบ็กเอนด์เดเวลอปเปอร์ ความอดทนกับฟรอนต์เอนด์ติดลบ ส่วน Docker ผมชอบนะ แต่ไม่มีความอดทนกับปัญหาน่าหงุดหงิดและความเพี้ยนไม่รู้จบของมัน โมเดลนี้ทำเรื่องพวกนั้นได้ดีมาก
วิศวกรเก่งที่สุดส่วนใหญ่ที่ผมรู้จัก ปีนี้หันไปทำ vibe coding กันมากขึ้นเยอะ ทุกวันนี้ความเป็นไปได้มันดีกว่าเดิมมาก
แค่ใช้ DeepSeek platform API โดยตรง แล้วต่อโมเดล V4 Flash เข้ากับฮาร์เนสอย่าง Opencode ก็ให้อะไรที่น่าพอใจมากแล้ว น่าจะใช้ไปแค่ประมาณ $10 ตลอดหลายสัปดาห์
เคยดูโมเดลแบบ self-hosting เหมือนกัน แต่ตอนนี้ฮาร์ดแวร์แพงเกินไป
เดือนแรก $5 หลังจากนั้น $10 และยกเลิกเมื่อไรก็ได้ ยังรับส่วนลดต่อด้วยอีเมลใหม่ได้เรื่อย ๆ
ยังไงก็น่าสนใจนะ ที่ราคานั้นได้อะไรบ้าง? แค่โค้ดดิ้งอย่างเดียว หรือรวม การสร้างภาพ ด้วยเป็นต้น ก็อยากรู้
ที่บ้านคนเขาใช้งานกันแบบไหนนะ? ฉันเขียนแอปได้ราว 5 ตัวด้วยแพลน Claude เดือนละ $20 และแน่นอนว่าอาจติด rate limit ได้ แต่ไม่รู้จริง ๆ ว่าต้องทำอะไรถึงจะเผา โทเคนมูลค่า $3k ได้
มีทั้งการรันวิเคราะห์หาต้นตอสาเหตุของปัญหา customer support ทุกชั่วโมง งานอัตโนมัติรายวันอย่างการวิเคราะห์ล็อก และงานอัตโนมัติรายสัปดาห์/รายเดือนสำหรับติดตามและลงมือทำตาม KPI
ตอนทำ side project มันง่ายกว่ามากที่จะอยู่ภายในลิมิตของแพลน $20 ต่อเดือน เพราะ 1) ขอบเขตค่อนข้างชัดเจน และ 2) ไม่มีผู้ใช้หรือความต้องการด้านอัตโนมัติ ตอนนี้ฉันชนลิมิตรายสัปดาห์บ่อย และต้องใช้ Max plan หลายอัน
คนที่เผาโทเคนน่าจะใช้คอนฟิกประมาณมี sub-agent หลายตัว, loaded skill 50 อย่าง, MCP tool 40 ตัว อะไรแบบนั้น ซึ่งพวกนี้คอยยัดบริบทเข้าไปทุกเทิร์น
มันดีมากโดยเฉพาะกับโปรเจกต์ส่วนตัวที่ทำที่บ้าน หลังจากต้องทำงานน่าเบื่อของบริษัทมาทั้งวัน การที่ไม่ต้องมานั่งจัดการงานซ้ำ ๆ ของ side project เอง ทำให้อยากลงมือทำมากขึ้นเยอะ
คนส่วนใหญ่ที่เผาโทเคนเป็นหลักพันดอลลาร์ที่บ้าน น่าจะกำลังสร้าง กองสลอปก้อนใหญ่ อยู่
งานเขียนโค้ดส่วนใหญ่นั้นใช้แค่คีย์บอร์ด, IntelliSense และเทมเพลตช่วยสร้างโค้ดเล็กน้อยก็ทำได้เร็วแล้ว
แต่คนดันเคยชินกับการพึ่ง AI ให้ทำทุกอย่าง และตอนนี้พวก tech bro ก็เริ่มรีดกันเหมือนพ่อค้ายา
เมื่อไม่กี่เดือนก่อนฉันทุ่มเงินประมาณ $4,000 ไปกับ NVIDIA DGX Spark มันมี unified RAM 128GB กับชิป NVIDIA GB10
ด้วย RAM, CPU หลายคอร์ และ NVMe SSD 4TB มันจึงเป็นคอมพิวเตอร์ ARM64 Linux ที่ค่อนข้างเก่งแม้ไม่มี GPU และจนถึงตอนนี้ก็ใช้แบบนั้นเป็นหลัก แต่อยากรู้ว่าโมเดลไหนที่แรงที่สุดสำหรับงานแบบนี้ โดยเฉพาะงานโค้ดดิ้ง และสามารถรันบนฮาร์ดแวร์นี้ได้ดี
ฝั่ง inference engine ยังยึด vLLM อยู่ และใช้ Opencode ผูกลูปแบบ 2 เอเจนต์เอาไว้
ตัว planner Qwen3.6-35B-A3B วิ่งได้ดีที่ประมาณ 50~55 โทเคนต่อวินาที และตัว coder Qwen3-Coder-30B-A3B-Instruct ได้ราว 30~35 โทเคน เมื่อลันช์ทั้งสองเอเจนต์แล้วปล่อยค้างรอไว้ การใช้ RAM จะอยู่ที่ประมาณ 112GB จาก 128GB
ถือว่าดีทีเดียว ตอนนี้กำลังลองนั่นลองนี่พร้อมกับ disassemble เกม MS-DOS ยุค 1980s ซึ่งเป็นงานที่เข้ากับคอนฟิกนี้ดีมาก มันไม่ใช่ของที่เร็วที่สุดในโลก แต่ถ้าตั้ง context window ของ planner ไว้ที่ 256k โทเคน และของ coding agent ที่ 128k ก็สามารถโยนรายการงานยาว ๆ ไปมาหากันแล้วจัดการได้แบบไม่บ่น ปัญหาจริง ๆ อย่างเดียวคือ ต่อให้บีบพรอมป์ต์ให้แคบมาก coding agent ก็ยังหลอนเหมือนเสพ LSD มาอยู่ดี แต่ดูเหมือน planning agent จะจับอาการหลอนได้ดีและคอยแยกงานย่อยส่งกลับไปให้ coder
เจ๋งมาก คงเศร้าน่าดูตอนต้องคืนเครื่องรีวิวในอีกไม่กี่เดือน
เพิ่มเติมคือฉันลองเล่น Deepseek v4 Flash ด้วยคอนฟิกของ Antirez(https://github.com/antirez/ds4) แล้ว มันดีมากทีเดียวและรันง่ายจริง ๆ แต่บน Spark มันค่อนข้างช้าที่ประมาณ 14 โทเคนต่อวินาที แล้วถ้าไม่มี Spark สองเครื่อง คุณก็คงรันโมเดลนี้ได้ทีละตัวเดียว เพราะมันกิน RAM หมดเกลี้ยง
สำหรับฉัน ดูเหมือนว่าการลงทุนกับฮาร์ดแวร์คือทางที่เหมาะกว่า
ฉันเริ่มเรียนเขียนโค้ดมาเกือบ 24 ปีก่อน และจนถึงตอนนี้ก็ยังเรียนรู้สิ่งใหม่อยู่เสมอ ตลอดเวลาที่ผ่านมา ฉันไม่เคยต้องพึ่ง โมเดลแบบสมัครสมาชิก เพื่อเรียนรู้สิ่งใหม่หรือสร้างอะไรใหม่ ๆ
ถ้า LLM และเอเจนต์จะกลายเป็นเครื่องมือพื้นฐานสำหรับการเขียนโค้ดและสร้างซอฟต์แวร์อย่างน้อยในอีกไม่กี่ปีข้างหน้า การลงทุน $2000~3000 กับฮาร์ดแวร์อย่าง Halo Strix PC ก็ดูเป็นทางเลือกที่สมเหตุสมผล
ฉันมี GTX1080ti ตัวหนึ่งราว ๆ รุ่นปี 2018 ซึ่งไม่ได้ใช้งานแล้ว และมันก็คุ้มค่ามาหลายปีแล้ว ดังนั้นตอนนี้ต้นทุนฮาร์ดแวร์จึงเป็นศูนย์
มันรัน Gemma e4b multimodal, qwen 3.5 8b และโมเดล embedding ของ qwen 4b ได้ดีพอสมควร
LLM ทำความเร็วได้มากกว่า 40 โทเคนต่อวินาที
ตอนโหลดหนักกินไฟจากปลั๊ก 350W, ตอนประหยัดพลังงาน 3W และตอน idle 80W ค่าไฟอยู่ที่ £0.035 ต่อ kWh ซึ่งถือว่าถูกสำหรับสหราชอาณาจักร เพราะฉันย้ายโหลดไปใช้แบตเตอรี่ในบ้าน
สำหรับเอาต์พุต 144k โทเคน ต้นทุนอยู่ที่ประมาณ 1 เพนนี และตามทฤษฎีจะใช้เวลาหนึ่งชั่วโมง
ต่อให้มีฮาร์ดแวร์ฟรีและค่าไฟที่ถูกกว่าราคาปกติราว 10 เท่า มันก็ยังถูกกว่าแค่เล็กน้อยเมื่อเทียบกับการใช้โมเดล deepseek v4 flash ที่แรงกว่ามาก
เมื่อดูทั้งความเคลื่อนไหวล่าสุดของทำเนียบขาวต่อ Anthropic และความจริงที่ว่าโมเดลดี ๆ รุ่นถัดไปอาจต้องใช้มากกว่า 128GB จึงจะรันได้ นี่ไม่ใช่สัญญาณที่ดีนักสำหรับอนาคต
ไม่ได้จะดูแคลนการรันแบบโลคัลนะ ฉันก็เป็นผู้ใช้แบบนั้นเหมือนกันและก็ใช้สมัครสมาชิกควบคู่ไปด้วย แต่เราควรมองจุดประนีประนอมนี้อย่างชัดเจน
แต่ความรู้สึกนั้นเหมือนวัดผลิตภาพจากจำนวนบรรทัดโค้ด สำหรับงานที่ฉันทำ ฉันยังไม่รู้สึกว่าได้ประโยชน์จากการสมัครสมาชิกใด ๆ
แน่นอนว่ามันยังสร้างแอป CRUD ที่น่าเบื่อทั้งตัวขึ้นมาใหม่ด้วยพรอมป์ต์เดียวไม่ได้ แต่ก็ช่างมัน
ฉันเริ่มใช้แนวทาง brain -> worker กับการเขียนโค้ดแล้ว
Brain คือโมเดลแพงและฉลาดจากการสมัคร Claude ถ้าเป็นไปได้ก็ใช้ Fable 5 ตอนนี้ใช้ Opus
Worker คือโมเดลโลคัล (qwen3.6:46B) ที่ดีพลอยด้วย Opencode + Ollama บน GPU 36GB
Brain รับหน้าที่วิเคราะห์/ออกแบบและสร้างงาน งานจะต้องเรียบง่ายและชัดเจนเพื่อให้ worker จัดการได้ Worker เป็นคนเขียนโค้ด จากนั้น Brain จะตรวจสอบและถ้าจำเป็นก็สร้างงานแก้ไขขึ้นมา ตอนนี้อัตราส่วนงานแก้ไขต่องานหลักอยู่ที่ประมาณ 1:20
ถ้าคุณไม่มี GPU ที่บ้าน qwen3.6 ก็ถือว่าค่อนข้างถูกแม้จะรันบนคลาวด์
มันค่อนข้างเป็นการทดลองตามความอยากรู้อยากเห็นมากกว่า แต่กลับทำงานได้ดีกว่าที่คาดไว้ ตอนนี้มันช่วยให้ฉันรัน coding agent 3 ตัวต่อเนื่องได้เป็นวันที่ 4 แล้ว ฉันอธิบายไว้ที่นี่ว่ามาถึงการตั้งค่านี้ได้อย่างไร: https://news.ycombinator.com/item?id=48520757
ตอนนี้เราสามารถรัน อะไรที่ใกล้เคียง Opus 4.6 แบบโลคัลได้หรือยัง? ฉันได้ยินข้อมูลคนละแบบอยู่ตลอด
ถ้าใช้เงิน $10k แล้วทำได้ ฉันก็จะเลิกสมัครสมาชิก ปัญหาคือฉันไม่อยากจ่ายเงินเพื่อพิสูจน์เอง
ในทางปฏิบัติ เพื่อปกป้องมาร์จินของดาต้าเซ็นเตอร์ พวกเขาไม่ได้เสนอคอนฟิกสำหรับผู้บริโภคที่จะรัน VRAM ระดับนั้นได้ในเครื่องเดียว Apple เคยทำได้เมื่อก่อนแต่ยกเลิกไปแล้ว และตอนนี้เครื่องพวกนั้นซื้อขายกันบน eBay ที่มากกว่า $20k ต่อเครื่อง
คุณยังรันโมเดลที่ทรงพลังมากได้ด้วยการ์ดตระกูล 3090/4090/5090/6000 แต่ถ้าต้องการ “ระดับโมเดลชั้นนำ” จริง ๆ คุณต้องลงทุนอย่างน้อยประมาณ $22k สำหรับของใหม่ ถ้าซื้อมือสอง ต้นทุนเริ่มต้นอาจลดลงได้มากและสามารถประกอบเซิร์ฟเวอร์เองได้ แต่การใช้ไฟก็น่าจะสูงขึ้น 4~6 เท่าหรือมากกว่า
ณ ตอนนี้ มันยังไม่ใช่สิ่งที่คนทั่วไปทำได้
ตอนนี้ยังเป็นไปไม่ได้ที่จะประกอบเครื่องแบบนั้นจากศูนย์ด้วยงบต่ำกว่า $100K แต่ตอนนี้ก็เป็นช่วงที่ยากจะตีราคาให้กับความเป็นอิสระได้เหมือนกัน