ไม่กี่เดือนมานี้ พอมองวงการนักพัฒนาของเกาหลี ก็เห็นข้ออ้างแปลก ๆ อย่างเช่น "ปริมาณการใช้โทเคนคือฝีมือ" แพร่สะพัดกันอยู่
พร้อมกับการยืนยันแบบสุดโต่งว่า แค่มี PRD ที่ทำมาดีฉบับเดียว AI ก็จะแก้ได้ทุกอย่าง
ตอนแรกผมนึกว่าเป็นแค่การโวยวายเกินจริงที่พบได้บ่อยในคอมมูนิตี้ แต่พอเห็นข้ออ้างแบบนั้นโผล่ออกมาเรื่อย ๆ ราวกับเป็นเรื่องจริงอยู่ตลอด ช่วงหนึ่งผมก็แอบคิดเหมือนกันว่าหรือผมจะตามไม่ทันแล้ว
(ยิ่งพอเห็นอะไรอย่าง Oh-my-OpenCode ก็ยิ่งรู้สึกแบบนั้น)
แต่พอลองค้นหาจริง ๆ ก็แทบหาแม้แต่ตัวอย่างที่เหมาะสมสักชิ้นไม่ได้ และในทางปฏิบัติก็แทบจะทำซ้ำไม่ได้เลย
ในคอมมูนิตี้ frontier ของอเมริกาแทบไม่มีข้ออ้างแบบนั้นเลย แล้วพอ OpenClaw ออกมา ได้รับความนิยม และ OpenAI ก็รีบชวนผู้ก่อตั้งไปร่วมงานทันที ผมก็ยิ่งมั่นใจมากขึ้น
(โดยเฉพาะเมื่อเห็นว่าปรัชญาหลักของ OpenClaw คือ HITL(Human In The Loop))
อ้อ ที่แท้ไม่ใช่ว่าผมล้าหลัง แต่เป็นเพราะในคอมมูนิตี้เกาหลีมีการพูดเกินจริงและภาพลวงตาแบบกึ่งศาสนาแพร่สะพัดอยู่นี่เอง
เมื่อวานนี้ผู้ก่อตั้ง OpenClaw ก็พูดว่า
ถึงจะเขียนโค้ดแล้วปล่อยให้รันข้ามคืนได้ แต่ผลลัพธ์ที่ได้สุดท้ายก็คือขยะชั้นยอด
เช่นนี้ และ
ส่วน YC CEO Garry Tan ก็พูดว่าตัวเองเห็นด้วย 100%
https://x.com/garrytan/status/2043738478220062813?s=20
ตลอดหลายเดือนที่ผ่านมา ผมเห็นว่าสถานการณ์ที่มีการอ้างภาพลวงตาแบบนี้กำลังส่งผลเสียต่อผมทั้งทางตรงและทางอ้อม ตอนนี้เลยทนต่อไปไม่ไหวแล้ว
ผมอยากให้คนที่พูดข้ออ้างแบบนั้นถูกโต้กลับบ้าง
ผมเป็นคนที่มอง AI ในแง่บวกมาก และใช้ Codex มาตั้งแต่ 5 ปีก่อน
ผมคิดว่าวันหนึ่งระบบอัตโนมัติเต็มรูปแบบแบบนั้นก็น่าจะเกิดขึ้นได้ และก็คิดเหมือนกันว่าอาจจะเป็นปีหน้าตามที่คนทั่วไปพูดกัน
แต่ อย่างน้อยวันนี้ยังไม่ใช่
66 ความคิดเห็น
ถ้าคำกล่าวอ้างนั้นเป็นความจริง anthropic, google, openai ก็คงแทนที่ซอฟต์แวร์ที่มีอยู่ทั้งหมดได้สบายไปแล้ว
ภาพลวงที่เรียกว่า Ralph Loop คุณคิดอย่างไร?
แม้แต่ในบริษัทตอนนี้ก็เริ่มมีบรรยากาศแปลก ๆ ว่า ต้องใช้โทเคนให้เยอะถึงจะถูกมองว่าผลงานดี
ไม่รู้จริง ๆ ว่ามาจากหัวใคร...
ทุกครั้งที่เห็นบทความแนวนั้นจากกลุ่มนั้น ผมแทบจะเป็นลมพิษขึ้นมาจริง ๆ
ผมรู้สึกว่าบทความนี้ตั้งใจเขียนออกมาในลักษณะนี้หรือเปล่านะ
แต่ก็มีอีกมุมหนึ่งเหมือนกัน
สิ่งที่พวกเราทุกคนพูดกันเมื่อ 3 ปีก่อนคือ สุดท้ายแล้วต้นทุน AI จะถูกลง
แต่ความจริงไม่ใช่แบบนั้น กลับแพงขึ้นด้วยซ้ำ แม้แต่โมเดล AI จากจีนก็เหมือนกัน
ดังนั้นช่วงหลัง ๆ วิธีอย่างการสลับใช้โมเดลหลาย tier ภายในงานเดียวเพื่อพยายามลดต้นทุน หรือการนำโอเพนซอร์ส โดยเฉพาะ gemma 4 (reasoning trace สั้นกว่ามาก) มารันแบบ local แล้วใช้กับเอเจนต์ ก็เริ่มกลายเป็นประเด็นที่ถูกพูดถึง วิธีแบบนี้ตอนแรกทุกคนคัดค้านกันหมด แต่ตอนนี้กลับดูสมเหตุสมผลมาก และเริ่มมีความเคลื่อนไหวที่เกี่ยวข้องออกมามากมาย เช่นเดียวกัน AI ตอนนี้เป็นการแข่งขันที่ยังไม่มีคำตอบตายตัว แต่ท้ายที่สุดก็เป็นอุตสาหกรรมที่ขับเคลื่อนด้วยความเชื่อมั่นว่าผู้ชนะจะได้ไปมาก
สรุปแล้ว สำหรับผมคงมีความหมายประมาณนั้น
Noise เรื่องนี้เห็นได้ชัดมากในกิจกรรมประชาสัมพันธ์ของบริษัท AI frontier เช่นกัน แล้วเพราะบริษัทเหล่านี้ทำแบบนั้น เราจะไม่ใช้มันเลยหรือ? ไม่ใช่แน่นอน เรายังจะใช้ AI อยู่ เพียงแต่ต้องรู้จักคัดกรองข้อมูลที่เป็น noise โดยเฉพาะเวลาที่เรารู้สึกไม่พอใจ ยิ่งต้องทำแบบนั้นมากขึ้น
การลงมือทำที่ไม่จำเป็น เรื่องนี้ในการลงทุนก็คล้ายกัน คนที่ทำผลตอบแทนจากการลงทุนได้ มักมีโอกาสสูงที่จะเป็นคนที่เคยล้มเหลวมาแล้ว ถ้ามี mindset ว่า ฉันจะไม่มีวันขาดทุนอย่าง "เด็ดขาด" ตั้งแต่แรกก็เริ่มลงทุนได้ยากอยู่แล้ว และในช่วงตลาดขาลงก็จะรู้สึกโล่งใจที่ตัวเองไม่ได้ลงทุน รู้สึกเพียงความสงสารต่อคนที่ลงทุนไป ส่วนพอตลาดกลับเป็นขาขึ้นจริง ๆ ก็จะเหลือแต่ความรู้สึกเสียดาย เช่นเดียวกัน สุดท้ายแล้วคนที่ได้เปรียบกับ AI คือคนที่คอยติดตาม ลองใช้ และทดลองหลาย ๆ แบบอย่างต่อเนื่อง ผมรู้สึกเรื่องนี้ชัดมากยิ่งขึ้นในกลุ่มคนนอกสายพัฒนา บางคนไม่มีความรู้ด้านการพัฒนามาก่อน แต่ก็ยังลองใช้อย่างต่อเนื่อง ค้นคว้าไปพร้อมกับเรียนรู้ความรู้ด้านการพัฒนา และสร้างซอฟต์แวร์ที่ดีกว่าเดิมออกมา คนที่มี "ความมุ่งมั่น" แบบนี้ เอาชนะได้ยากกว่าที่คิด ผมเองก็รู้สึกเรื่องนี้มากจริง ๆ และเหมือนพยายามอยู่ตลอดเวลาไม่ให้ความมุ่งมั่นของตัวเองหายไปในแต่ละช่วงเวลา
สรุปคือ ralph เองก็ไม่ใช่แนวคิดลวงเสียทีเดียว แต่เป็นแนวคิดประเภทหนึ่งของ industrial engineering และเป็นแนวทางที่พิสูจน์แล้วว่ามี advantage ในมุมของ test-time computing แน่นอนว่าจะบอกว่าเป็นภาพลวงก็ได้ แต่ถึงอย่างนั้น ผมคิดว่าประสบการณ์ที่คุณให้ความสนใจและพยายามทำซ้ำมันขึ้นมานั้น จะกลายเป็นทรัพย์สินที่มีค่ามาก
ผมเห็นด้วยว่าควรกรองเอาเฉพาะสัญญาณออกจาก noise แต่ก็คิดว่าต้องระวังคำพูดในทำนอง "ถ้าไม่สบายก็แค่นั่งให้ถูกท่า" ด้วย การไปถึงขั้นมองแม้แต่การแสดงความไม่พอใจว่าเป็นปัญหา แล้วส่งสารประมาณว่า "อย่าทำตัวเหมือนคนปรับตัวไม่ได้ จงรีบปรับตัวแล้วกลายเป็นผู้ชนะ" นั้น ผมมองว่าสุดท้ายจะนำไปสู่ผลลัพธ์นิยมแบบมืดบอดอย่างที่เห็นอยู่ตอนนี้ แน่นอนว่าคงไม่ได้มีเจตนาจะสื่อแบบนั้น
ไม่ว่าจะเป็นการ loop แบบ ralph, วิธี ensemble ที่สลับถามหลายโมเดล, หรือ subagent orchestration ข้อดีของวิธี test-time computing เหล่านี้ก็ยังไม่ได้ถูกพิสูจน์ตั้งแต่แรกด้วยซ้ำ เดิมที llm ในตอนนี้ถูกปลูกฝังพฤติกรรมแบบ people pleasing behavior มาอยู่แล้ว เพราะฉะนั้นถ้าลองพิจารณาผลลัพธ์ที่โผล่ออกมาจากกระบวนการพวกนี้ดี ๆ หลายครั้งมันไม่ได้แก้สิ่งที่ควรแก้จริง ๆ แต่เพราะถูกสั่งให้แก้ ก็เลยสร้างปัญหาที่ไม่มีอยู่ขึ้นมาแล้วค่อยแก้แทน
ผมก็เห็นด้วยว่า "ประสบการณ์ที่รวดเร็วคือทรัพย์สินที่ใหญ่ที่สุด" เป็นคำที่สะท้อนยุคสมัยนี้ได้ดี แต่ถ้านำสิ่งนี้ไปใช้ไม่ใช่แค่เพื่อประโยชน์ส่วนตน แต่ถึงขั้นใช้ในทางที่ผิด ก็ควรถูกวิจารณ์อย่างแน่นอน และผมคิดว่าประเด็นของโพสต์ต้นฉบับก็น่าจะเป็นว่า "ไม่ชอบที่มีการโหมเกินจริงราวกับว่า [เร็วให้สุด ทำให้มากที่สุด และไปให้ก่อนใคร] คือภาพจำลองการพัฒนา AI ที่ประสบความสำเร็จ"
ตอนนี้ผมเพิ่งเห็นคอมเมนต์ของคุณผู้เขียนครับ
ดูเหมือนว่าการอัปเดตคอมเมนต์จะไม่ค่อยทำงานดีนัก
ขอบคุณสำหรับความเห็นดี ๆ ครับ
ก่อนอื่น ผมเองก็อยากจะบอกความเห็นของผมด้วยเช่นกัน
แทนที่จะมองว่าเป็นการตั้งประเด็นกับการแสดงความไม่พอใจ (ซึ่งผมเองก็ไม่ได้คิดว่ามันเป็นความไม่พอใจ) ผมอยากให้มองว่าผมเองก็เป็นอีกคนที่แสดงความเห็นต่อปรากฏการณ์ลักษณะนี้เช่นกันครับ เพราะเป็นไปไม่ได้ที่จะสร้างสถานการณ์ที่ทุกคนพอใจ ผมจึงเคารพทั้งความเห็นของผู้เขียนโพสต์ต้นฉบับและผู้แสดงความคิดเห็นท่านนั้นเช่นกัน เพียงแต่ผมก็คิดว่าความเห็นของผมเองก็ควรได้รับการเคารพด้วยไม่ใช่หรือครับ
ในความเห็นของผม
test-time computingเป็นกรณีที่งานวิจัยพิสูจน์ไว้แล้วอยู่พอสมควร อย่างไรก็ตาม วิธีแบบensembleนั้น ผมมองว่าเป็นแนวทางเพื่อหลีกเลี่ยงข้อจำกัดของขนาดcontext windowมากกว่าจะเป็นแนวคิดของtest-time computingเอง ส่วนประเด็นที่ว่า 'แทนที่จะไปแก้สิ่งที่ควรแก้ กลับสร้างปัญหาที่ไม่มีอยู่ขึ้นมาเพราะถูกสั่งให้แก้ แล้วก็แก้มันเสียอย่างนั้น' นั้น เป็นปัญหาที่เกิดขึ้นจริงอย่างชัดเจนอยู่แล้ว ดังนั้น ณ ตอนนี้ ทางออกที่ดีที่สุดน่าจะเป็นการพยายามใช้harnessเพื่อป้องกันเรื่องนี้ให้ได้มากที่สุดและสุดท้าย ในเรื่องของคำว่า 'ไวรัล' นั้น ผมเองก็เห็นด้วยว่ามันมี noise อยู่มากพอสมควร และมีคนจำนวนมากที่ไม่ชอบมัน แต่ในเมื่อคนที่ทำฮาร์เนสเหล่านี้จริง ๆ ก็เป็นกลุ่มที่ปล่อยของออกมาเป็นโอเพนซอร์ส ผมก็ยังสงสัยว่าเขาจะได้ประโยชน์ส่วนตนจากเรื่องนี้มากน้อยแค่ไหน หรือแม้แต่ในสถานการณ์ที่ต้องแจกให้ใช้ฟรีแล้วยังโดนด่า ทั้งจากคนที่ไม่ชอบมันด้วย จะยังมีอะไรที่เรียกว่าเป็นผลประโยชน์ส่วนตนได้มากแค่ไหน แน่นอนว่า ถ้ามีการขายของโดยปลุกปั่นความกลัว แบบนั้นก็เป็นพฤติกรรมที่ไม่ถูกต้องและสมควรถูกวิจารณ์ ซึ่งผมก็เห็นด้วยในจุดนี้
ขอบคุณอีกครั้งสำหรับความเห็นของคุณผู้เขียนครับ!
ตอนนี้ถูกลงกว่าสามปีก่อนมากจริง ๆ
ในยุค GPT-4 ต่อให้ใช้แบบเสียเงิน ก็ยังเจอข้อความให้กลับมาลองใหม่อีกไม่กี่ชั่วโมงถัดมา แต่ตอนนี้แม้จะใช้แพ็กเกจ 22 ดอลลาร์ก็ไม่เกิดเรื่องแบบนั้นแล้ว
ความสามารถในการคิดวิเคราะห์ต่อโทเคนหนึ่งหน่วยก็เพิ่มขึ้นจนแทบเทียบกันไม่ได้แล้วด้วย
แต่สิ่งสำคัญคือ นอกเหนือจากนั้นเรากำลังใช้โทเคนมากขึ้น และจ่ายเงินให้ผู้ให้บริการ LLM มากขึ้นอยู่ดี (Jevons paradox)
ไม่ใช่ว่าผมไม่เคยใช้ Ralph Loop
ผมยังเคยใช้ sub-agent driven development ที่ดีกว่านั้นด้วย
แต่สุดท้ายจากประสบการณ์ของผม ข้อสรุปก็เป็นไปตามที่ผู้ก่อตั้ง OpenClaw พูดไว้
ถ้าวันหนึ่งมันอัตโนมัติได้อย่างสมบูรณ์จริง ๆ ก็คงไม่จำเป็นต้องฝืนใช้สิ่งอย่าง Ralph Loop ด้วยซ้ำ
สิ่งสำคัญที่สุดคือ มันยังสร้างทั้งโค้ดและบริการที่ใช้งานได้อย่างถูกต้องจริง ๆ ไม่ได้
ผมเห็นด้วยกับความเห็นของผู้เขียนอยู่หลายส่วน
ผมเห็นด้วยทั้งเรื่องความสามารถด้านสติปัญญาต่อหนึ่งโทเคน และเรื่องราคาเมื่อเทียบกับ GPT-4
อย่างไรก็ตาม ราคาต่อโทเคนที่เคยลดลงกำลังกลับมาสูงขึ้นอีกครั้ง และเมื่อดูจากโทเคนสำหรับการให้เหตุผล จำนวนโทเคนที่ใช้ต่อหนึ่งงาน และปริมาณการใช้โทเคนต่อคนแล้ว ผลกระทบนี้กำลังกลายเป็นภาระหนักพอสมควร ทั้งสำหรับผู้ใช้รายบุคคลและผู้ให้บริการ AI นี่คือเหตุผลที่ Cursor, Intercom, Shopify, Chroma และที่อื่น ๆ เริ่มสร้างโมเดลของตัวเองบนพื้นฐานโอเพนซอร์ส เพราะมันกลายเป็นสถานการณ์ที่แทบไม่สามารถรักษาความสามารถในการแข่งขันด้านราคาได้เลย
จริง ๆ แล้วสิ่งที่เรียกว่า ralph ไม่ได้เป็นอะไรที่ฝืนยัดเยียดนัก แต่เป็น bash script ที่อิง
whileนั่นเอง โครงสร้างของมันก็เรียบง่ายประมาณนั้น สิ่งที่เราควรทำความเข้าใจจากตรงนี้คือ สุดท้ายแล้วมันเป็นการต่อสู้กันที่ว่าเราจะทำให้มันเป็นระบบได้หรือไม่ ผมคิดว่าเรื่องการทำงานอัตโนมัติก็เป็นกระบวนการที่ต้องดึง intent ออกมาให้แม่น แยก task โดยไม่ทำแบบขอไปทีแต่ต้องทำอย่างถูกต้อง จากนั้นก็ลงมือทำอย่างแม่นยำเพื่อให้ได้ผลลัพธ์ที่สมบูรณ์โดยไม่มีข้อผิดพลาด หรือถ้าทำไม่ได้ก็ต้องระบุให้ได้ว่าควรดำเนินการส่วนไหนแต่จุดที่ผมเห็นด้วยก็คือ งานทั้งหมดนั้นแน่นอนว่าคงจะดีถ้าทำได้ด้วยการ "คลิกเดียว" แต่สิ่งที่คุณน่าจะรู้สึกระหว่างทำก็คือ มันไม่ได้เป็นแบบนั้นเลย และกลับให้ความรู้สึกว่าต้องตั้งค่าอะไรต่าง ๆ มากกว่าการเขียนโค้ดเสียอีก ซึ่งดูเหมือนจะเป็นปัญหาของสถานการณ์ปัจจุบัน และตัวบริการเองโดยทั่วไปก็ยังไม่ได้ให้ประสบการณ์ที่รู้สึกถึงความเปลี่ยนแปลงชัดเจนด้วย
แต่สิ่งหนึ่งที่ผมรู้สึกได้อย่างชัดเจนคือ คนส่วนใหญ่ทำ documentation ได้ไม่ค่อยดีนัก เพราะจัดระเบียบข้อมูลไม่เก่ง จึงทำให้การสร้างอะไรให้เป็นระบบทำได้ยาก และด้วยเหตุนี้ผมจึงเห็นอยู่บ่อยครั้งว่าหลายคนลำบากมากกับการทำงานแนวนี้ อีกอย่าง AI เองก็ไม่ได้สมบูรณ์แบบด้วย ในแง่นั้นผมกลับมองว่านี่เป็นโอกาส ผมคิดว่าระหว่างคนที่ทำงานแบบนี้ต่อเนื่องกับคนที่ไม่ได้ทำ จะเกิดความแตกต่างกันค่อนข้างมาก คนที่มีภูมิต้านทานจะปรับตัวได้เร็ว ส่วนคนที่ด้วยเหตุผลต่าง ๆ ยังทำแบบนั้นไม่ได้ก็คงจะช้าลงไปอีกและถูกความกลัวครอบงำ แต่จริง ๆ แล้วอย่างที่ผู้เขียนบอก นี่ไม่ใช่เรื่องที่ควรต้องรู้สึก "หวาดกลัว" เลยไม่ใช่หรือ? การมองแบบนั้นต่างหากน่าจะเป็นทิศทางที่ดีกว่า
ประเด็นของผมคือ
while loopนั้นเป็นการฝืนใช้งานตั้งแต่แรกแต่เดิมสิ่งนี้เกิดขึ้นเพราะ LLM ไม่เก่งกับงานแบบ agentic task จึงจบการทำงานก่อนเวลาอันควร (คืนค่า EOS token)
ถ้ามีโมเดลที่เข้าใกล้ AGI ขั้นสุดยอดจริง ๆ ก็คงไม่มีเหตุผลต้องใช้ while loop แล้ว
ความสามารถของผมในการเขียน documentation อาจยังไม่ดีพอ แต่ Garry Tan หรือ Peter Steinberger คงไม่ใช่แบบนั้น
ถ้านั่นเป็นปัญหาที่เกิดจาก LLM ทำงานได้ไม่ถูกต้องจริง ก็แค่แสดงเดโม best practice ที่สามารถทำซ้ำได้อย่างน่าเชื่อถือให้ดู
แต่ผมไม่เคยเห็นอะไรแบบนั้นเลยแม้แต่ครั้งเดียว
ผมก็เห็นด้วยกับความเห็นของผู้เขียนเช่นกัน
ดูเหมือนว่ายังมีส่วนที่ทำให้เกิดการบิดเบือนอยู่บ้าง จากมิติด้านประสบการณ์ที่ทำให้ผู้คนรับรู้ว่า LLM เป็นระบบที่สามารถแชตและสื่อสารโต้ตอบได้
ขอบคุณสำหรับความเห็นดี ๆ ครับ
ถ้าอย่างนั้น ไม่ทราบว่าควรมี best practice demo แบบไหนหรือครับ?
อยากขอความเห็นว่าหากงานลักษณะใดถูกนำไปใช้งานอย่างไร จึงจะสามารถตัดสินได้ว่า Ralph loop เป็นภาพลวงตาหรือไม่ครับ
การเอา Ralph Loop มาหมุนด้วย PRD ที่เกือบสมบูรณ์แบบเพียงฉบับเดียว แล้วพัฒนาให้เสร็จจนถึงระดับพร้อมใช้งานจริงได้นั่นแหละครับ
ทำให้ดูยังไงก็ไม่เหมือน AI Sloop
อ๋อ ถ้าอย่างนั้นถ้ามี PRD ที่เกือบสมบูรณ์แบบหนึ่งฉบับ แล้วเอาไปหมุน Ralph Loop จะสามารถสร้างผลิตภัณฑ์ได้ประมาณระดับไหนครับ?
จะทำ AI แชตของ Channel Talk ได้ไหมครับ?
แล้วก็มีอีกเรื่องที่อยากถามครับ
สงสัยว่าถ้าตั้งค่าอะไรที่เรียกว่า harness แล้วดำเนินการต่อ จะได้ไหมครับ
ครับ ไม่ว่าจะเป็น harness, multi-agent หรือ sub-agent ก็ไม่สำคัญครับ
ขอบคุณสำหรับความคิดเห็น!
จริงด้วยครับ น่าจะดีถ้ามีตัวอย่างแบบนี้ 555
พูดตามตรง ผมรู้สึกว่าสิ่งที่น่าเสียดายในบทความนี้ ไม่ใช่แค่การตั้งประเด็นปัญหาเอง แต่เป็นวิธีการคลี่คลายข้อถกเถียงมากกว่า
คำพูดอย่าง “ปริมาณการใช้โทเคนคือความสามารถ”, “มี PRD ที่ทำมาดีฉบับเดียว AI ก็จัดการทุกอย่างได้หมด” เป็นข้ออ้างที่หนักแน่นมาก แต่กลับแทบไม่เห็นเลยว่าใครพูด ที่ไหน และในบริบทแบบใด ดังนั้นในมุมของผู้อ่าน มันจึงดูเหมือนไม่ได้กำลังวิจารณ์กระแสที่เกิดขึ้นจริงเสียทีเดียว แต่เหมือนนำข้ออ้างสุดโต่งไม่กี่อย่างที่ความเป็นตัวแทนยังไม่ชัดเจนมามัดรวมแล้วโต้แย้ง แบบตรรกะหุ่นไล่กาเสียมากกว่า
โดยเฉพาะคนที่ทำเครื่องมือจริงและขัดเกลาเวิร์กโฟลว์อยู่จริง รวมถึงสาย om ด้วย ผมแทบไม่เคยเห็นพวกเขาพูดในทำนองว่า “มี PRD ฉบับเดียวก็แก้ได้หมด” เลย ตรงกันข้าม พวกเขากลับปล่อยรีลีส แก้ไข และตรวจสอบซ้ำอย่างต่อเนื่อง ซึ่งตัวมันเองก็สะท้อนว่าท้ายที่สุดแล้ว ทุกอย่างยังตั้งอยู่บนสมมติฐานว่าการตัดสินใจและการแทรกแซงของมนุษย์ยังจำเป็นอยู่
เพราะอย่างนั้น สิ่งที่ต้องระวังมากกว่าคือ ถ้าการบรรยายแบบนี้ถูกอ่านผิด ก็อาจทำให้ดูราวกับว่าบิลเดอร์หรือดีเวลลอปเปอร์บางคนพูดสิ่งที่จริง ๆ แล้วพวกเขาไม่ได้พูดเลย วิธีแบบนั้นผมมองว่าใกล้เคียงกับการตั้งกรอบที่เกินจริงไว้ก่อนแล้วค่อยโจมตี มากกว่าจะเป็นการวิจารณ์อย่างสร้างสรรค์
เรื่องปริมาณการใช้โทเคนก็เหมือนกัน มันไม่ใช่ตัวชี้วัดความสามารถแบบสัมบูรณ์ แต่ก็พูดได้ยากเหมือนกันว่ามันเป็นตัวเลขที่ไร้ความหมายโดยสิ้นเชิง ถ้าความต่างของปริมาณการใช้ห่างกันมาก นั่นอาจไม่ใช่แค่ความสิ้นเปลือง แต่เป็นความต่างของปริมาณการสำรวจ การทดลอง และการตรวจสอบ และอาจต่อยอดไปเป็นความต่างของความหนาแน่นของงานจริงได้ด้วย จริง ๆ แล้ว Jensen Huang เองก็เคยพูดว่าควรใช้โทเคนให้มากกว่าครึ่งหนึ่งของเงินเดือนด้วยซ้ำ
https://www.youtube.com/shorts/XBnFPuru4xA
PRD ที่ดีก็เช่นกัน มันไม่ใช่ของวิเศษสารพัดนึก แต่เป็นคันโยกเพิ่มแรง ท้ายที่สุดแล้ว สิ่งสำคัญจึงไม่ใช่กรอบง่าย ๆ ว่า “โทเคนคือความสามารถหรือไม่” แต่คือจากนี้ไปเราจะมองความสามารถในการแก้ปัญหาโดยใช้ AI ด้วยเกณฑ์แบบใดต่างหาก
ฉันเห็นด้วยกับข้อความที่คุณเขียนอย่างยิ่ง
จริง ๆ แล้วแนวคิดที่ว่า “ปริมาณการใช้โทเคนเท่ากับความสามารถ” นั้นผิดอย่างชัดเจน และเป็นกรอบความคิดที่บิดเบือน
แต่ควรมองว่า เมื่อถึงจุดที่ตระหนักว่าข้อจำกัดของทรัพยากรการประมวลผล (รวมถึงมนุษย์) คือคอขวดเพียงอย่างเดียว
เราจึงจะได้ตระหนักถึงความสำคัญของปริมาณการใช้โทเคน
ผมพอจะรู้ว่ากลุ่มที่อ้างแบบนั้นคือที่ไหน แต่ถ้าระบุชัดเจนอาจมีปัญหาทางกฎหมาย เลยไม่ได้เอ่ยถึงโดยเจาะจง
ในบรรดาบริษัทดัง ๆ ก็มีบริษัทที่ถึงขั้นวัดปริมาณการใช้ token และก็มีคนที่พูดถึงแบบไม่เปิดเผยตัวอยู่ด้านล่างด้วย
ใน GeekNews เองก็เห็นโพสต์ที่พูดราวกับอวดปริมาณการใช้โทเค็นของตัวเองเหมือนกัน
คนที่อ้างแบบนี้ไม่ได้มีเป็นคนส่วนใหญ่
แต่ในฝั่ง AI ของเกาหลีมีคนสายมนุษยศาสตร์ที่ค่อนข้างเสียงดังอยู่บางส่วนที่พูดแบบนี้ และการที่ Garry Tan ออกมาวิจารณ์ fat harness ต่อเนื่องในช่วงไม่กี่วันนี้ ก็น่าจะเป็นหลักฐานว่าคำกล่าวอ้างกึ่งศาสนาแบบนั้นของฝั่งเกาหลีลามไปถึงอเมริกาแล้ว
การยกคำพูดของ Jensen Huang มาพูดราวกับเป็นความจริงนี่แหละคือวาทศิลป์แบบยึดอำนาจนิยมอย่าง典型
Jensen Huang เมื่อหลายสิบปีก่อนอาจเป็นวิศวกรที่ทำการ์ดจอ แต่ตอนนี้ก็ไม่ใช่วิศวกรแล้ว และก็ไม่ใช่ผู้เชี่ยวชาญด้าน AI ด้วยไม่ใช่หรือครับ
เรื่องความสัมพันธ์เชิงสหสัมพันธ์ผมเห็นด้วย แต่ข้ออ้างของกลุ่มที่ผมพูดถึงนั้นมีแต่จะหมุน Ralph ที่ไร้ประโยชน์ไปเรื่อย ๆ เท่านั้น
พูดกันตามตรง แม้แต่ในต้นฉบับงานวิจัย o1 ของ OpenAI ที่เป็นฝ่ายเสนอ test-time compute ขึ้นมาก่อน ก็ยังพูดไว้อย่างชัดเจนว่าการเพิ่มมันต่อเนื่องไม่ได้ทำให้ดีขึ้นเสมอไป หรือบางกรณีเท่านั้นที่เป็นแบบนั้น
และถึงอย่างนั้น สิ่งที่เขาพูดก็เป็นเรื่องของ reasoning effort ไม่ใช่การบอกให้ไปหมุน ralph loop อยู่แล้ว
ในคู่มือพรอมป์ต์ของ GPT-5.4 ก็ระบุชัดว่าการใช้ reasoning effort ที่สูงกว่าไม่ได้ดีกว่าเสมอไป
https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance
ไม่เพียงเท่านั้น ฝั่งงานออกแบบยังแนะนำให้ลด reasoning effort ลงด้วยซ้ำ
https://developers.openai.com/blog/…
ที่ผมพูดก็เพราะมีคนที่อ้างว่า PRD เป็นของสารพัดประโยชน์ ทั้งที่จริงมันไม่ได้เป็นแบบนั้นครับ
หัวข้อถามอย่างชัดเจนว่าคิดอย่างไรกับภาพลวงที่เรียกว่า Ralph loop แต่ตัวบทความกลับไม่ได้พูดถึงประเด็นนั้นอย่างเป็นรูปธรรม กลับกระจายไปสู่เรื่องเล่าที่กว้างกว่าและอยู่คนละบริบทมาก ทำให้ผมรู้สึกว่าเนื้อหาทั้งหมดไม่ได้สอดรับกับชื่อเรื่องเท่าไรนัก
ดังนั้น สิ่งที่ผมพูดจึงไม่ใช่การไปตัดสินว่า “คนแบบนั้นมีอยู่จริงหรือไม่” แต่เป็นการชี้ว่าตัวบทความวางโครงสร้างแบบนำข้ออ้างสุดโต่งที่ไม่ชัดเจนทั้งแหล่งที่มาและบริบทมามัดรวมกันแล้วโต้แย้ง จึงอ่านแล้วคล้ายการวิจารณ์หุ่นฟาง
แต่คำตอบต่อคอมเมนต์ของผมเองก็เช่นกัน แทนที่จะอธิบายจุดนั้นโดยตรง กลับไหลไปในลักษณะที่ดึงบุคคลอื่น วาทกรรมอื่น และกรณีอื่น ๆ เข้ามาเรื่อย ๆ ซึ่งพูดตรง ๆ ว่าทำให้รู้สึกว่าใกล้เคียงกับการเบี่ยงประเด็นมากกว่า
โดยเฉพาะอย่างยิ่ง ในเมื่อคุณวิจารณ์การยกคำพูดของคนดังว่าเป็นวิธีพูดแบบอิงอำนาจ แต่ในคำตอบกลับนำ Garry Tan, เอกสารของ OpenAI และคู่มือ GPT มาใช้อ้างอิงอีก ก็เลยดูค่อนข้างเลือกใช้หลักเกณฑ์เป็นบางกรณี
ผมคิดว่าความรู้สึกไม่สบายใจกับวัฒนธรรมการอวดการใช้โทเคนเกินพอดอนั้นเข้าใจได้ แต่แยกจากเรื่องนั้น การเหมารวมคนที่ลงมือทดลอง ตรวจสอบ และปรับแก้ซ้ำ ๆ จริง ๆ พร้อมทั้งค่อย ๆ ขัดเกลาเครื่องมือและเวิร์กโฟลว์ของตัวเอง ให้เข้าไปอยู่ในกรอบเดียวกันด้วย ก็เป็นการพูดเกินจริงอีกรูปแบบหนึ่งเหมือนกัน
คุณตัดสินบทความจากแค่พาดหัวหรือครับ?
ถ้าอย่างนั้นคุณคิดอย่างไรกับบทความวิจัย "Attention Is All You Need"?
ช่วงหลัง Garry Tan แสดงให้เห็นถึงความสามารถในการใช้ AI ของตัวเองผ่านการสร้าง LLM skills ที่ดีอย่าง GStack และอื่นๆ
ผู้ก่อตั้ง OpenClaw ก็เช่นกัน และ OpenAI ก็คือคู่มืออย่างเป็นทางการของบริษัทที่เป็นผู้นำทั้งงานวิจัยและอุตสาหกรรม LLM
แล้วในทางกลับกัน Jensen Huang ล่ะ? อย่าถึงกับบอกว่าการเป็นผู้บริหารบริษัทที่ขายพลั่ว แปลว่าจะรู้เรื่องทองดีไปด้วยเลยครับ
ตั้งแต่แรกแล้ว Jensen Huang เองก็แค่พูดตามสิ่งที่คนอื่นพูดเท่านั้น
ถ้านี่ถือว่าเป็นการทำให้ประเด็นไขว้เขว ก็ไม่มีอะไรจะพูดครับ
ผมนี่แหละคือคนที่คอยขัดเกลาเครื่องมือและเวิร์กโฟลว์ คุณกำลังบอกว่าผมดิสตัวเองอยู่เหรอครับ?
ผมไม่ได้ตัดสินจากแค่พาดหัว แต่กำลังพูดถึงว่าพาดหัวกับเนื้อหาสอดคล้องกันมากน้อยแค่ไหน
และสิ่งที่ผมพูดก็ไม่ใช่ประเด็นว่า Garry Tan หรือ OpenAI มีอำนาจความน่าเชื่อถือมากกว่า Jensen Huang หรือไม่ แต่คือในเมื่อวิจารณ์ว่าการอ้างคำพูดของคนอื่นเป็นลักษณะนิยมอำนาจ กลับมาคำตอบของตัวเองก็หยิบเอาอำนาจความน่าเชื่อถืออื่นมาเป็นเหตุผลอีก แบบนี้มันดูไม่ค่อยสอดคล้องกัน
สุดท้ายนี้ คำว่า “เอาแม้แต่คนที่คอยขัดเกลาเครื่องมือและเวิร์กโฟลว์ไปใส่ไว้ในกรอบเดียวกัน” ไม่ได้เป็นการชี้ไปที่บุคคลใดบุคคลหนึ่ง แต่หมายถึงว่าวิธีการบรรยายในบทความอาจทำให้คนอ่านตีความแบบนั้นได้ การรับไปเป็น “คุณกำลังบอกว่าเป็นการดิสตัวเองเหรอ” ทันที ดูจะเป็นการตีความที่เลยขอบเขตของคอมเมนต์ผมไปเล็กน้อยครับ
และหากคุณมองว่าหัวข้อกับเนื้อหาอาจไม่ตรงกัน ผมก็อยากทราบว่าบทความนี้ควรตีความว่าไม่ได้เป็นการวิเคราะห์ตัว Ralph loop เอง แต่เป็นบทความที่มุ่งเป้าไปยังกลุ่มคนเฉพาะที่คุณกล่าวถึงโดยรวม ใช่หรือไม่ครับ
ก็เพราะอ้างคำพูดของคนที่ไม่ได้เป็นผู้เชี่ยวชาญด้าน AI/LLM อย่างจักรพรรดิเจนซึงนี่ครับ
ใช่ครับ เป็นโพสต์ที่เจาะจงถึงคนบางกลุ่มจริง
ในนั้นผมก็พูดถึง PRD + Ralph loop ซึ่งเป็นตัวอย่างที่เด่นที่สุดและพูดอะไรประหลาดที่สุด
ไม่ทราบว่าเพราะคุณไม่รู้ว่ามีกลุ่มแบบนั้นอยู่ หรือจริง ๆ คุณเองก็อยู่ในกลุ่มนั้นเลยแกล้งทำเป็นไม่รู้กันแน่
การที่ทั้งในและต่างประเทศวิจารณ์กลุ่มแบบนั้นกันอยู่เรื่อย ๆ มันมีเหตุผลของมัน
ไม่มีไฟก็ไม่มีควันหรอกครับ
และโดยส่วนตัว ผมค่อนข้างรู้สึกเสียดายกับบทความนี้ครับ
ที่ผ่านมาผมรู้สึกว่า GeekNews เป็นพื้นที่ที่ดีเพราะได้เจอบทความที่ให้ข้อมูลที่ผมไม่เคยรู้มาก่อน มุมมองใหม่ ๆ และช่วยขยายกรอบความคิด มากกว่าบทความที่มุ่งเป้าไปที่ใครบางคนหรือกลุ่มใดกลุ่มหนึ่งโดยเฉพาะ
ดังนั้น รูปแบบการเล่าในครั้งนี้ที่ดำเนินไปโดยตั้งสมมติฐานถึงคนบางกลุ่มไว้ล่วงหน้า จึงยิ่งทำให้อ่านแล้วรู้สึกเสียดายมากขึ้น
อย่างน้อยสำหรับผม GeekNews ไม่ได้เป็นพื้นที่สำหรับจับใครมาใส่กรอบแล้วมุ่งเป้าโจมตี แต่ใกล้เคียงกับการเป็นที่ที่ช่วยให้เราเปิดความคิดกว้างขึ้นผ่านข้อมูลและบริบทที่เฉพาะเจาะจงมากกว่า เพราะแบบนั้น สำหรับบทความนี้ สิ่งที่ทำให้ผมรู้สึกเสียดายมากกว่าตัวข้ออ้างของมัน คือวิธีการที่ใช้ในการนำเสนอข้ออ้างนั้น ขอกล่าวไว้เพียงเท่านี้ครับ
ผมพูดเรื่องนี้ไปกี่ครั้งแล้วนะ
จากมุมมองของผม การพุ่งเป้าไปที่กลุ่มหรือบุคคลใดโดยตรงเป็นเรื่องที่ไม่ดีนัก
CEO ของ YC และผู้ก่อตั้ง OpenClaw เป็นคนที่พิสูจน์ด้วยตัวเองแล้วว่าสมควรถูกเรียกว่าเป็นผู้เชี่ยวชาญด้าน AI
ต่างจาก Jensen Huang
ผมไม่เคยบอกว่า PRD เป็นภาพลวงตา กรุณาดูบริบทด้วย
ตอนนี้ที่ข้ออ้างแบบภาพลวงตาเช่นนี้ขยายใหญ่ขึ้น มันไม่ใช่แค่ความโกรธส่วนตัวของผมเท่านั้น แต่เป็นเรื่องที่เกี่ยวข้องกับ AI ของเกาหลีใต้ ไปจนถึงความก้าวหน้าของมนุษยชาติ
ก่อนที่คนพวกนี้จะเติบโตมากกว่านี้และมีอิทธิพลไปอีกด้านหนึ่ง เราไม่ควรต้องแก้ไขการเล่นแร่แปรธาตุนี้ให้ถูกต้องเสียก่อนหรือ?
ถ้าไม่ใช่ตัวคุณเองก็แค่ปล่อยมันผ่านไปก็ได้
ในคอมเมนต์อื่นของโพสต์นี้ก็มีทั้งคนที่เห็นด้วย และคนจากกลุ่มที่ผมพูดถึงก็มารุมโจมตีผมแล้ว
และขอเสริมอีกอย่างว่า ถ้อยคำอย่าง “AI ของเกาหลีใต้”, “ความก้าวหน้าของมนุษยชาติ”, “ต้องแก้ไขวิชาเล่นแร่แปรธาตุให้ถูกต้อง” ให้ความรู้สึกว่ามีกรอบเหตุผลขนาดใหญ่ถูกยกนำมาก่อนพอสมควร ผมคิดว่าการมีความตระหนักต่อปัญหาแบบนั้นก็เป็นไปได้อยู่ อย่างไรก็ตาม เรื่องในระดับนั้น หากไม่ได้ใช้วิธีเหมารวมคนบางกลุ่มในคอมมูนิตี้เพื่อวิจารณ์ แต่แสดงกรณีจริง งานจริง หรือเกณฑ์การตรวจสอบที่เป็นรูปธรรมกว่านี้ไปพร้อมกัน ผมรู้สึกว่ามันจะสื่อสารได้อย่างน่าเชื่อถือกว่ามาก
นอกจากนี้ ในเมื่อคุณรับคำพูดของ CEO ของ YC หรือผู้ก่อตั้ง OpenClaw ว่าเป็นหลักฐานที่มีความหมาย แต่กลับปฏิบัติต่อการอ้างอิงคำพูดของ Jensen Huang เพียงอย่างเดียวราวกับเป็นแนวคิดแบบยึดอำนาจบุคคล สำหรับผมมันดูไม่สอดคล้องกันนัก ท้ายที่สุดมันอ่านออกมาราวกับว่าเกณฑ์ในการตัดสินว่าคำพูดของใครนับเป็นหลักฐาน และคำพูดของใครกลายเป็นสิ่งไร้ความหมาย เปลี่ยนไปตามตัวผู้พูด มากกว่าตามตัวข้ออ้างเอง คำพูดของ Jensen Huang อาจไม่ใช่หลักฐานชี้ขาดก็ได้ แต่ถึงอย่างนั้น การปฏิบัติต่อเฉพาะคำอ้างนั้นราวกับเป็นคำพูดไร้ค่า ก็ดูเป็นการตีความที่แรงเกินไปเล็กน้อยสำหรับผม
สุดท้ายแล้ว หากต้องการให้ข้ออ้างแบบนั้นเข้าถึงคนอื่นได้ด้วย ผมคิดว่าควรมีการนำเสนอตัวอย่างหรือผลงานที่ผู้คนสามารถอ้างอิงและตรวจสอบได้ด้วยตนเองควบคู่กันไป มากกว่าการวิจารณ์ซ้ำ ๆ อย่างเดียว แบบนั้นสิ่งที่คุณกำลังพูดอยู่ตอนนี้จึงจะถูกอ่านว่าไม่ใช่เพียงความไม่ชอบส่วนตัว แต่เป็นการตั้งปัญหาที่มีน้ำหนักน่าเชื่อถือจริง ๆ หากมีผลงานลักษณะนั้นอยู่ ตอนนั้นผมก็จะลองอ่านอย่างจริงจังดูสักครั้ง และถ้าจำเป็นก็จะลองใช้งานด้วยตัวเองครับ
เลิกพูดซ้ำความเดิมเถอะครับ คุณกำลังบอกว่าผมพูดในสิ่งที่ผมไม่ได้พูด และยังตั้งข้อสงสัยกับประเด็นที่ผมโต้แย้งไปแล้วอีก
พูดตามตรง ยิ่งได้อ่านทั้งโพสต์และคำตอบในตอนนี้ ผมยิ่งรู้สึกว่านี่ไม่ใช่บทความที่เขียนเพื่อให้ข้อมูลหรือวิเคราะห์เท่าไรนัก แต่เหมือนเป็นงานเขียนที่มีอารมณ์อยากตำหนิกระแสบางอย่างนำหน้าอยู่มากกว่า
ถ้าคุณต้องการวิจารณ์อย่างแม่นยำจริง ๆ ผมคิดว่าน่าจะยกมาให้ชัดกว่านี้ว่ามีโพสต์อะไรอยู่ในคอมมูนิตี้จริง ใครพูดอะไร และพูดในบริบทไหนบ้าง แต่แทนที่จะยกตัวอย่างที่เป็นรูปธรรม กลับเริ่มจากการเหมารวมด้วยคำใหญ่ ๆ อย่าง “วงการนักพัฒนาเกาหลี”, “คนกลุ่มนั้น”, “การพูดเกินจริงแบบคล้ายศาสนา” ทำให้ในฐานะผู้อ่าน สิ่งที่ติดอยู่แรงกว่าข้ออ้างจริง ๆ กลับเป็นภาพชวนให้นึกและกรอบการมองมากกว่า
โดยเฉพาะการโยนถ้อยคำที่ชวนให้นึกถึงสาย
omไว้แบบนั้น แต่ขณะเดียวกันก็พูดว่าไม่ได้เจาะจงกลุ่มหรือบุคคลใดโดยตรง วิธีแบบนี้เลยทำให้อ่านแล้วรู้สึกว่าไม่ใช่บทความเชิงข้อมูล แต่เป็นความรู้สึกอยากตำหนิใครบางคนในวงกว้างมากกว่ายิ่งไปกว่านั้น การพูดกับคนที่เข้ามาตอบโต้ในทำนองว่า “ถ้าไม่ใช่ตัวเองก็เลื่อนผ่านไปได้เลย”, “ไม่ก็เป็นคนที่เห็นด้วยหรือเป็นคนจากกลุ่มที่ผมพูดถึงซึ่งเข้ามาโจมตี” ก็ให้ความรู้สึกใกล้เคียงกับการตีตรามากกว่าการถกเถียงอยู่ดี ตั้งแต่แรกเมื่อเปิดโพสต์ด้วยกรอบที่แรงขนาดนั้น การเกิดแรงต้านหรือความเห็นต่างก็เป็นเรื่องธรรมดาอยู่แล้ว แต่ถ้านำปฏิกิริยาเหล่านั้นกลับไปตีความโดยจับรวมเป็นคนบางกลุ่มอีก สุดท้ายไม่ว่าคำโต้แย้งแบบไหนก็จะถูกดูดกลืนเข้าไปอยู่ในกรอบนั้นทั้งหมด
ผมคิดว่าวิธีแบบนั้นต่างหากที่ไม่ได้ใกล้กับรูปแบบของงานเขียนที่แบ่งปันข้อมูลและบริบท แต่ใกล้กับรูปแบบที่สร้างความขัดแย้งแบบฉบับคอมมูนิตี้มากกว่า และพูดตามตรง ถ้าเป็นงานเขียนในลักษณะนั้น แม้อาจจะคุ้นตาในพื้นที่อย่าง X หรือ Threads อย่างน้อยก็ยังดูห่างจากบรรยากาศของ GeekNews ที่ผมคาดหวังไว้ จึงยิ่งน่าเสียดายมากขึ้น
สำหรับผม GeekNews ไม่ได้เป็นที่สำหรับเหมารวมคนอื่นแล้วตำหนิอย่างกว้าง ๆ แต่ใกล้เคียงกับพื้นที่ที่ใช้แบ่งปันสิ่งที่ลงมือทำจริง ข้อมูลที่เป็นรูปธรรม และบริบทที่ช่วยเปิดมุมคิดให้กว้างขึ้นมากกว่า เพราะแบบนั้น โพสต์นี้จึงทิ้งความน่าเสียดายไว้กับผมมากกว่าที่ตัวข้ออ้างเสียอีก โดยเฉพาะในวิธีที่มันเลือกจะนำเสนอเรื่องนี้
ถ้าอย่างนั้น สุดท้ายบทความนี้ก็ดูจะเข้าใจได้ว่าไม่ใช่บทความที่วิเคราะห์ Ralph loop เองโดยตรง แต่เป็นบทความที่มุ่งไปยังกลุ่มบางกลุ่มโดยรวมตามที่คุณกล่าวถึง
อย่างไรก็ตาม ผมคิดว่ายิ่งเป็นบทความลักษณะนั้น การกำหนดกลุ่มเป้าหมายก็ยิ่งต้องเข้มงวดมากขึ้น การใช้ถ้อยคำอย่าง “มีกลุ่มแบบนั้นอยู่” หรือ “ถูกวิจารณ์อย่างต่อเนื่องทั้งในและต่างประเทศ” เพียงเท่านี้ ทำให้แยกได้ไม่ชัดระหว่างข้ออ้างจริงกับกรอบที่ขยายเกินจริง และสุดท้ายก็มีแนวโน้มจะถูกอ่านว่าเป็นการจับคนและบริบทที่ต่างกันมามัดรวมกันเสียมากกว่า ตัวเกณฑ์ว่าเป็น “กลุ่มเฉพาะ” เองก็เป็นกรอบที่แรงอยู่แล้ว ดังนั้นคำตอบในลักษณะเอาอีกฝ่ายใส่เข้าไปในกรอบนั้นทั้งที่เส้นแบ่งยังไม่ชัดเจน ผมมองว่าไม่ได้ทำให้การถกเถียงละเอียดขึ้น แต่กลับทำให้มันหยาบขึ้นมากกว่า
และในขณะที่ยังหยิบคำพูดและกรณีของคนอื่นมาเป็นหลักฐานอยู่เรื่อย ๆ การปฏิบัติต่อการอ้างถึง Jensen Huang ว่าเป็นเพียงการอ้างอำนาจอยู่ฝ่ายเดียว ก็ไม่ได้ให้ความรู้สึกว่ามีความสม่ำเสมอนัก ทั้งผู้ก่อตั้ง OpenClaw และ CEO ของ YC ต่างก็เป็นบุคคลที่มีบริบทและน้ำหนักในแบบของตัวเอง หากการอ้างคำพูดของฝ่ายหนึ่งถือเป็นหลักฐานที่ชอบธรรม แต่ของอีกฝ่ายกลับกลายเป็นสิ่งไร้ความหมายในทันที สุดท้ายมันก็ย่อมดูเหมือนว่าเกณฑ์ตัดสินเปลี่ยนไปตามผู้พูดมากกว่าตัวข้ออ้างเอง อันที่จริง คนเหล่านั้นเองก็น่าจะกำลังทดลองอยู่บนพื้นฐานของทรัพยากรคำนวณและปริมาณการใช้งานไม่น้อยเช่นกัน ดังนั้นถ้าฝั่งหนึ่งถูกอ่านว่าเป็นหลักฐานของความสามารถ แต่อีกฝั่งถูกอ่านว่าเป็นสัญลักษณ์ของภาพลวงตา ผมคิดว่าเกณฑ์ที่ใช้แบ่งแยกตรงนั้นควรชัดเจนกว่านี้ก่อน
PRD เองก็ไม่ใช่เครื่องมือสารพัดนึก แต่ถึงอย่างนั้น หากผลักแม้แต่บทบาทของมันให้กลายเป็นภาพลวงตาไปด้วย ก็จะไม่ค่อยสอดคล้องกับกระบวนการพัฒนาจริงที่ต้องปล่อยรุ่น ตรวจสอบ และแก้ไขซ้ำ ๆ ได้ดีนัก วัฒนธรรมที่ชวนอึดอัดอาจมีอยู่จริง แต่ผมไม่คิดว่าความไม่ชอบนั้นจะกลายเป็นเหตุผลสำหรับการเหมารวมในวงกว้างได้เลย ขอจบเพียงเท่านี้ครับ
ผมคิดว่าสิ่งอย่าง
oh-my-whateverรวมถึงพวก token leaderboard ทั้งหลายนั้นล้วนเป็น noise เพื่อการตลาดทั้งหมดแทนที่จะทำ harness แล้วได้อะไรที่มีประโยชน์จริง ๆ กลับมีสัดส่วนสูงกว่าที่จะได้แค่ harness ที่ซับซ้อนขึ้นและถูกปรับให้เหมาะกับการเผาโทเคนมากขึ้น ซึ่งสิ่งแบบนั้นกลับมองเห็นได้ชัดที่สุดและเหมาะกับการเรียกความสนใจระยะสั้นที่สุด เลยดูเหมือนจะมีคนจำนวนมากที่คลั่งไคล้มัน
ผมก็เห็นว่ามีคนพูดกันว่าการปรับตัวเข้ากับเรื่องแบบนี้ไม่ได้คือ mindset ของ loser พอดี และก็มีข้ออ้างด้วยว่าเพราะแบบนี้เกาหลีถึงเร็ว ส่วน SF ถึงช้า
แต่สุดท้ายแล้วไม่ว่าจะ Ralph Loop หรือ harness อะไรต่าง ๆ พวกนี้ก็น่าจะถูกดูดซึมเข้าไปเป็นความสามารถภายในของโมเดลทั้งหมด และเมื่อถึงตอนนั้น การที่ AI แก้ปัญหาให้ได้ด้วย PRD ที่เขียนมาดีเพียงฉบับเดียว ก็คงไม่ใช่เรื่องโอ้อวดเกินจริง
แต่การเอาแต่บิดใช้ harness ทุกทางในตอนนี้ แล้วแพ็กเกจให้ดูเหมือนทำอะไรยิ่งใหญ่ได้ ก่อนจะรีดใช้ซ้ำไปเรื่อย ๆ นั้น ผมมองว่าแทบไม่ต่างอะไรจากพวกติดเกมคลิกเกอร์แนว number go up เลย
https://x.com/WillManidis/status/2021655191901155534 ผ่านมาสักพักแล้ว แต่โพสต์นี้ก็อยู่ในบริบทคล้าย ๆ กันครับ
การได้รับความนิยมมาก อาจหมายความว่ามันใกล้เคียงกับค่าเฉลี่ยมากเท่านั้นไม่ใช่หรือครับ? ไม่ใช่ว่ามีระดับสูง แต่เป็นระดับธรรมดาที่น่าพอใจ.. แต่ถ้าสิ่งนี้รุนแรงขึ้น เครื่องมือก็จะเสื่อมความสำคัญลง ทุกวันนี้ก็ยังมีคนเถียงกันไม่จบว่าเป็น C หรือ Java กันแน่
ผมคิดว่าค่าเฉลี่ยจริง ๆ ยังห่างไกลจากทั้ง Ralph Loop และ Hannes มาก และน่าจะอยู่ประมาณระดับ vanilla
claude codeมากกว่า พูดตามตรง ถ้าขยายกลุ่มตัวอย่างให้กว้างขึ้นอีกหน่อย แค่เคยใช้ Claude Code มาก่อนก็น่าจะถือว่าสูงกว่าค่าเฉลี่ยแล้วถ้าสิ่งเหล่านี้ดูเหมือนค่าเฉลี่ย ก็แปลว่าการตลาดแบบ FOMO ของพวกเขาประสบความสำเร็จแล้ว
พวกคุณคิดอย่างไรกับภาพลวงตาที่เรียกว่า Ralph Loop?
ควรมองว่านี่คือการมาถึงของยุคนักเล่นแร่แปรธาตุยุคใหม่หรือไม่?
เห็นด้วยครับ
เห็นด้วยอย่างยิ่งครับ
ส่วนตัวผมคิดว่าเป็นแค่คนที่อยากจะเป็นอินฟลูเอนเซอร์แนวคล้าย ๆ กันในเกาหลีเท่านั้นเอง
ขอบคุณที่แชร์บทความดี ๆ ครับ
AI coding กับ HITL เองก็มีความชวนให้ติดเหมือนกันนะ
พอเห็นแบบนี้ก็ยิ่งรู้สึกเลยว่า มนุษย์น่าจะมีสัญชาตญาณที่ชอบสร้างอะไรบางอย่างอยู่จริง ๆ
อย่าพูดประชดเลย ถ้าไม่รู้ก็ลองไปค้นหาดูบ้าง
ใช้ OpenAI Codex เป็นส่วนขยาย Chrome
คำอธิบายและรีวิวการใช้งาน Copilot
Codex เมื่อ 5 ปีก่อนเหรอ...? แม้แต่ ChatGPT ก็เปิดตัวในปี 22 ดังนั้นก็ยังไม่ถึง 5 ปีเลย...
หรือว่าคุณเขียนเนื้อหา Ask GN ด้วย AI เลยมีอาการหลอนของ AI ปนเข้ามาด้วย?
ตัว Codex เองก็มีมานานแล้วนะครับ ผมเองก็จำได้ว่าเคยเห็นใน GeekNews แล้วสมัครพรีวิว GPT-3 เหมือนกัน
พอจะทราบได้ไหมว่า GPT-3 preview กับ Codex มีความเกี่ยวข้องกันอย่างไร?
หมายความว่าในตอนนั้นมี Codex อยู่แล้วใช่ไหมครับ? หรือหมายถึงว่ามี AI ที่เขียนโค้ดได้อยู่แล้ว และสิ่งนั้นก็คือ Codex ใช่ไหมครับ?
ในบรรดาไลน์อัปโมเดลเก่าที่ถูก deprecated ไปแล้ว มีตระกูล
code-davinci-*,code-cushman-*ซึ่งก็คือโมเดล Codex ครับ แบรนด์ Codex เองก็มีมานานมากแล้วhttps://www.youtube.com/watch?v=SGUCcjHTmGY
แน่นอนว่าชื่อ
codexไม่ได้เหมือนกัน และดูเหมือนว่าจะมีโมเดลสำหรับโค้ดอยู่จริงว้าว อันนี้ค่อนข้างน่าตกใจเลยนะครับ ผมเองก็เป็นคนที่ใช้มาตั้งแต่ยุค gpt-2, dall-e และ gym แต่เพิ่งเคยเห็นชื่อโมเดลว่า codex เป็นครั้งแรก ขอบคุณที่ช่วยบอกให้ทราบครับ!
ขอเสริมว่า codex เปิดตัวในเดือนพฤษภาคม 2025
555555555555555555555555
ก่อนจะแสดงให้เห็นว่าไม่รู้ ลองไปค้นใน Namu Wiki สักครั้งก่อนไหม?
อ้อ แล้วก็ ChatGPT Atlas บอกว่าผมสมัครมาได้ 1812 วันแล้วนะครับ
อ้อ งั้นก็หมายความว่า codex ในปัจจุบันกับ codex ในตอนนั้นเป็นผลิตภัณฑ์คนละรูปแบบกันสินะ
codex ในตอนนั้นเป็นชื่อโมเดล LLM ที่เน้นโค้ดของ OpenAI
แล้วก็นำแบรนด์เดียวกันมาใช้เปิดตัวแพลตฟอร์ม codex ในปัจจุบัน
ตอนนั้นผมเคยใช้ GitHub Copilot และรู้แค่ว่าโมเดลพื้นฐานคือ GPT-3
แต่ไม่รู้มาก่อนว่าเขาใช้แบรนด์ชื่อ codex เป็นชื่อโมเดล
Codex ไม่ใช่โมเดลนะครับ
อะไรอย่าง
GPT-5.3-Codexเพิ่งมาตั้งชื่อกันในช่วงหลังนี้เองมันคือชื่อของส่วนขยาย VSCode ที่เปิดให้ใช้โมเดลที่ fine-tune สำหรับงานเขียนโค้ดบนพื้นฐาน GPT-3
(ฝั่งเว็บไม่มีใครใช้)
และใน Github Copilot ก็เคยใช้โมเดลกับวิธีการแบบเดียวกันด้วย
ในตอนนั้นมันยังคุยโต้ตอบแบบมีความหมายไม่ได้ เลยพูดได้ตรงตัวว่ามันก็เหมือนการทำนายคำถัดไป
เพียงแต่ถ้าใส่โจทย์ Baekjoon เข้าไป มันจะเหมือนระบบ autocomplete ขั้นสุดที่เขียนฟังก์ชัน
solveให้ได้เท่านั้น(หมายความว่าสิ่งที่มีอยู่ใน Cursor นั้น OpenAI ทำก่อนแล้ว)
สิ่งที่คุณกล่าวถึงน่าจะเป็นส่วนขยายของ vscode ที่ใช้โมเดล codex (อันนี้หรือเปล่าครับ? https://github.com/Implicate-dev/codex-vscode)
ถ้าดูจากบทความที่ Mark Chen เขียนไว้ในปี 2021 ดูเหมือนว่า openai เคยเปิดเผยชื่อ codex ในฐานะชื่อของโมเดลที่ผ่านการ fine-tune แล้ว
ดูเหมือนจะใช่นะ แต่เก่าแล้วเลยจำรายละเอียดที่ถูกต้องไม่ได้
คุณคิดอย่างไรเกี่ยวกับภาพลวงตาที่เรียกว่า Ralph Loop?
https://www.youtube.com/watch?v=SGUCcjHTmGY
ผมจำได้ว่ารู้สึกแปลกใจหลังเห็นคนพูดกันในเว็บไซต์อเมริกัน ไม่ใช่เว็บเกาหลี ว่าการใช้โทเคนต้องสูงถึงจะดี ไม่ใช่แค่เกาหลี อเมริกาก็เหมือนกัน เต็มไปด้วยเรื่องแปลก ๆ ที่ยากจะเห็นด้วย เรื่องเล่าที่พูดเกินจริง และอะไรทำนองนั้นครับ
ในเกาหลีมีข้ออ้างลักษณะนี้ออกมาตั้งแต่เกือบครึ่งปีก่อนแล้ว ช่วงหลังมานี้ดูเหมือนว่าจะถูกพูดถึงกันอย่างหนักขึ้นมาก
และคนอย่าง Garry Tan ก็ออกมาปฏิเสธอย่างจริงจังว่าไม่ใช่ด้วย
เป็นเรื่องในบริบทที่ต่างออกไปเล็กน้อย แต่ผมคิดว่าการใช้โทเคนมากขึ้นเพื่อตรวจสอบบนฮาร์ดแวร์ที่ถูกกว่านั้นดีกว่าการใช้ Cloud API ราคาแพงแล้วพยายามประหยัดโทเคน
ด้วยการพัฒนาของเอเจนต์และฮาร์เนส ดูเหมือนว่าโครงสร้างที่มีความคุ้มค่าทางเศรษฐกิจและเอื้อให้มีการทบทวนกับตรวจสอบได้มากกว่า จะได้รับความนิยมมากกว่าโมเดลที่เน้นความแม่นยำและขนาด
โดยเฉพาะหลังจากการมาของ GDN และ Mamba ผมยิ่งคิดว่าเป็นเช่นนั้นครับ
โดยส่วนตัวแล้วผมเห็นด้วยได้ยากครับ
ในกรณีของ Opus แม้ว่าจะแพงเกินไป แต่ถ้าเป็นระดับราคาประมาณ GPT-5.4 การรัน 5.4 สักไม่กี่ครั้งก็น่าจะดีกว่าในหลายแง่มุมทางเศรษฐกิจ เมื่อเทียบกับการปล่อยให้โมเดลราคาถูกจากจีนรันทั้งวัน
ผมคิดว่าเหตุผลที่แม้แต่นักกีฬาอีสปอร์ตระดับโปรที่มีประสิทธิภาพในการเรียนรู้สูงที่สุดในโลกก็ยังมีสัดส่วนที่ล้มเหลวในการเรียนรู้สิ่งใหม่สูง ไม่ใช่เพียงเพราะฝีมือไม่พอ
ผมกลับคิดว่ามันตรงกันข้ามเสียมากกว่า
เพราะพวกเขาปรับตัวให้เหมาะกับเมตาเดิมมาเป็นเวลานานและอยู่ในระดับสูงมาก จึงมักเผชิญความยากลำบากมากขึ้นเมื่อเกิดการเปลี่ยนแปลง
ในช่วงแรก การตัดสินใจทุกอย่างเกิดขึ้นอย่างมีสติ
แต่เมื่อการฝึกซ้ำสะสมมากขึ้น การตัดสินใจที่เดิมประมวลผลในสมองใหญ่ก็จะค่อย ๆ ถูกทำให้เป็นอัตโนมัติ และผู้ชำนาญจะไปถึงขั้นที่ร่างกายตอบสนองก่อนความคิดเสียอีก
ผมคิดว่าความเป็นอัตโนมัตินี้เป็นจุดแข็งมหาศาลอย่างแน่นอน
แต่ทันทีที่เมตาเปลี่ยน จุดแข็งนั้นก็อาจกลายเป็นแรงเฉื่อยที่ทรงพลังแทนได้
การมองแผนที่ การเข้าปะทะ และสัญชาตญาณด้านการเล่นเกมที่เคยเป็นคำตอบที่ถูกต้องในเมตาเก่า จะถูกสลักไว้ในร่างกายผ่านเวลานับพันชั่วโมง
ดังนั้นแม้โครงสร้างของเกมจะเปลี่ยนไป และคำตอบเดิมจะไม่ใช่คำตอบอีกต่อไป ร่างกายก็ยังพยายามขยับไปตามวิธีเดิมก่อนอยู่ดี
สุดท้ายแล้วปัญหาไม่ใช่การขาดความสามารถในการเรียนรู้สิ่งใหม่ แต่คือความสามารถในการทิ้งการปรับให้เหมาะสมแบบเดิม
เพราะความชำนาญส่วนใหญ่เป็นผลลัพธ์ของการสั่งสมก็จริง แต่ในขณะเดียวกันก็เป็นผลลัพธ์ของแรงเฉื่อยด้วย
เพราะฉะนั้นผมจึงไม่คิดว่าคนที่เคยเก่งจะได้เปรียบในเมตาถัดไปแบบอัตโนมัติเสมอไป
ในทางกลับกัน ก็มีความเป็นไปได้สูงมากเช่นกันว่าพวกเขาจะยิ่งถูกผูกติดกับความสำเร็จของยุคก่อนหน้าแน่นขึ้น
ผมคิดว่าวงการโค้ดดิ้งในตอนนี้ก็ไม่ได้ต่างกันมากนัก
หลายคนยังคงคำนวณประสิทธิภาพด้วยวิธีแบบเดิม และตัดสินผลิตภาพด้วยเกณฑ์แบบเดิมอยู่
แต่ผมมองว่าเมตาได้เปลี่ยนไปแล้ว
ไม่ว่าจะมีวุฒิการศึกษาหรือประสบการณ์อย่างไร หากดูจากสิ่งที่เกิดขึ้นจริงบนโลกนี้ ก็น่าจะต้องกลับมาคิดอีกครั้งว่าตลาดในตอนนี้ยังเคลื่อนที่ด้วยโครงสร้างแบบเดิมเหมือนเมื่อก่อนอย่างสมบูรณ์หรือไม่ และการพัฒนายังมอบคุณค่าแบบพึ่งพิงอยู่เพียงอย่างเดียวจริงหรือไม่
ท้ายที่สุด คนที่จะก้าวไปสู่ขั้นต่อไป ไม่ใช่แค่คนที่สั่งสมอย่างขยันขันแข็งกว่าเท่านั้น แต่คือคนที่สามารถทิ้งของเดิมได้เร็วกว่าด้วย
เท่าที่ผมเห็น ในยุคใหม่ ความสามารถในการกวาดทิ้งการปรับให้เหมาะสมที่ล้าสมัยกำลังสำคัญกว่าความสามารถในการสั่งสมให้มากขึ้นอย่างมาก
ถ้าคุณคิดอย่างนั้น ก็แค่ไลฟ์สดตลอด 24 ชั่วโมงแล้วแสดงให้เห็นด้วยตัวเองก็พอครับ
โอ
ขอบคุณสำหรับไอเดียดี ๆ ครับ
สมกับเป็นคนมากประสบการณ์จริง ๆ 👍👍👍👍👍👍👍👍👍
ได้ฟังคำอธิบายยาว ๆ แล้วว่ามันทำไม่ได้
เห็นด้วยครับ/ค่ะ แต่ก็คิดว่าชุด harness ที่ทำมาดีอย่าง omo นั้นช่วยงานพัฒนาได้จริง (เท่าที่ทราบ Ralph Loop ไม่ใช่ตัวหลัก ไม่ได้มีให้เป็นตัวเลือกเหรอ? ulw หรือเปล่า..?)
ถ้าพูดเฉพาะข้อสรุป ดูเหมือนว่าจะไม่ได้เกี่ยวอะไรกับปริมาณการใช้โทเคนเลย
ในเรื่องการทำงานอัตโนมัติ ในหมู่นักพัฒนามีวัฒนธรรมที่ฝังรากลึกอยู่ จนกลายเป็นความรู้สึกคล้ายเป้าหมายความสำเร็จทางอาชีพที่มองร่วมกัน
ตรงนี้เองน่าจะทำให้เกิดภาพฝันเกี่ยวกับการเขียนโค้ดหรือสร้างโปรดักต์แบบอัตโนมัติข้ามคืน
แต่ถ้ามองไม่ใช่จากสายตาของนักพัฒนา หากมองจากประโยชน์เชิงธุรกิจจริง ๆ หรือมุมของการดำเนินธุรกิจแล้ว ในความเป็นจริงมีหลายกรณีที่การวัดปัญหาและหาทางแก้สำคัญกว่าประสิทธิภาพ คุณภาพงานที่ทำออกมา หรือการตอบสนองที่รวดเร็ว...
ดูเหมือนว่าภาพฝันแบบฉบับนักพัฒนาที่มักคิดว่าถ้าสร้างแอปดี ๆ หรือทำบริการให้ดีแล้วจะประสบความสำเร็จใหญ่โต กำลังบิดเบือนสถานการณ์อยู่
การจะเก็บเส้นผมไม่กี่เส้นในบ้าน สิ่งที่ต้องการไม่ใช่เครื่องดูดฝุ่นประสิทธิภาพสูง 500 แบบ แต่เป็นแค่อะไรง่าย ๆ สักอย่างที่มาแทนนิ้วมือของผมได้
การสิ้นเปลืองโทเคน ถ้าจัดการเซสชันพลาดหรือใช้ SDD ผิด แม้แต่การพัฒนาเซิร์ฟเวอร์ง่าย ๆ ก็อาจกินเงินตามเกณฑ์ของ Claude ถึง 100 ดอลลาร์ได้ภายใน 2-3 วัน
และเพราะสเปกที่บอกว่าใช้งานผิดนั้นไม่ชัดเจน จึงทำให้แม้แต่ตัวผู้ใช้เองก็ตัดสินได้ยากว่าอะไรผิด
ไม่ว่าเนื้อหาจะเป็นอย่างไร การเอาปริมาณการใช้โทเคนมาเป็นตัวชี้วัดการใช้ AI ก็คงไม่ต่างจากการบอกว่ากินข้าวเยอะจึงมีความสามารถ หรือในบริษัทที่นั่งคัดลอกเอกสารเดิมด้วยดินสอทั้งคืนก็พูดได้ยากว่าได้ทำงานไปมาก
ตอนนี้ยังไม่มีตัวชี้วัดที่แม่นยำ ผู้คนจึงยังให้ความสำคัญกับปริมาณการใช้โทเคนและระบบอัตโนมัติ
แต่ดูเหมือนว่าในขั้นถัดไป ไม่นานจากนี้จะเริ่มมีการถกกันถึงวิธีสร้างคุณค่าที่จับต้องได้จริง
จริงๆ แล้วสหรัฐฯ ก็ดูเหมือนจะไม่ได้ต่างกันมากนัก พวก coding harness สาย Oh-my เป็นเพราะทีมโปรเจกต์เป็นเกาหลีเลยทำการตลาดในต่างประเทศรวมถึงสหรัฐฯ น้อยกว่า และถ้าดูสิ่งที่ Steve Yegge หรือ Karpathy ซึ่งเป็น token maximalist ที่เป็นตัวแทนเด่นๆ พูดไว้ ก็ไม่ได้ต่างจากที่คุณพูดสักเท่าไร รวมถึงบรรดาผู้ติดตามของพวกเขาด้วย
คุณคิดอย่างไรกับภาพลวงตาที่เรียกว่า Ralph Loop?
ในบริษัทมีการทำลีดเดอร์บอร์ดการใช้โทเค็นกันภายในองค์กร แถมยังแข่งขันกันเป็นรายบริษัทด้วย แต่ส่วนตัวผมคิดว่านี่คือการตกเป็นเหยื่อการตลาดของบริษัท AI มากกว่า
พอดูสิ่งที่กำลังไวรัลในช่วงนี้ ก็รู้สึกเลยว่าแทบไม่ได้คำนึงถึงประสิทธิภาพเมื่อเทียบกับจำนวนโทเค็นที่ใช้กันเลย
ที่น่าขำคือบริษัท AI ไม่ได้ทำการตลาดแบบนั้นเลย
ตรงกันข้าม พวกเขากลับบอกว่าสามารถทำผลงานได้ดีกว่าเดิมด้วย reasoning token ที่น้อยกว่ารุ่นก่อน ๆ
เมื่อ 5 ปีก่อน...? พอจะแนะนำหุ้นได้ไหมครับ
ก็ Samsung Electronics น่ะสิ