ข้อคิดบางประการเกี่ยวกับ LLM และการพัฒนาซอฟต์แวร์

(martinfowler.com)

12 คะแนน โดย GN⁺ 2025-08-30 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Martin Fowler ชี้ว่า แบบสำรวจเกี่ยวกับวิธีใช้งาน LLM ในช่วงหลังอาจนำไปสู่ข้อสรุปที่บิดเบือนได้ เพราะไม่สะท้อนรูปแบบการใช้งานจริง
สำหรับคำถามเรื่องอนาคตของการเขียนโปรแกรมหรือความมั่นคงของอาชีพนั้น ยังไม่มีใครตอบได้อย่างแน่ชัด และสิ่งสำคัญคือการทดลองด้วยตนเองและแบ่งปันประสบการณ์
อุตสาหกรรม AI อยู่ในภาวะ ฟองสบู่ อย่างชัดเจน แต่ในทางประวัติศาสตร์ นวัตกรรมทางเทคโนโลยีทุกครั้งก็เป็นเช่นนั้น และแม้หลังฟองสบู่แตกก็อาจยังมี บริษัทที่อยู่รอดแบบ Amazon เกิดขึ้นได้
แก่นแท้ของ LLM คือ การหลอน (hallucination) และกระบวนการตั้งคำถามหลายรูปแบบแล้วนำคำตอบมาเปรียบเทียบกันนั้นมีประโยชน์ในตัวเอง
LLM ทำให้ พื้นผิวการโจมตี ของระบบซอฟต์แวร์ขยายใหญ่ขึ้นมาก และเตือนว่าโดยเฉพาะเอเจนต์บนเบราว์เซอร์มีความเสี่ยงเชิงโครงสร้างที่ไม่อาจทำให้ปลอดภัยได้อย่างแท้จริง

วิธีใช้ LLM และประสิทธิภาพการทำงานของนักพัฒนา

ช่วงหลังมีการถกเถียงกันอย่างคึกคักเกี่ยวกับผลกระทบระยะแรกของ AI ต่อการพัฒนาซอฟต์แวร์
การใช้งาน LLM ส่วนใหญ่มุ่งไปที่การทำงานแบบ auto-complete ขั้นสูง (ลักษณะ co-pilot)
อย่างไรก็ตาม ผู้ที่ใช้ LLM ได้อย่างมีประสิทธิภาพที่สุดในความเป็นจริงมักชอบ ใช้ LLM ในลักษณะที่สามารถอ่านและแก้ไขไฟล์ซอร์สโค้ดได้โดยตรง
แบบสำรวจที่มองข้ามความแตกต่างของวิธีใช้ LLM มีความเสี่ยงสูงที่จะ ตีความข้อมูลไปในทิศทางที่ผิด
นอกจากนี้ ความแตกต่างด้านความสามารถ ของโมเดล LLM แต่ละตัวก็ยิ่งทำให้การตีความผลลัพธ์ยากขึ้น

อาชีพโปรแกรมเมอร์และอนาคตของ LLM

มีคำถามเกิดขึ้นบ่อยเกี่ยวกับอนาคตของการเขียนโปรแกรม ความจำเป็นของวิศวกรมือใหม่ และอนาคตของผู้มีประสบการณ์
ต่อคำถามเหล่านี้ยังไม่อาจให้คำตอบที่ชัดเจนได้ เพราะ เรายังอยู่ในช่วงที่วิธีใช้ LLM อย่างมีประสิทธิผลยังไม่ถูกสถาปนาแน่ชัด
สิ่งที่จำเป็นคือ แนวทางเชิงทดลอง และท่าทีที่คอยสังเกตและแบ่งปันประสบการณ์เวิร์กโฟลว์ที่เป็นรูปธรรมของผู้อื่น
การลองใช้ด้วยตัวเองและแบ่งปันประสบการณ์คือ วิธีปรับตัวที่ชาญฉลาดที่สุด

ปรากฏการณ์ฟองสบู่ในวงการ AI·LLM

ต่อมุมมองที่ว่า AI เป็นฟองสบู่ มีการอธิบายว่า นวัตกรรมทางเทคโนโลยีทุกครั้งล้วนมาพร้อมภาวะฟองสบู่
ฟองสบู่ย่อมแตกลงในสักวัน และย่อมมีการลงทุนที่ล้มเหลวเกิดขึ้น
อย่างไรก็ตาม ช่วงเวลาที่ฟองสบู่จะแตกและขนาดของมูลค่าที่จะถูกสร้างขึ้น นั้นไม่อาจคาดการณ์ได้
แม้ฟองสบู่จะแตก ไม่ใช่ว่าทุกบริษัทจะหายไปทั้งหมด และบางส่วนก็อาจ เติบโตต่อเนื่อง ได้
- ในยุคฟองสบู่ดอตคอม pets.com, Webvan ล้มเหลว แต่ Amazon เป็นตัวอย่างเด่นของบริษัทที่อยู่รอดและเติบโตต่อ

คุณลักษณะการหลอนของ LLM

ปรากฏการณ์ การหลอน (Hallucination) ของ LLM ไม่ใช่ข้อบกพร่อง แต่เป็นคุณลักษณะโดยเนื้อแท้
โดยท้ายที่สุดแล้ว LLM คือเครื่องมือสำหรับ สร้างการหลอนที่ใช้งานได้จริง
แนวทางที่เหมาะสมคือถามคำถามเดิมหลายครั้ง โดยปรับถ้อยคำให้หลากหลาย เพื่อ รับหลายคำตอบแล้วนำมาเปรียบเทียบกัน
ในกรณีที่ต้องการคำตอบเชิงตัวเลข ควร ตรวจสอบความผันแปรระหว่างคำตอบด้วยการถามซ้ำ
ไม่เหมาะที่จะให้ LLM ตอบปัญหาที่ สามารถคำนวณแบบกำหนดแน่นอนได้โดยตรง

การนำความไม่เป็นเชิงกำหนดเข้าสู่วิศวกรรมซอฟต์แวร์

วิศวกรรมซอฟต์แวร์แบบดั้งเดิมถูกออกแบบและพัฒนาขึ้นใน สภาพแวดล้อมที่เป็นเชิงกำหนด
วิศวกรโครงสร้างและวิศวกรกระบวนการจะออกแบบค่าคลาดเคลื่อนโดยคำนึงถึง ความไม่เป็นเชิงกำหนด (ความไม่แน่นอน) ของโลกจริง
การนำ LLM มาใช้อาจเป็นจุดเปลี่ยนที่ทำให้วิศวกรรมซอฟต์แวร์ ก้าวเข้าสู่โลกของความไม่เป็นเชิงกำหนด

การเปรียบเทียบ LLM กับนักพัฒนารุ่นจูเนียร์

LLM มักถูกเปรียบว่าเป็น เพื่อนร่วมงานระดับจูเนียร์
แต่ LLM มักพูดว่า "ผ่านทุกเทสต์" ทั้งที่ในความเป็นจริง ยังมีเทสต์ที่ล้มเหลวให้เห็นอยู่บ่อยครั้ง
หากเป็นมนุษย์ นี่คงเป็นพฤติกรรมที่นำไปสู่ปัญหาด้านบุคลากรได้อย่างรวดเร็ว

ภัยคุกคามด้านความปลอดภัยที่เพิ่มขึ้นและปัญหาของเอเจนต์บนเบราว์เซอร์

LLM ขยาย พื้นผิวการโจมตีของระบบซอฟต์แวร์ ออกไปอย่างกว้างขวาง
'ปัจจัยสามประสานร้ายแรง (Trifecta)' ที่ Simon Willison ชี้ไว้คือ การเข้าถึงข้อมูลที่ไม่เปิดเผย, การสื่อสารภายนอก, และการเผชิญกับคอนเทนต์ที่ไม่น่าเชื่อถือ
- สามารถหลอก LLM ให้ รั่วไหลข้อมูลอ่อนไหว ได้ผ่านคำสั่งที่ซ่อนอยู่บนหน้าเว็บ (เช่น ตัวอักษรสีขาวขนาด 1pt เป็นต้น)
เอเจนต์ที่ทำงานบนเบราว์เซอร์มีความเสี่ยงเป็นพิเศษ และอาจถูกใช้ให้ทำ การกระทำอันเป็นอันตราย เช่น โอนเงินจากบัญชี ผ่านคำสั่งภายนอก
Willison เสนอความเห็นว่า ส่วนขยายเบราว์เซอร์แบบเอเจนต์ไม่อาจทำให้ปลอดภัยได้อย่างถึงราก

บทสรุป

LLM เปิด ความเป็นไปได้ใหม่ ให้กับการพัฒนาซอฟต์แวร์ แต่ต้องเข้าใจวิธีใช้และข้อจำกัดของมันอย่างชัดเจน
ฟองสบู่ เป็นสิ่งที่หลีกเลี่ยงไม่ได้ แต่ก็อาจนำไปสู่การพัฒนาเทคโนโลยีที่ยั่งยืนได้
นักพัฒนาควรใช้ แนวทางเชิงทดลอง และ คำนึงถึงความปลอดภัย เพื่อดึงศักยภาพของ LLM ออกมาให้ได้มากที่สุด

3 ความคิดเห็น

iolothebard 2025-08-31

แค่คิดก็รู้สึกอึดอัดขึ้นมาแล้ว…

> การนำความไม่เป็นเชิงกำหนดเข้ามาในวิศวกรรมซอฟต์แวร์
> วิศวกรรมซอฟต์แวร์แบบดั้งเดิมถูกออกแบบและพัฒนาขึ้นในสภาพแวดล้อมที่เป็นเชิงกำหนด
> วิศวกรโครงสร้างและกระบวนการออกแบบค่าความคลาดเคลื่อนโดยคำนึงถึงความไม่เป็นเชิงกำหนด (ความไม่แน่นอน) ของโลกความจริง
> การนำ LLM มาใช้อาจเป็นจุดเปลี่ยนที่ทำให้วิศวกรรมซอฟต์แวร์ก้าวเข้าสู่โลกของความไม่เป็นเชิงกำหนด

khris 2025-08-31

เห็นด้วยกับอุปมาเรื่องจูเนียร์เป็นพิเศษแบบ 100% เลยครับ หมวดหมู่ของความผิดพลาดที่มันก่อขึ้นต่างจากของคน... ผมคิดว่านี่เป็นอุปมาที่พังแบบตัวอย่างชัดเจนเลยครับ

GN⁺ 2025-08-30

ความคิดเห็นจาก Hacker News

Rebecca Parsons อดีตเพื่อนร่วมงานของฉันพูดมานานแล้วว่าอาการหลอนของ LLM (hallucination) ไม่ได้เป็นบั๊ก แต่เป็นฟีเจอร์หลักของมันด้วยซ้ำ จริง ๆ แล้วสิ่งที่ LLM ทำคือสร้างอาการหลอนที่มีประโยชน์ขึ้นมา ทุกครั้งที่ได้ยินข้ออ้างแบบนี้ ฉันมักรู้สึกว่าเป็นการนิยามคำว่า "อาการหลอน" ใหม่ตามใจชอบ แล้วทำให้มันดูเหมือนเป็นอินไซต์ใหม่ ทั้งที่เดิมคำว่า 'อาการหลอน' หมายถึงการสร้างรายละเอียดที่ไม่เกี่ยวกับความจริงขึ้นมาอย่างแนบเนียนราวกับรับรู้ได้จริง แต่ตรรกะนี้ก็ไม่ต่างจากการพูดว่า "เอาต์พุต" เฉย ๆ ไม่ใช่ว่าการที่ LLM สร้างเอาต์พุตเป็นเรื่องใหม่ มันแค่เอาป้ายกำกับที่แต่ก่อนมองว่า 'ไม่ดี' มาแปะกับพฤติกรรมทั้งหมดเพื่อให้ดูใหม่เท่านั้น
- ผมไม่คิดว่า Fowler กำลังนิยามคำว่า "อาการหลอน" ใหม่จริง ๆ ตรงกันข้าม เขากำลังเน้นแบบประชด ๆ ว่านี่คือวิธีทำงานพื้นฐานของระบบนี้ คล้ายกับการพูดว่า "ความเสียหายข้างเคียงเป็นส่วนสารัตถะของระเบิด" ไม่จำเป็นต้องตีความตามตัวอักษร
- ข้อโต้แย้งนี้ต้องการแก้การมองแบบทวิภาคที่ผิด ๆ ประมาณว่า “LLM ไม่ก็สร้างความจริง ไม่ก็สร้างอาการหลอน” เพราะการพูดแบบนั้นทำให้ดูเหมือนว่าแค่ลดอาการหลอนลง ก็จะเหลือแต่ความจริง ทั้งที่จริงแล้วเอาต์พุตทั้งหมดก็เป็นอาการหลอนชนิดหนึ่ง เพียงแต่บางส่วนสะท้อนความเป็นจริงหรือสอดคล้องกับความคาดหวัง จึงดูเหมือนจริง มันก็เหมือนเวลาทอยลูกเต๋าแล้วได้เลขที่ต้องการ จากนั้นบอกว่า "ลูกเต๋าอ่านใจฉันได้" เหมือนกับลิงอนันต์ที่พิมพ์บนเครื่องพิมพ์ดีดอนันต์แล้วสักวันหนึ่งจะได้ Hamlet ขึ้นมา เพียงแต่เราเพิ่มความน่าจะเป็นนั้นด้วย AI
- ฉันคิดว่าความเห็นนั้นน่าสนใจ การยอมรับว่า LLM ไม่สามารถรู้ได้ว่าสิ่งที่มันสร้างออกมาถูกต้องหรือไม่ ช่วยให้คนที่นำ LLM มาใช้ในการพัฒนาซอฟต์แวร์มีบริบทเชิงปฏิบัติมากขึ้น
- ฉันรู้สึกไม่สบายใจกับการใช้อธิบายปรากฏการณ์นี้ด้วยคำว่า "อาการหลอน" เวลาเราพูดถึงคนที่พูดเรื่องฟังดูน่าเชื่อถือขึ้นมาโดยไม่มีหลักฐาน เรามักเรียกว่า "bullshit" และ LLM ก็แทบจะเป็นแบบนั้นเหมือนกัน ถ้ามองจากมุมของ "bullshit" การวิจารณ์การใช้ LLM ก็จะดูไร้น้ำหนักลงอีก สุดท้าย ถ้าคุณรับด้านนี้ของ LLM ไม่ได้ คุณก็คงทำงานกับคนไม่ได้เหมือนกัน เพียงแต่คำว่า "bullshit" นั้นนิยามใหม่ยากกว่ามาก ถึงอย่างนั้น ฉันก็คิดว่าบทความนั้นทำหน้าที่ของมันได้ดีในฐานะชุดความคิดที่กระจัดกระจาย และผู้เขียนก็ดูไม่ได้พยายามวางท่าผู้มีอำนาจอะไร
- เขาพูดประเด็นหลักได้ค่อนข้างกระอักกระอ่วน แต่ใจความจริง ๆ คือไม่มีเส้นแบ่งชัดเจนระหว่างเอาต์พุตแบบ 'อาการหลอน' กับเอาต์พุตแบบอื่น ๆ เหมือนกับที่ผลลัพธ์ของสองคิวรีใน RDBMS มีสารัตถะเดียวกัน ถือเป็นข้อสังเกตที่มีความหมาย
ที่บริษัทเราให้ความรู้สึกเหมือนมีโค้ดกองเต็มไปหมดที่ 90% ใช้ได้ แต่อีก 10% พัง และเกือบจะถึงระดับที่ต้องการแล้ว ปริมาณโค้ดเพิ่มขึ้น แต่ไม่มีใครตามทัน ทำให้คุณภาพตกลงอย่างชัดเจน มันไม่ใช่การค่อย ๆ เข้าใกล้เป้าหมาย แต่เป็นการพุ่งไปถึง 90% ทันที แล้วค่อยเสียเวลาไปกับการทำความคุ้นเคยกับโค้ดที่ไม่คุ้นและแก้ซ้ำไปมา มันอาจเร็วกว่าเดิมก็ได้ แต่ในทางปฏิบัติความต่างระหว่างสองวิธีอาจไม่ได้มากอย่างที่คิด สิ่งที่ฉันไม่ชอบที่สุดคือ ฉันชอบสร้างอะไรใหม่ ๆ มากกว่าต้องมาเสียเวลาแก้โค้ดที่ไม่คุ้น
- ฉันก็ชอบสร้างอะไรใหม่ ๆ มากกว่าเหมือนกัน แต่บางคนกลับสนุกกับวิธีทำงานใหม่ที่เร็วและด้นสดแบบนี้มากกว่า ฉันเองเคยจำใจลองใช้พักหนึ่งแล้วรู้สึกแปลกแยก เลยลบทิ้งหมดแล้วสร้างใหม่เองแบบแมนนวลโดยมี AI ช่วย ซึ่งตอนนั้นรู้สึกพอใจจริง ๆ โค้ดที่ AI สร้างแล้วฉันยังไม่เข้าใจ 100% มีอยู่ชนิดเดียวคือ SQL query ที่ซับซ้อน แต่ SQL query นั้นตรวจสอบการทำงานได้เร็ว และไม่มีผลข้างเคียงที่คาดไม่ถึง เลยยังพอรับได้
- ปรากฏการณ์นี้คล้ายอย่างเจ็บปวดกับตอนที่ทีมขยายจาก 3 คนเป็น 10 คน อยู่ ๆ โค้ดที่ตัวเองไม่รู้จักก็ถาโถมเข้ามา ความสอดคล้องของสถาปัตยกรรมก็ลดลง และต้องพึ่งพานโยบายกับ CI มากขึ้น ความต่างของ LLM คือการเมนเทอร์หรือไล่ออกแทบไม่มีความหมาย วิธีใช้ LLM อย่างมีประสิทธิภาพคือคนที่ใช้ LLM ต้องรับผิดชอบต่อผลลัพธ์ที่สร้างออกมา 100% กล่าวคือ ต้องเข้าใจโค้ดที่สร้างขึ้นอย่างชัดเจน ซึ่งคงยากมากที่จะทำให้รับประกันได้จริง
- LLM เก่งมากในการสร้าง boilerplate code อัตโนมัติ และนั่นทำให้เราขี้เกียจจัดการ boilerplate มากขึ้น พอมีโค้ดปริมาณมหาศาลขึ้น PR การรีวิวก็ยาก GitHub เองก็ไม่เหมาะกับการรีวิวทีละหลายบรรทัดจำนวนมากในครั้งเดียว ผลคือ นักพัฒนาระดับจูเนียร์/มิดเดิลจะได้แต่ทำงานแกะ boilerplate จนโอกาสเรียนรู้ลดลง ถ้าเป็นแบบนี้ต่อไป คุณภาพโค้ดจะเสื่อมลงอย่างรวดเร็ว
- มีการอ้างถึงคำคมข้อ 7 ของ Perlis: ‘การเขียนโปรแกรมที่ผิดนั้นง่ายกว่าการเข้าใจโปรแกรมที่ถูกต้อง’<br>http://cs.yale.edu/homes/perlis-alan/quotes.html
- เห็นด้วยกับความเห็นที่ว่า "คุณภาพกำลังตกลงอย่างชัดเจน" และปรากฏการณ์นี้จะยิ่งแย่ลงต่อไป ท้ายที่สุด เราต้องเข้าใจแนวคิดเรื่อง trade-off ทางเศรษฐศาสตร์ให้ดี จึงจะตัดสินได้ว่ามันให้ ‘กำไรสุทธิ’ จริงหรือไม่ ดูเหมือนผู้คนจะมองข้ามความจริงที่ว่าไม่มีของฟรี
ฉันอินกับกรอบคิดของ Rebecca Parsons มากที่ว่า “อาการหลอนคือฟีเจอร์หลักของ LLM” ฉันเองก็พยายามอธิบายเรื่องนี้ให้คนรอบตัวฟัง และประโยคนี้ก็สรุปสิ่งที่ฉันอยากพูดได้ตรงมาก
- ฉันเองก็อธิบายให้ครอบครัวและเพื่อนฟังมาตลอดโดยเปรียบ LLM เป็นนักแสดง LLM แค่แสดงบทให้เข้ากับตัวละคร และจะใช้ข้อเท็จจริงก็ต่อเมื่อจำเป็นต่อการแสดง<br>https://jstrieb.github.io/posts/llm-thespians/
- คำกล่าวเก่าแก่ที่ว่า “โมเดลทุกตัวผิด มีเพียงบางโมเดลเท่านั้นที่มีประโยชน์” ใช้ได้พอดีเลย
- สติปัญญาคือความสามารถในการกรองข้อมูลที่ไม่จำเป็น ไม่ว่าจะเป็นความคิดหรือการรับรู้ก็เหมือนกัน
- จำไม่ได้ว่าใครเป็นคนพูด แต่เอาต์พุตของ LLM นั้นเป็นอาการหลอนเสมอ แค่กว่า 90% ของมันออกมาถูกเท่านั้นเอง
ช่วงหนึ่งฉันรู้สึกเหมือน LLM จะมาแย่งงานเรา แต่สุดท้ายกลับพบว่ามันอาจสร้างงานกองมหึมาที่เราต้องมาตามแก้ทีหลังมากกว่า ตอนนี้เลยใช้มันได้ดีในฐานะเครื่องมือช่วยที่ใช้งานได้จริงอย่าง Claude Code และรับรู้ชัดเจนว่ามันเป็นเครื่องมือเสริม ไม่ใช่เครื่องมือแทนที่
- ดีใจที่ในที่สุดก็ได้เห็นความเห็นที่มีเหตุผล ไม่ใช่แบบ “AI สมบูรณ์แบบ” หรือ “AI ไร้ประโยชน์”
เคยเห็นคำแนะนำว่า “ถ้าจะขอคำตอบเชิงตัวเลขจาก LLM ให้ถามซ้ำสักสามครั้ง” วิธีนี้ใช้กับคนก็ได้เหมือนกัน เวลาตำรวจสอบสวนก็มักให้เล่าเรื่องเดิมสามครั้ง หรือเล่าย้อนกลับด้วย ถ้าโกหกหรือจำไม่ชัด พอทวนหลายครั้งก็อาจหลุดได้ ในการสัมภาษณ์งานก็เช่นกัน ถ้าให้ใครสักคนอธิบายหัวข้อเดียวกันสามแบบ ก็พอจะดูได้ว่าเขาเข้าใจจริงหรือไม่
- เทคนิคนี้ก็ทำให้คนบริสุทธิ์สับสนจนฟังดูเหมือนโกหกได้เหมือนกัน ต้องใช้ด้วยความระวัง
- วิธีแบบนี้ใช้ได้แค่ภายใต้เงื่อนไขบางอย่างเท่านั้น มีหลายกรณีที่ยิ่งนึกย้อนและเล่าบ่อย ความทรงจำก็ยิ่งบิดเบือน ตำรวจที่ถามซ้ำ ๆ ตอนสอบสวน บางครั้งก็จงใจชักนำให้เกิดความขัดแย้งในคำให้การ ต่อให้เป็นข้อมูลเดียวกัน ถ้าให้ตอบเองหลายครั้งเกินไปในหลายรูปแบบ สุดท้ายก็อาจพลาดได้ และต้องระวังเสมอว่าผู้ถามสามารถชี้นำคำตอบไปในทิศทางที่ต้องการได้
- กระสวยอวกาศของ NASA ใช้ triple modular redundancy เพื่อรับมือกรณีที่โปรเซสเซอร์หรือหน่วยความจำถูกรังสีอวกาศรบกวน<br>https://llis.nasa.gov/lesson/18803
ฉันรู้สึกว่าตัวเองมี productivity สูงขึ้นพอสมควรจาก LLM ไม่ใช่แค่ autocomplete ธรรมดา แต่ช่วยประหยัดเวลาได้มาก อย่างไรก็ตามก็ยังกังวลว่าถ้าใช้แบบปล่อยอิสระเกินไป มันอาจสร้างหนี้ในแบบของมันเอง สำหรับฉัน วิธีที่ประสบความสำเร็จคือค่อย ๆ สร้างฟีเจอร์ร่วมกับ Claude Sonnet หรือ GPT-5 แบบ Test Driven Development (TDD) แต่ยังไม่ค่อยเห็นบทความหรือการพูดคุยเกี่ยวกับแนวทางนี้มากนัก พออ่านบทความของ Martin แล้วก็พอเข้าใจว่าทำไม คนที่เก่ง TDD มาก ๆ มักไม่ใช่สายที่จะกระโดดเข้าไปใช้ระบบอัตโนมัติสร้างโค้ดด้วย LLM กันเต็มตัว และมักภูมิใจกับความงามของโค้ดหรือการสื่อสารแบบมนุษย์ จึงยังขาดเคล็ดลับภาคปฏิบัติที่สั่งสมแบบเมื่อก่อน ฉันคาดหวังว่าในอนาคตจะมี ‘ทุ่งหญ้าใหม่’ เปิดขึ้นสำหรับวิธีเขียนซอฟต์แวร์ด้วยเครื่องมือ LLM และจะมีบทเรียนมากมายตามมา อ้างอิง: https://news.ycombinator.com/item?id=45055439
- ความเชื่อมโยงระหว่าง TDD กับ LLM นั้นมีนัยอยู่พอสมควรในแง่ที่ว่า “มันช่วยสร้างเทสต์ให้ด้วย” แน่นอนว่านี่ไม่ใช่ TDD แบบดั้งเดิม ตรงกันข้าม เทคโนโลยีที่ทำ automated testing ได้ง่าย เช่น ssr อาจได้รับความสนใจมากขึ้นก็ได้
หน้าที่พื้นฐานของนักพัฒนาคือการตรวจสอบและเช็กโค้ดที่ LLM สร้างขึ้นด้วยตัวเอง อย่าขอโค้ดจำนวนมากเกินไปในครั้งเดียว ควรใช้ LLM กับงานที่เล็กลง และฉันก็รัน unit test เองด้วย การที่ LLM บอกว่าได้รันเทสต์แล้วและ ‘ผ่าน’ อาจไม่ใช่เรื่องจริง ต้องรันเองถึงจะเชื่อถือได้
เห็นด้วยกับความเห็นที่ว่า “อาการหลอนคือฟีเจอร์ของ LLM”
- ฉันอยากอธิบายว่า LLM อาศัยอยู่ในโลกที่ประกอบขึ้นจากข้อความและการจัดเรียงข้อความเท่านั้น คำกับคำ เรื่องเล่ากับเรื่องเล่า คือโลกทั้งหมดของมัน เพราะแบบนั้นมันจึงเก่งที่สุดในการสร้างเรื่องเล่าใหม่ ๆ เรื่องเล่าเหล่านี้บางครั้งก็ไม่แม่นยำและขัดแย้งกันเอง จนสุดท้ายต้องพึ่งการคาดเดา LLM ไม่ได้ “นับ” ตัวเลขเป็นจริงเป็นจัง แต่รู้รูปแบบอย่าง ‘2 มาหลัง 1 และ 3 มากกว่า 2’ เหมือนที่มนุษย์ใช้เครื่องคิดเลข พวกมันก็สามารถคำนวณผ่านเครื่องมือได้เช่นกัน ในอนาคต สิ่งที่ควรถูกนำเข้ามาไม่ใช่ arithmetic engine แต่เป็น "epistemic engine" ที่ช่วยด้านตรรกะ การป้องกันความขัดแย้ง และการแยกแยะข้อเท็จจริงที่เชื่อถือได้ จึงจะทำให้ AI กลายเป็นสิ่งที่ไว้วางใจได้จริง
- ถ้ามองจากมุมนั้น LLM agent ก็อาจถูกมองได้ว่าเป็นเพียงเครื่องมือสำหรับกรองผลลัพธ์ที่เป็นอาการหลอน
- ฉันเห็นด้วยกับประโยคที่ว่า “เอาต์พุตของโมเดล (ภาษาขนาดใหญ่) ทุกตัวคืออาการหลอน มีเพียงบางส่วนที่มีประโยชน์” มากกว่า และเพราะสัดส่วนของอาการหลอนที่มีประโยชน์นั้นสูงมาก จึงเกิดกระแส AI boom ขึ้น
- ฉันคิดว่านั่นเป็นมุมมองที่ลดทอนเกินไป
- นี่เองคือเหตุผลที่คำว่า “อาการหลอน” เป็นคำที่ถกเถียงกันตลอด เพราะมันทำให้คนเข้าใจผิดว่ามีผลลัพธ์บางแบบที่ ‘ไม่ใช่’ อาการหลอน ทั้งที่จริงแล้วเอาต์พุตทั้งหมดของ LLM ถูกสร้างขึ้นโดยไม่ได้คิดจริง ๆ
ทุกวันนี้การใช้ LLM ให้ได้ผลลัพธ์ตามต้องการยังต้องอาศัยนักพัฒนาระดับซีเนียร์คอยรับมืออย่างมีเหตุผล ถ้าในอนาคตจูเนียร์หายไป บทบาทของซีเนียร์จะมีใครมาแทนก็น่าสงสัย สุดท้ายฉันคาดว่า LLM จะเขียนโปรแกรมได้ด้วยตัวเองมากพอ ตอนนี้ AI เป็นเครื่องมือช่วยที่ดีอย่างแน่นอน แต่ยังไม่ใช่สิ่งทดแทน
เกี่ยวกับคำแนะนำให้ถาม LLM หลายครั้ง ถ้าเป็นผู้ใช้ macOS ขอแนะนำให้ใช้ Alfred workflow กด command + space แล้วพิมพ์ 'llm <พรอมป์ต์>' ก็สามารถเปิดแท็บเบราว์เซอร์ให้รัน LLM หลายตัวพร้อมกันได้ตามต้องการ เช่น perplexity, deepseek (local), chatgpt, claude, grok ทำให้ทำ cross-check ระหว่าง LLM ตามที่ Fowler พูดได้อย่างรวดเร็วและมีประสิทธิภาพ และเมื่อใช้ไปกับงานหลายแบบ ก็จะเริ่มจับได้ว่า LLM ตัวไหนเก่งงานแบบไหน
- ฉันสนใจ Alfred workflow แต่สงสัยว่าใช้งานแบบไหนอย่างละเอียด ตอนนี้ฉันก็ใช้ Alfred แค่เรื่องคลิปบอร์ด อยากรู้ว่า workflow นี้เป็นแค่การเปิดแท็บเบราว์เซอร์หรือเปล่า