ไม่ใช่ทุกคนที่ใช้ AI กับทุกเรื่อง
(gabrielweinberg.com)- การใช้งาน Generative AI ผ่านอินเทอร์เฟซแบบแชต ไม่ได้เป็นเครื่องมือใช้งานประจำวันอย่างแพร่หลาย แต่ใกล้เคียงกับสเปกตรัมที่แบ่งเป็นผู้ใช้หนัก ผู้ใช้เป็นครั้งคราว และผู้ไม่ใช้
- เมื่อรวมข้อมูลการใช้งานหลายชุดกับผลสำรวจเข้าด้วยกัน การใช้ AI ในสหรัฐฯ อยู่ใกล้เคียงกับ หนึ่งในสามเป็นผู้ใช้หนัก หนึ่งในสามเป็นผู้ใช้เป็นครั้งคราว และหนึ่งในสามไม่ใช้
- แม้ในกลุ่ม Gen Z การรับรู้เกี่ยวกับ AI จะสูง แต่การนำไปใช้แทบหยุดนิ่ง และในผลสำรวจของ Gallup สัดส่วนของผู้ที่ ใช้เดือนละครั้งหรือไม่กี่เดือนครั้ง รวมถึงผู้ที่ไม่ใช้เลย ยังมีสัดส่วนมาก
- เหตุผลหลักที่จำกัดการใช้ AI คือความกังวลเรื่อง การแทนที่งาน, การละเมิดข้อมูลส่วนบุคคล, การแพร่กระจายของข้อมูลเท็จ และความสงสัยในประโยชน์ของ AI
- ตลาดและนโยบายด้าน AI ควรตั้งอยู่บนสมมติฐานว่าผู้คนมีระดับการใช้งานและความกังวลต่างกัน มากกว่าจะมองแบบสองขั้วว่า “ทุกคนใช้” หรือ “ไม่มีใครใช้”
“ทุกคนใช้ AI กับทุกเรื่อง” ในความจริงใกล้เคียงกับ “มีบางคนใช้ AI กับบางเรื่อง” มากกว่า
- ในที่นี้ AI ไม่ได้หมายถึงหมวดหมู่ที่นิยามอย่างเคร่งครัด แต่หมายถึง Generative AI ที่เข้าถึงได้ผ่าน อินเทอร์เฟซแบบแชต
- สมมติฐานที่ว่า “ถ้าลองใช้ AI ครั้งหนึ่งแล้วจะใช้กับทุกเรื่อง” และ “AI ดีขึ้นมากจนทุกคนใช้” ไม่สอดคล้องกับข้อมูล
- Gen Z เป็นกลุ่มที่รับรู้เรื่อง AI สูงที่สุด แต่การนำ AI ไปใช้ในช่วง 1 ปีที่ผ่านมาแทบไม่ขยับ และยังมีสัดส่วนไม่น้อยที่ใช้น้อยมากหรือไม่ใช้เลย
- ตัวเลขของ Gallup สำหรับ Gen Z ในปี 2025/2026 แสดงให้เห็นว่าการใช้ AI ยังไม่ได้เคลื่อนไปสู่การใช้งานเข้มข้นอย่างแพร่หลาย
- สัดส่วนที่ใช้ AI อย่างน้อยเป็นครั้งคราวอยู่ที่ 79%/81%
- สัดส่วนที่รู้สึกกังวลต่อ AI อยู่ที่ 41%/42%
- สัดส่วนที่ใช้ AI แค่เดือนละครั้งหรือไม่กี่เดือนครั้งอยู่ที่ 32%/31%
- สัดส่วนที่รู้สึกโกรธต่อ AI อยู่ที่ 22%/31%
- สัดส่วนที่ไม่ใช้ AI เลยอยู่ที่ 21%/19%
การกระจายตัวที่เห็นจากข้อมูลการใช้งานจริง
- ข้อมูล United States AI Diffusion ของ Microsoft อ้างอิงจากข้อมูล telemetry ของ Microsoft ที่ผ่านการทำให้ไม่ระบุตัวตนและสรุปรวมแล้ว โดยมองว่ามากกว่า 30% ของประชากรวัยทำงานในสหรัฐฯ ใช้ AI
- นั่นหมายความว่าราว 70% ไม่ได้เป็นผู้ใช้ AI ตามเกณฑ์ดังกล่าว
- เพิ่มขึ้น 3 จุดเปอร์เซ็นต์จากช่วงปลายปี 2025
- เกณฑ์การใช้งานคือใช้บริการ AI หลักอย่าง ChatGPT, Google Gemini, Anthropic Claude และ Microsoft Copilot อย่างน้อย 90 นาทีต่อเดือน
- ข้อมูลการใช้งานจริงของ Datos ก็ให้ภาพคล้ายกัน โดย ณ เดือนมิถุนายนปีที่แล้ว มีเพียง 21% ของอุปกรณ์เดสก์ท็อปที่เข้าเยี่ยมชม AI Tools มากกว่า 10 ครั้งต่อเดือน
- 62% ของอุปกรณ์เดสก์ท็อปไม่ได้เข้า AI Tools เลยแม้แต่ครั้งเดียว
- อีก 17% อยู่ระหว่างสองกลุ่มนี้
- ในแบบสำรวจของ Searchlight Institute มี 58% ที่ตอบว่าเคยใช้หรือเคยลอง AI อย่าง ChatGPT หรือ Claude
- สัดส่วนที่ใช้อย่างค่อนข้างสม่ำเสมออยู่ที่ 30% โดยใช้อย่างน้อยหลายครั้งต่อเดือน
- ผู้ใช้ที่ใช้น้อยกว่านั้นมี 29% โดยใช้เดือนละครั้งหรือน้อยกว่า
- แบบสำรวจใหม่ของ The Argument พบว่าคนอเมริกันส่วนใหญ่ใช้ AI ไม่เกินสัปดาห์ละครั้ง
การใช้ AI ในสหรัฐฯ ใกล้เคียงกับการแบ่งเป็น 3 ส่วน
- เมื่อนำข้อมูลหลายชุดมารวมกัน การใช้ AI ในสหรัฐฯ แบ่งได้คร่าว ๆ เป็น หนึ่งในสามผู้ใช้หนัก หนึ่งในสามผู้ใช้เป็นครั้งคราว และหนึ่งในสามไม่ใช้
- การกระจายตัวนี้อาจต่างกันเล็กน้อยตามนิยามของคำที่ใช้ แต่ใกล้เคียงกับ “มีบางคนใช้ AI กับบางเรื่อง” มากกว่า “ทุกคนใช้ AI กับทุกเรื่อง”
- ในช่วง 6 เดือนถึง 1 ปีที่ผ่านมา การใช้ AI โดยรวมไม่ได้เปลี่ยนแปลงมากนัก
- จุดที่เปลี่ยนชัดกว่าคืออารมณ์เชิงลบต่อ AI โดยในผลสำรวจ Gallup ของ Gen Z ความโกรธต่อ AI เพิ่มขึ้นราว 40% เมื่อเทียบกับปีก่อน
หลายคนจำกัดการใช้ AI เพราะมีความกังวลจริงและยังไม่เห็นคุณค่ามากพอ
- ผู้คนสัดส่วนไม่น้อยกำลังจำกัดการใช้ AI อย่างตั้งใจ และเหตุผลหลักคือความกังวลที่มีอยู่จริงต่อ AI
- ในผลสำรวจของ Searchlight ความกังวล 3 อันดับแรกคือ การแทนที่งานและการว่างงาน, การละเมิดข้อมูลส่วนบุคคล และการแพร่กระจายของข้อมูลเท็จและความไม่จริง
- “AI จะเข้ามาแทนที่งานและก่อให้เกิดการว่างงาน” อยู่ที่ 42%
- “AI จะละเมิดข้อมูลส่วนบุคคลของผู้คน” อยู่ที่ 35%
- “AI จะแพร่กระจายข้อมูลเท็จและความไม่จริง” อยู่ที่ 33%
- ความต้องการกฎระเบียบ AI เพื่อความปลอดภัยและการคุ้มครองข้อมูลส่วนบุคคลก็อยู่ในระดับสูงเช่นกัน และคนส่วนใหญ่มองว่ารัฐบาลควรให้ความสำคัญกับกฎด้านความปลอดภัยและความเป็นส่วนตัว แม้จะทำให้การพัฒนา AI ของสหรัฐฯ ช้ากว่าประเทศอย่างจีนก็ตาม
- ความสงสัยต่อประโยชน์ของ AI ก็มีมากเช่นกัน โดยการประเมินผลเชิงบวกสุทธิที่มีต่อสังคมโดยรวมของ AI อยู่เพียง +8%
- โซเชียลมีเดียอยู่ที่ +7% และคริปโตเคอร์เรนซีอยู่ที่ -17%
- โทรศัพท์มือถือ, อินเทอร์เน็ต และพลังงานแสงอาทิตย์ อยู่ที่ +68%, +67%, และ +65% ตามลำดับ
- แบบสำรวจของ The Argument ยังพบความสงสัยในประโยชน์เชิงสังคมแบบเป็นรูปธรรมของ AI อย่างกว้างขวาง และความสงสัยต่อผลของ AI ไม่ได้เกิดขึ้นเพียงจากความไม่รู้ของคนที่ไม่เคยใช้งานจริงเท่านั้น
แม้ในระดับการใช้งานส่วนบุคคล ก็ยังมีคนจำนวนมากที่มองว่าคุณค่าไม่มากพอเมื่อเทียบกับความกังวล
- ในระดับสังคม ผู้คนอาจมอง AI ในแง่ลบ แต่ในระดับส่วนตัวอาจตัดสินใจต่างออกไปได้ ทว่าการกระจายตัวของการใช้ AI ในปัจจุบันไม่ได้สะท้อนภาพนั้น
- การที่ผู้ใช้เป็นครั้งคราวเป็นกลุ่มใหญ่ที่สุดกลุ่มหนึ่ง และยังมีผู้หลีกเลี่ยงโดยสิ้นเชิงจำนวนมาก แสดงให้เห็นว่าหลายคนยังไม่พบคุณค่าส่วนตัวที่มากพอจะเอาชนะความกังวลได้
- เรื่องเล่าของสื่อที่ว่า “ทุกคนใช้ AI กับทุกเรื่อง” อาจสะท้อนฟองสบู่ของผู้ใช้กลุ่มแรกในงานสายความรู้และคนรอบวงการสื่อเทคโนโลยี
- บริษัท นักวิจารณ์ และผู้กำหนดนโยบายไม่ควรมองข้ามว่าผู้คนรู้สึกและปฏิบัติต่อ AI จริง ๆ อย่างไร
- การใช้ AI ไม่ใช่ความเป็นสองขั้วแบบทุกคนใช้หรือไม่มีใครใช้ แต่เป็น สเปกตรัมต่อเนื่อง ที่มีทั้งความเห็นและระดับการใช้งานหลากหลายปะปนกัน
อุปมาแก่นหลัก: การบริโภคเนื้อกับการบริโภค AI
- การบริโภค AI คล้ายกับ การบริโภคเนื้อ ตรงที่มีทั้งคนที่ยอมรับอย่างเต็มที่ คนที่พยายามลดการใช้ และคนที่หลีกเลี่ยงโดยสิ้นเชิง
- ข้อความที่ว่าโปรตีนมีความสำคัญต่ออาหาร คล้ายกับข้อความที่ว่า AI มีประโยชน์ต่อผลิตภาพ และการที่เนื้อเป็นแหล่งโปรตีนหลักก็สอดคล้องกับการที่เครื่องมือ AI แบบแชตเป็นจุดเข้าถึงหลักของ Generative AI
- ความนิยมในการบริโภคเนื้อของชาวอเมริกันเองก็ไม่ได้เป็นโครงสร้างแบบทุกคนบริโภคเหมือนกัน
- 95% กินเนื้อ
- 70% ตอบว่าลดการบริโภคเนื้อแดง
- 30% กินเนื้อทุกประเภทน้อยครั้งหรือเป็นครั้งคราวเท่านั้น
- 12% ไม่กินเนื้อแดง
- 4% เป็นมังสวิรัติ และไม่กินเนื้อใด ๆ
- 1% เป็นวีแกน และไม่บริโภคผลิตภัณฑ์จากสัตว์ทุกชนิด
- เหตุผลในการจำกัดการบริโภคเนื้อมีทั้งเรื่องสุขภาพ ต้นทุน สิ่งแวดล้อม และจริยธรรม ซึ่งก็ทับซ้อนกับความกังวลหลักในการบริโภค AI เช่นกัน
โอกาสทางตลาดและตัวเลือกของผลิตภัณฑ์
- อุปมาเรื่องการบริโภคเนื้อแสดงให้เห็นโอกาสทางตลาดสำหรับผู้คนที่มีความรู้สึกและความกังวลต่อ AI แตกต่างกัน
- DuckDuckGo ทำให้ทุกฟีเจอร์ AI เป็นตัวเลือก และให้บริการ duck.ai เป็นทางเลือกแชตบอตแบบส่วนตัวเพื่อตอบโจทย์ความกังวลเรื่องความเป็นส่วนตัว
- แนวทางนี้ใกล้เคียงกับร้านอาหารที่มีตัวเลือกหลากหลายในเมนู โดยมีทั้ง AI แบบส่วนตัว การลดการใช้ AI และการปิด AI เป็นตัวเลือกควบคู่กัน
- หากต้องการรองรับสเปกตรัมทั้งหมดของผู้ใช้ AI ก็จำเป็นต้องมีโครงสร้างที่เลือกได้ แทนการบังคับใช้ AI แบบเดียวกับทุกคน
ความเป็นไปได้ของการเปลี่ยนแปลงในอนาคต และข้อสรุปในปัจจุบัน
- ไม่อาจสรุปได้ว่าหนึ่งในสามที่ตอนนี้ใช้ AI น้อยครั้งหรือใช้เป็นครั้งคราว จะคงรูปแบบการใช้งานเดิมไปตลอด
- ต่างจากเนื้อ AI อยู่ในสภาพแวดล้อมทางเทคโนโลยีที่เปลี่ยนแปลงเร็วมาก จึงไม่แน่นอนอย่างยิ่งว่าผลิตภัณฑ์และกฎระเบียบจะไปถึงจุดไหน
- วิวัฒนาการของผลิตภัณฑ์อาจทำให้ AI มีประโยชน์มากขึ้นสำหรับคนทั่วไป และกฎระเบียบอาจช่วยลดความกังวลได้
- แต่จากสภาพปัจจุบัน มีผู้คนในสัดส่วนที่มีนัยสำคัญที่ได้ลอง AI แบบทุกวันนี้แล้ว และตัดสินใจจำกัดการใช้งานอย่างจริงจัง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ตอนนี้ผมเพิ่งเรียนจบปริญญาโทและกำลังหางานอยู่ ในการสัมภาษณ์สายเทคนิคหรือสัมภาษณ์หน้ากระดาน คนส่วนใหญ่มักถามว่า “คุณใช้ LLM อย่างไรบ้าง?”
คำถามนี้ตอบยากตรงที่เราไม่รู้ว่าคู่สนทนาเป็นสายคลั่ง AI หรือค่อนข้างระวังตัวกับมัน จึงอยากตอบแบบปลอดภัยให้เข้ากับได้ทั้งสองแบบ
เลยตอบยาวประมาณว่า “การเอาเทคโนโลยีนี้ไปใส่ในกระบวนการไหนมีเส้นโค้งการเรียนรู้อยู่ชัดเจน และผมจะตรวจทานหลายรอบเสมอ”
เอาจริง ๆ ผมใช้ฟีเจอร์แชต/ถามตอบทุกวันเพื่อดีบักเร็ว ๆ หรือเรียนรู้เทคโนโลยีใหม่ แต่พวกเอเจนต์เต็มรูปแบบหรือผลิตภัณฑ์แนวใช้งานคอมพิวเตอร์ ผมลองมาสองสามครั้งแล้วผลไม่ดี เลยยังแทบไม่ได้ใช้
เคยพยายามรีแฟกเตอร์รีโพขนาดใหญ่ที่มี Fortran+C สะสมมาหลายสิบปีให้เข้ากับคอมไพเลอร์/OS สมัยใหม่ บางส่วนใช้ได้ แต่สุดท้ายก็ยอมแพ้
ถ้าทำงานในที่ที่แค่พูดผิดคำเดียวก็เหมือนต้องอ่านใจอีกฝ่ายให้ถูก แถมยังต้องเล่นบทบาทสมมติไปด้วย ก็น่าสงสัยว่าอยากทำจริงหรือเปล่า
มันดูไม่ใช่ที่ทำงาน แต่ใกล้เคียงกับความสัมพันธ์ที่เป็นพิษมากกว่า
สำคัญทั้งเรื่องบริษัทเป็นสายชอบ AI หรือสายระวังตัว แต่ผมแนะนำให้เปลี่ยนกรอบคำถามเป็น “ฉันเหมาะกับองค์กรนี้ไหม และองค์กรนี้เหมาะกับฉันไหม”
ถ้าคุณอธิบายอย่างกระชับได้ว่าตัดสินอย่างไรว่า LLM เหมาะกับงานแบบไหน และตรวจอย่างไรว่าได้ช่วยให้ผลลัพธ์ดีขึ้นจริง คำตอบนั้นจะดูแข็งแรงมาก
มันเป็นสัญญาณว่าคุณได้ลองสำรวจด้วยตัวเองและคิดกับมันมากพอจะอธิบายข้อสังเกตที่น่าสนใจได้ และถ้าอีกฝ่ายสนใจก็พร้อมคุยลึกต่อได้
หัวหน้าทีมวิศวกรรมมักมองหาคนที่มีพื้นเพและมุมมองหลากหลายในทีมเดียวกัน
ถ้าตอบอย่างตรงไปตรงมา คุณอาจจะเด่นกว่าผู้สมัครที่ให้คำตอบแบบทื่อ ๆ และป้องกันตัวเกินไปด้วยซ้ำ
คำพูดที่ว่า “AI ดีขึ้นมากจนต่อให้รู้สึกไม่สบายใจ ทุกคนก็ยังใช้มัน” จากประสบการณ์ผมแล้ว มันขึ้นอยู่กับแต่ละกรณี
คอมเมนต์นี้ที่ผมเขียนเมื่อวาน[0] แสดงวิธีที่ผมผสาน LLM เข้ากับงานปัจจุบันได้ค่อนข้างดี
ผมใช้มันทั้งกับแบ็กเอนด์ (PHP) และฟรอนต์เอนด์ (Swift) ของโปรเจกต์ ซึ่งทั้งสองฝั่งช่วยได้มาก แต่ฝั่ง Swift ออกจะเป็นกรณีเตือนภัยมากกว่า
ในการพัฒนาแอป UIKit Swift แบบเนทีฟ มันต้องการการกำกับดูแลจากผู้ใหญ่จริง ๆ และผมก็กำลังตระหนักว่าโค้ดที่มันสร้างมานั้นแย่แค่ไหน
ในทางกลับกัน ฝั่ง PHP มันตัดสินใจด้านการออกแบบได้สมเหตุสมผล และให้โค้ดที่ดีกว่าโค้ดที่ผมคงจะเขียนเอง
ฝั่ง Swift พอเจอปัญหาโลกจริง มันก็ตื่นตระหนกเหมือนวิศวกรที่ยังไม่มีประสบการณ์ และโค้ดที่ผมจะเขียนใหม่ก็น่าจะใช้แนวทางที่ง่ายและทนทานกว่ามาก
ถึงอย่างนั้น โดยรวมแล้วมันก็ยังให้ผลสุทธิด้านประสิทธิภาพที่เพิ่มขึ้นมาก และผมก็ได้บทเรียนว่ามันเก่งเรื่องหาปัญหา แต่เก่งเรื่องแก้น้อยกว่า
[0] https://news.ycombinator.com/item?id=48515217
ถ้าคุณค้นหาอะไรสักอย่างบนอินเทอร์เน็ต มีโอกาสสูงมากที่จะเจอคอนเทนต์ที่สร้างโดย AI หลายหน้า
เพราะงั้นเดี๋ยวนี้หลายครั้งถามตรง ๆ ด้วยพรอมป์ต์เองกลับดีกว่า
ไม่ใช่เพราะคำตอบมันยอดเยี่ยมอะไร แต่เพราะผมควบคุมพรอมป์ต์เองได้ แทนที่จะต้องผ่านการพรอมป์ต์ทางอ้อมด้วยการค้นหา
มันน่าเศร้าที่คอนเทนต์คุณภาพสูงกำลังจมหายไปในทะเลขยะจนแทบหาไม่เจอ
PHP มี เคสขอบ ที่คนเจอกันมาหลายสิบปีและถูกบันทึกไว้บนอินเทอร์เน็ตมานาน ขณะที่ Swift ค่อนข้างใหม่กว่าและมีข้อมูลน้อยกว่า
ถ้ามองความสามารถของ AI ว่าเหมือนการบีบอัดประสบการณ์วิศวกรให้สั้นลง 10-20 เท่า ก็จะเข้าใจมันมากขึ้น
กับสิ่งใหม่หรือเฉพาะทาง มันก็ย่อมอ่อนกว่าตามสัญชาตญาณ และในอนาคตถ้ามันไปเรียนรู้จากขยะที่ LLM ตัวอื่นพ่นออกมา ก็อาจยิ่งแย่ลง
ไม่นานมานี้บนเครื่องบิน ผมพยายามเชื่อมหูฟังของภรรยาเข้ากับ MacBook แต่คุ้นกับเคส AirPods Pro รุ่นเก่า เลยหาโหมดจับคู่ไม่เจอ
ผมเลยถาม Gemma4 26B A4B แบบออฟไลน์ผ่าน LM Studio แล้วมันก็บอกท่าทางให้แตะด้านหน้าเคสสองครั้ง ซึ่งใช้ได้จริง
ถ้าไม่มี local LLM สถานการณ์แบบนี้คงน่าหงุดหงิดกว่านี้มาก
ถึงมันจะตอบผิดได้ แต่การพกความรู้พื้นฐานแนว “ทำยังไงนะ” ติดตัวไว้ตลอดก็ยังดีกว่าไม่มีเลย
ปัญหาคือ LLM ไม่ได้เขียนโค้ดจากหลักการ แต่มันจับคู่ แพตเทิร์นในข้อมูลฝึก
ซึ่งก็คือจุดเดียวกับที่ผู้คนใน Stack Overflow เกลียดกันนักหนา
บทความนี้ดี แต่มีมุมหนึ่งที่ตกหล่นไป
ในบทความอ้างงานวิจัยที่ดูความถี่ที่ผู้คนพูดว่า “ใช้ AI” และบอกว่าคนมากกว่าครึ่งเล็กน้อยใช้น้อยกว่าสัปดาห์ละครั้ง
ถ้าหมายถึงเฉพาะอินเทอร์เฟซแชต AI ก็คงจริง
แต่แนวทางที่การใช้ AI จะเพิ่มขึ้น น่าจะเป็นการ ฝังฟีเจอร์ AI ลงในซอฟต์แวร์ที่คนใช้อยู่แล้ว มากกว่าการทำให้คนเข้าไปมีส่วนร่วมกับแชตมากขึ้น
ตัวอย่างเช่น ถ้าถามคนกลุ่มเดียวกันว่า “คุณใช้ Google Search บ่อยแค่ไหน?” ตัวเลขก็คงสูงกว่านี้มาก
คนเหล่านั้นกำลังใช้ AI ในความหมายที่แท้จริง เพียงแต่พวกเขาไม่ได้คิดอย่างนั้นเพราะมันถูกฝังเป็นฟีเจอร์ไว้แล้ว
การนำ AI มาใช้แบบนี้คือ การยัดเยียดให้ยอมรับ และในหลายกรณีก็อาจสวนทางกับความต้องการของผู้ใช้
ประเด็นสำคัญคือคุณกำลังอยากดูว่าผู้คนสนใจ AI และรู้สึกว่ามีประโยชน์หรือไม่ หรือกำลังถามอะไรที่ใกล้กับ “คน X% บริโภคสารตะกั่วผ่านอาหาร” มากกว่า
ข้อความขายคือ “ถ้าไม่รับไปใช้ก็จะตามไม่ทัน” แต่ผมก็ยังรออยู่ว่ามันจะเกิดเมื่อไร
ผ่านมาหลายปีแล้ว แต่ชีวิตประจำวันของผมก็ยังไม่ต่างไปจากเดิม และตอนนี้เรากำลังสอนคนที่แต่เดิมไม่อ่านคู่มืออยู่แล้วให้ไป ถามแชตบอตแทน
แล้วส่วนที่ขาดของพวกเขาจะเอายังไงต่อ แทนที่จะมัวไปสนใจ ‘ของตกแต่งที่ขาดหาย’ ของผม
ผมเห็นหลายบริษัทเปลี่ยนระบบแบบกำหนดผลลัพธ์แน่นอนในกระบวนการซัพพอร์ต ให้กลายเป็น เวอร์ชัน LLM ที่ช้ากว่าและแย่กว่า
อินเทอร์เฟซจำนวนมากไม่ได้ดีขึ้นเพราะเอา AI ไปแปะ
แทนที่จะให้ LLM ทำงานที่เห็นชัดอยู่แล้วว่าต้องทำซ้ำโดยตรง จะดีกว่าถ้าสั่งให้มันสร้างโปรแกรมหรือสคริปต์ Python สำหรับทำงานนั้น
สิ่งที่แก้ได้แบบกำหนดผลลัพธ์แน่นอน หรือเมื่อ 5 ปีก่อนคงเป็นแค่เครื่องมือ command line ง่าย ๆ ตอนนี้กลับถูกทำเป็นการผนวก LLM
แทนที่จะใช้ LLM เพื่อสร้างเครื่องมือแบบกำหนดผลลัพธ์แน่นอน กลับเอา LLM มาแทนที่เครื่องมือเหล่านั้น
มันกลับหัวกลับหางไปหมด และผมไม่เข้าใจจริง ๆ ว่าทำไมคนตำแหน่งสูง ๆ ในบริษัทเราถึงมองว่านี่คืออนาคต
ผมไม่อยากได้ CI pipeline ทั้งชุดที่ประกอบด้วยแค่ LLM prompt
มันทำได้ง่ายก็จริง แต่แพง ช้า และล้มเหลวได้ง่ายในแบบที่คาดเดาไม่ได้
แม้แต่ code review ก็เหมือนกัน เรื่องที่ควรเป็นแค่กฎ linting ง่าย ๆ กลับกลายเป็นขั้นตอนให้ LLM ผ่านก่อน
ทั้งที่ LLM เก่งมากในการช่วยสร้างกฎ linting แบบนั้นแท้ ๆ
ทั้งทีมกำลังต่อต้านอย่างหนักก็เพราะเหตุผลนี้เอง
สิ่งที่พอนึกออกได้ส่วนใหญ่มีแต่จะทำให้แย่ลง และผมยังได้ยินมาแล้วด้วยว่าแค่ อัตราความล้มเหลวเกิน 1~2% ก็ยอมรับไม่ได้
ถ้าจะให้ถึงระดับนั้น ต้องมีโครงสร้างและมาตรฐานมากขึ้น ไม่ใช่น้อยลง
[1] https://thedailywtf.com/articles/Classic-WTF-No-Quack
แค่นึกภาพเจ้าหน้าที่ที่ผ่านการฝึกมาอย่างดีและเข้าใจภาพรวมได้ แล้วนึกภาพบริษัทลงทุนให้คนใช้ AI ค้นหาความรู้ ประเมินความเกี่ยวข้อง และช่วยลูกค้าได้ดีขึ้น
แต่ตอนนี้ AI ถูกขายในทำนองว่า “ไม่ต้องมีพนักงานซัพพอร์ต” ไม่ใช่ “จะให้บริการที่ดีกว่าได้อย่างไร”
ในหลายผลิตภัณฑ์ บริการที่ดีกว่าไม่ได้มีความหมายมากนัก และสินค้าที่ถูกกว่าก็มักมีโอกาสชนะสูงกว่า
ผู้คนไม่ได้อยากจ่ายเพิ่มเพื่อของที่ดีกว่า แต่อยากได้ของที่ดีกว่าในราคาเท่าเดิม
นั่นคงเป็นเหตุผลว่าทำไมบริษัทต่าง ๆ ถึงไม่ค่อยลงทุนเวลาเพื่อหาวิธีใช้ AI ให้ถูกต้อง
ผมคิดว่าสาเหตุของช่องว่างนี้ อย่างแรกคือ Claude เก่งเรื่องเขียนโค้ดจนน่าทึ่ง
เหตุผลหลักคือมีการคัดสรรองค์ความรู้ทางเทคนิคไว้แล้ว และมีโค้ดที่ใช้งานได้จริงจำนวนมหาศาลซึ่งถูกติดป้ายกำกับอย่างระมัดระวังผ่าน GitHub ตลอดช่วงกว่า 10 ปีที่ผ่านมา
อีกอย่างคือ ถ้าเป็นภาษาที่ Turing-complete สิ่งที่ทำได้ก็มีขอบเขตอยู่ประมาณหนึ่ง
อย่างที่สองคือ สำหรับงานอื่น ๆ ส่วนใหญ่แล้ว LLM ค่อนข้างน่าผิดหวัง
งานรีเสิร์ชมักออกมาแค่ระดับธรรมดา
ถ้าจะดูแบบเข้มงวด ก็แค่ลองใช้รีเสิร์ช prompt เดิมซ้ำหลายครั้ง แล้วทำ confusion matrix เพื่อนับว่ามี false positive กับ false negative ออกมาเท่าไร
ส่วนการใช้งานอื่น ๆ ก็ควรถามตัวเองตามตรงว่ามันให้ประโยชน์มากกว่าการค้นใน search engine พื้นฐานหรือเข้าไปดู Wikipedia มากแค่ไหน
สำหรับการใช้งานของผู้ใช้ทั่วไป มันสะดวกขึ้นอยู่บ้าง แต่ยังห่างไกลจากคำว่าปฏิวัติ
ในงานเขียนโปรแกรม เอเจนต์สามารถรัน compiler และทดสอบ จากนั้นลองใหม่จนกว่าจะใช้ได้
แต่ถ้าคุณอยากเย็บเสื้อยืดขึ้นมาสักตัว เช่นนั้น AI ก็ไม่มีประโยชน์
ทุกวันนี้ต้องคำนึงด้วยว่าผู้ใหญ่ชาวอเมริกันจำนวนมากมีทักษะการอ่านเขียนที่ไม่เพียงพอในทางปฏิบัติมากแค่ไหน
ณ ปี 2023 ผู้ใหญ่วัยทำงานในสหรัฐฯ 27% อยู่ที่ระดับ 1 หรือต่ำกว่าจาก 5 ระดับของความรู้ความเข้าใจด้านการอ่านเขียนของ PIAAC
ในปี 2013 คนที่อยู่ระดับ 1 หรือต่ำกว่ามี 17% ดังนั้นช่วง 10 ปีที่ผ่านมาแย่ลงอย่างมาก
คะแนนรวมในปี 2023 คือ ระดับ 1 หรือต่ำกว่า 27%, ระดับ 2 29%, ระดับ 3 31%, ระดับ 4/5 13%
อ้างอิงไว้ก่อนว่า ระดับ 1 คือระดับที่จัดการแม้แต่ข้อความยาวหนึ่งหน้าได้ไม่ค่อยดีนัก และพอรับมือกับหน้าเว็บง่าย ๆ ยาวหนึ่งหน้าได้บ้าง
ต้องถึงระดับ 2 จึงจะจัดการข้อความง่าย ๆ หลายหน้าได้ แต่ก็ยังยากถ้าเป็นเนื้อหาซับซ้อน
คนที่ไม่ใช้ AI เลย หลายกรณีก็เป็นเพราะโดยพื้นฐานแล้วใช้ไม่เป็นจึงไม่ใช้
ที่มา: https://nces.ed.gov/surveys/piaac/2023/national_results.asp
https://nces.ed.gov/surveys/piaac/measure.asp?section=1⊂_...
ผมมองว่าตัวเองมีทักษะการอ่านเขียนแน่ ๆ แต่ก็สงสัยว่าตัวเองจะทำโจทย์ระดับ 4/5 ได้ดีแค่ไหน
ยังสงสัยด้วยว่ามันซ้อนทับกับตัวชี้วัดที่กว้างกว่า เช่น ความจำ สติปัญญา หรือวินัยในการเรียน ที่แม้แต่คนที่มี “ทักษะการอ่านเขียน” โดยทั่วไปก็อาจทำได้ไม่ดีหรือเปล่า
อ่านจากคำอธิบายแล้วรู้สึกว่าน่าจะเป็นแบบทดสอบที่เหมาะกับการเอาไปใช้กับ AI และอยากเห็นคะแนนความชำนาญของหลาย ๆ โมเดล
พอเลื่อนลงไปทีหลังก็เห็นว่าช่วงท้ายมีตัวอย่างคำถามไปถึงระดับ 4 และโจทย์ระดับ 4 ก็ดูเล็กน้อยมาก
แม้แต่บทความ Q Drum ที่ยืดยาวที่สุดก็มีจุดวิจารณ์แค่สองอย่างคือพื้นที่ราบกับต้นทุน และถ้ารู้จัก LifeStraw ก็แทบเดาคำวิจารณ์คล้ายกันในอีเมลได้อยู่แล้ว
ตอนเห็นคะแนนกับคำอธิบายระดับความชำนาญ ผมกะไว้แบบแจกแจงปกติประมาณหนึ่งเลยคิดว่าระดับ 4/5 คงยากจริง แต่พอเห็นโจทย์จริงแล้วกลับยิ่งเศร้าที่คะแนนออกมาต่ำ
ถึงอย่างนั้น การเรียกแต่ละข้อสอบว่า “สิ่งเร้า” ก็ให้ความรู้สึกปลอดเชื้อและเป็นเชิงคลินิกเกินไปจนน่าขำ
แอป AI บนมือถือรองรับ การสนทนาด้วยเสียง
ทักษะการอ่านเขียนที่ต่ำอาจยิ่งเป็นแรงจูงใจให้ใช้ AI สร้างและสรุปข้อความ
สถิตินี้ขัดกับสัญชาตญาณพอสมควร
ประชากรสหรัฐฯ ราวหนึ่งในสามมีวุฒิปริญญาตรี แต่กลับมีเพียง 13% ที่ผ่านงานด้านการอ่านเขียนระดับ 4/5 ได้ ฟังดูแปลก
ดูจากโจทย์ตัวอย่างแล้วก็ไม่ได้ยาก และแม้แต่งานระดับ 4 ก็แค่ให้อ่านข้อความสั้น ๆ แล้วดึงคำวิจารณ์เกี่ยวกับผลิตภัณฑ์ออกมา
ไม่ได้หมายความว่าคนจบปริญญาตรีทุกคนฉลาด แต่จะให้เชื่อว่าสองในสามของพวกเขาผ่านระดับ 4/5 ไม่ได้ก็ดูยาก
ถ้าคนจบปริญญาโทมี 13% นี่หมายความว่าคนที่ผ่านระดับ 4/5 ก็มีแค่ 13% นั้นหรือเปล่า
https://en.wikipedia.org/wiki/Educational_attainment_in_the_...
โดยเฉพาะมีคนพูดกันมากว่าทักษะ การอ่านจับใจความ แย่มาก และมีหลายกรณีที่เด็กอ่านไปไม่กี่ย่อหน้าแล้วตอบคำถามเกี่ยวกับเนื้อหาไม่ได้
ที่น่ากลัวเกี่ยวกับการที่ AI จะถูกใช้ไปทุกหนทุกแห่ง ไม่ใช่เพราะมันเป็นทางออกที่ดีที่สุด แต่เพราะโดยเนื้อแท้แล้วผู้คนขี้เกียจ แค่อยากให้งานเสร็จ และไม่ได้ใส่ใจคุณภาพมากนัก
“ความพยายามต่ำและความสะดวกสบาย” ดูเหมือนจะชนะ “คุณภาพสูงสุด” ได้อย่างสม่ำเสมอ และสิ่งนี้จะทำให้ทุกอย่างสำหรับทุกคนด้อยลง
ถ้าเทียบ Windows 11 กับ 98 ก็จริงที่ 11 ทำอะไรได้มากกว่าและพังก็น้อยกว่า
แต่นอกเหนือจากนั้นมันดีกว่าจริงหรือ? ในสิ่งที่ทั้งคู่ทำได้ อันไหนทำได้ดีกว่า? อันไหนเร็วกว่า? อันไหนใช้ง่ายกว่า?
ผมว่าระดับนั้นก็โอเค
ส่วนตัวแล้วอยากให้มีการคุยกันมากกว่านี้ว่า “ใช้ AI” จริง ๆ หมายถึงอะไร
และมันเชื่อมกับความคิดระดับบนของผู้คนเกี่ยวกับ “เทคโนโลยี”, “AI”, หรือ “ศีลธรรมและอารมณ์” อย่างไร
อย่างน้อยสำหรับผม เส้นแบ่งเริ่มพร่าเลือนไปหน่อยแล้ว
ตัวอย่างเช่น ถ้าคู่ของผมใช้ Google.com บ่อยตลอดทั้งวัน และแทบทุกครั้งก็เลือกและเชื่อสรุปที่ AI สร้างไว้ด้านบนสุดของหน้าผลการค้นหา อย่างนี้ในทางปฏิบัติควรเรียกว่า “ใช้ AI” ไหม?
หรือคำว่า “ใช้ AI” ควรใกล้กับพวกเด็กแวมไพร์บนฟูกแบบในไซไฟที่รันเอเจนต์ย่อย 1000 ตัวอยู่ใต้ตัวมากกว่า?
ตอนนี้แม้แต่การใช้มือถือพื้นฐานก็มี AI ยัดอยู่เต็มไปหมด ดังนั้นไม่ว่าเราจะเรียกมันแบบนั้นหรือไม่ ผมว่าภาพรวมทั้งสเปกตรัมก็น่าสนใจมาก
อุปมาว่า “ผู้คนบริโภค AI เหมือนกินเนื้อ บางคนยอมรับมัน บางคนจำกัดการใช้ และบางคนหลีกเลี่ยงมันโดยสิ้นเชิง” น่าสนใจดี
เพราะแม้จะมีทั้งปัญหาเชิงนิเวศจริง ๆ และเหตุผลเชิงหลักการในการคัดค้านการกินเนื้อ แต่โดยรวมแล้ว การบริโภคเนื้อสัตว์ ในหลายประเทศทั่วโลกก็เพิ่มขึ้นมาตลอดหลายทศวรรษ