2 คะแนน โดย GN⁺ 2024-10-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สรุป

  • ผลกระทบของโมเดลภาษาขนาดใหญ่ (LLM)
    โมเดลภาษาขนาดใหญ่ (LLM) มีศักยภาพที่จะเข้ามาแทนที่ข้อมูลและแหล่งความรู้ที่มนุษย์สร้างขึ้นได้ อย่างไรก็ตาม การทดแทนนี้อาจก่อให้เกิดปัญหา เนื่องจากนำไปสู่การลดลงของข้อมูลฝึกที่จำเป็นต่อการพัฒนาโมเดลในอนาคต งานวิจัยนี้บันทึกไว้ว่าเมื่อ ChatGPT เปิดตัว กิจกรรมบน Stack Overflow ก็ลดลงตามไปด้วย

  • ผลกระทบของ ChatGPT
    ภายใน 6 เดือนหลังการเปิดตัวของ ChatGPT กิจกรรมบน Stack Overflow ลดลง 25% เมื่อเทียบกับแพลตฟอร์มลักษณะคล้ายกันในรัสเซียและจีน รวมถึงฟอรัมคณิตศาสตร์ ซึ่งสามารถตีความได้ว่าเป็นค่าต่ำสุดของผลกระทบที่แท้จริงของ ChatGPT ต่อ Stack Overflow การลดลงเด่นชัดยิ่งขึ้นในโพสต์ที่เกี่ยวข้องกับภาษาโปรแกรมที่มีการใช้งานแพร่หลายที่สุด

  • ผลของการเข้ามาแทนที่โดย LLM
    LLM ไม่ได้เข้ามาแทนที่เพียงคอนเทนต์ที่ซ้ำซ้อนหรือคุณภาพต่ำเท่านั้น แต่ยังรวมถึงคอนเทนต์คุณภาพสูงด้วย ผู้ใช้ ChatGPT มีแนวโน้มจะโพสต์บน Stack Overflow น้อยลง และไม่ได้เข้าใช้งานแพลตฟอร์มเป็นประจำ สิ่งนี้ชี้ให้เห็นว่าการยอมรับ LLM อย่างรวดเร็วอาจลดการผลิตข้อมูลสาธารณะที่จำเป็นต่อการฝึกโมเดล และก่อให้เกิดผลกระทบสำคัญตามมา

  • ผลกระทบแยกตามภาษาโปรแกรม
    ผลกระทบของ ChatGPT เด่นชัดมากกว่าในภาษาโปรแกรมที่ใช้งานแพร่หลาย เช่น Python และ Javascript ขณะที่ในบางภาษาเฉพาะทางอย่าง CUDA จำนวนโพสต์กลับเพิ่มขึ้นหลังการเปิดตัว ChatGPT ซึ่งสะท้อนว่าความสนใจต่อซอฟต์แวร์ที่เกี่ยวข้องกับ AI กำลังเพิ่มสูงขึ้น

สรุปโดย GN⁺

  • งานวิจัยนี้วิเคราะห์ผลกระทบของโมเดลภาษาขนาดใหญ่ เช่น ChatGPT ที่มีต่อแพลตฟอร์ม Q&A ออนไลน์ โดยเน้นให้เห็นผลกระทบด้านลบของการยอมรับ AI อย่างรวดเร็วต่อการผลิตข้อมูลสาธารณะ
  • เมื่อการใช้งาน ChatGPT เพิ่มขึ้น กิจกรรมบนแพลตฟอร์มอย่าง Stack Overflow ก็ลดลง และอาจส่งผลต่อคุณภาพของข้อมูลฝึกสำหรับโมเดล AI ในอนาคต
  • การเปลี่ยนแปลงนี้อาจส่งผลสำคัญต่อเศรษฐกิจดิจิทัลและวิธีการเข้าถึงข้อมูล และยังก่อให้เกิดความกังวลเกี่ยวกับความยั่งยืนของระบบนิเวศ AI
  • โครงการอื่นที่มีบทบาทคล้ายกัน ได้แก่ รีโพซิทอรีเกี่ยวกับภาษาโปรแกรมบน GitHub

1 ความคิดเห็น

 
GN⁺ 2024-10-14
ความคิดเห็นจาก Hacker News
  • สุดท้ายแล้วปัญหาอยู่ที่ว่า LLM จะยึดอะไรเป็นหลักฐานอ้างอิง เพราะมันไม่ได้สร้างข้อมูลใหม่ แต่เป็นการพูดซ้ำและผสมผสานข้อมูลเดิม ดังนั้นสำหรับโค้ดที่ไม่มีตัวอย่างสาธารณะหรือคำตอบใน Stack Overflow/Reddit เพียงพอ ประสิทธิภาพจะตกลงอย่างมาก

    • อย่างไรก็ตาม GPT o1 เคยช่วยแก้ use case ที่ค่อนข้างซับซ้อนของ epub.js ซึ่งเป็นไลบรารีโอเพนซอร์สที่เอกสารไม่โปร่งใสและมีตัวอย่างสาธารณะน้อยได้
      ต้องถามตอบกันหลายรอบกว่าจะได้วิธีแก้ที่ใช้งานได้ แต่สุดท้ายก็ทำสำเร็จ และทำให้สงสัยว่า AI ค้นหาและย่อยข้อมูล obscure บนอินเทอร์เน็ตได้ดี หรือเพียงแต่เข้าใจเอกสารที่อ่านยากได้ดีกว่าผมกันแน่ ถ้าเป็นอย่างหลัง ความจำเป็นของตัวอย่างสาธารณะก็อาจลดลงได้
    • อาจเกิดผลข้างเคียงที่น่าสนใจคือ เพราะ LLM ไม่รู้ ผู้คนอาจสร้าง ภาษาโปรแกรมและเฟรมเวิร์ก ใหม่ ๆ แบบสุ่มสี่สุ่มห้าน้อยลง
      ตอนนี้ก็เอนเอียงไปทางเทคโนโลยีที่ LLM จัดการได้ดีอยู่แล้ว และข้อดีของการให้ LLM ช่วยแก้ปัญหาได้ 90% นั้นใหญ่กว่าประโยชน์ของภาษา หรือเฟรมเวิร์กที่ดีกว่าเดิมเล็กน้อย ผมค่อนข้างไม่ชอบ Python ในฐานะภาษา แต่ก็ปฏิเสธได้ยากว่า LLM ทำงานกับ Python ได้ดีกว่าภาษาอื่นจำนวนมากอย่างชัดเจน
    • ตรงข้ามกับคำพูดที่ว่า “มันไม่ได้สร้างข้อมูลใหม่” การแบ่งปันความรู้ ส่วนใหญ่บนแพลตฟอร์ม Q&A ออนไลน์ไม่ใช่กิจกรรมเชิงสร้างสรรค์อยู่แล้ว นอกจากตัวผู้พัฒนาระบบเอง คนอื่น ๆ ก็แทบจะถามปัญหาเดียวกันที่ทุกคนเจอซ้ำไปซ้ำมา และส่วนใหญ่เป็นการทำหน้าที่แทนแพลตฟอร์มค้นหา
    • สิ่งที่ LLM ใช้เป็นหลักฐานอ้างอิงได้คือ เอกสารทางการ
      ตัวเลขนี้แต่งขึ้นแต่พอปกป้องได้: 90% ของข้อมูลใน Stack Overflow เป็นสิ่งที่ถูกพูดซ้ำมาจากคู่มือที่ไหนสักแห่ง ปัญหาคือมักหาข้อมูลที่ต้องการในเอกสารที่เกี่ยวข้องได้ยาก และถึงเจอก็มักอ่านยาก แต่ LLM เก่งมากในการอ่านและทำความเข้าใจเอกสาร
    • LLM จะสลับไปมาระหว่างวิธีเก่ากับวิธีใหม่แบบคร่าว ๆ และเมื่อ โค้ดสปาเกตตีจาก LLM ใหญ่ขึ้น ก็จะไม่สามารถเพิ่มฟีเจอร์อย่างแม่นยำโดยไม่ทำให้ตรรกะเดิมพังได้
      เดโมเชิงเทคนิคที่สร้างแอปทั้งตัวได้ทันทีด้วยพรอมป์หนึ่งหรือสองอันนั้นเปราะบาง ถ้าไม่รู้ว่ากำลังทำอะไรอยู่ ระหว่างเพิ่มฟีเจอร์ต่อไปเรื่อย ๆ มันจะเปลี่ยนวิธีเรียก API วิธีจัดการสถานะ และไลบรารี CSS ไปเรื่อย ๆ ตัวอย่างเช่น ในไฟล์ที่มีฟังก์ชัน fetch แบบเนทีฟอยู่ 3 จุด จู่ ๆ ก็เสนอให้ติดตั้งและใช้ axios โดยไม่มีเหตุผล
      บางทีก็ลบส่วนอย่าง {/* rest of your functions here*} ทิ้งไปด้วย
      ผ่านไปสักพักจะพบว่าใช้งานได้อย่างปลอดภัยแค่กับงานน่าเบื่ออย่างลูปหรือ switch เท่านั้น ดังนั้นงานนักพัฒนาดูจะยังปลอดภัยไปอีกระยะหนึ่ง
  • งานวิจัยบอกว่า LLM กำลังลด การแบ่งปันความรู้สาธารณะ และผลกระทบนั้นไม่ใช่แค่การแทนที่คอนเทนต์ซ้ำซ้อน คุณภาพต่ำ หรือระดับมือใหม่ แต่ข้อกล่าวอ้างยังอ่อน และผลลัพธ์ก็ไม่ได้ชวนหวือหวาเท่าชื่อเรื่อง
    ข้อแรก สำหรับการทดสอบที่เสนอว่า LLM แทนที่โพสต์คุณภาพต่ำนั้น แสดงแค่ Figure 3 แต่ไม่ให้ผลการถดถอย ในทางกลับกัน กลับรายงานการทดสอบการแบ่งประสบการณ์ผู้ใช้แบบตามอำเภอใจ เช่น ถ้าผู้ใช้เคยโพสต์ 10 ครั้งก็ถือว่าเป็นผู้มีประสบการณ์ น่าสงสัยว่าทำไมจึงละการทดสอบตามคุณภาพโพสต์ แต่แสดงผลของ bucket “ประสบการณ์” ที่ตั้งขึ้นเอง
    ข้อสอง Figure 3 เองแสดงการเปลี่ยนแปลงแนวโน้มของคำถามที่ดีและคำถามเป็นกลาง คำถามที่ดีเคยมีแนวโน้มลดลงแล้วกลายเป็นทรงตัว ส่วนคำถามเป็นกลางเคยมีแนวโน้มเพิ่มขึ้นแล้วกลายเป็นทรงตัว คำถามแย่ยังคงลดลงต่อไปโดยไม่มีการเปลี่ยนแปลงแนวโน้มที่เด่นชัด สิ่งนี้กลับชี้ไปยังข้อสรุปตรงข้ามว่า LLM กำลังแทนที่คอนเทนต์คุณภาพต่ำ
    บทสรุปจำเป็นต้องใช้ถ้อยคำที่หนักแน่นกว่าเดิม และงานวิจัยก็ไม่ได้ให้รางวัลกับผลลัพธ์ที่ละเอียดรอบคอบแต่ไม่น่าประหลาดใจมากนัก เลยรู้สึกว่าออกมาเป็นชื่อเรื่องที่หวือหวาและผลลัพธ์บางส่วนที่ดูเหมือนถูกละไว้

    • แม้จะไม่ใช่สิ่งที่บทความนี้พูดถึงโดยตรง แต่เมื่อก่อนมีคนใน HN เคยอธิบายปรากฏการณ์คล้ายกันไว้ได้ดีว่า อินเทอร์เน็ตกำลังแตกเป็นบอลข่าน นี่ไม่ใช่แนวคิดใหม่ แต่ถ้าโฟกัสที่ชุมชนออนไลน์จะเข้ากันเป็นพิเศษ
      ผู้คนไม่ได้แบ่งปันข้อมูลอย่างเสรีในฟอรัมสาธารณะเหมือนเมื่อก่อน แต่ถอยไปอยู่ในบริการอย่าง Discord ขุดคูน้ำล้อมปราสาทและยกสะพานชักขึ้น จะโทษก็ยาก ฟอรัมและโซเชียลมีเดียจำนวนมากค่อย ๆ ใส่การออกแบบและการหารายได้ที่เป็นปฏิปักษ์มากขึ้น ส่วน AI/LLM ก็ครอว์ลไปทั่ว สูบทุกอย่างไป แล้วเอาไปไว้หลังกำแพงจ่ายเงิน พร้อมทำลายโอกาสที่แหล่งที่มาต้นฉบับจะถูกค้นพบในการค้นหา อัลกอริทึมที่กระตุ้น engagement ก็ขยายวาทะเผ็ดร้อนและการโต้เถียง ทุกวันนี้ HN เป็นข้อยกเว้นที่หาได้ยาก
      สุดท้าย คนที่มีความสนใจหรือความรู้เฉพาะจะไปรวมกันในชุมชนส่วนตัวและคุยกันเองเท่านั้น ทำให้สภาพแวดล้อมยากขึ้นสำหรับคนใหม่ที่อยากเข้ามา
    • ถ้า LLM ช่วยโค้ดเดอร์ได้ดีพอจนผู้คนใช้เวลากับ Stack Overflow น้อยลง แล้วหันไปผลักดัน โค้ดโอเพนซอร์ส มากขึ้น นั่นก็อาจมีคุณค่ากว่าสำหรับทุกคน
  • เป็นเรื่องปกติที่ผู้คนจะลดการมีส่วนร่วมฟรี ๆ บน Stack Overflow เพราะ Stack Overflow กำลังขายผู้ร่วมสร้างคอนเทนต์ผ่าน สัญญา OpenAI API และบล็อกโพสต์อวดอ้าง “AI” จำนวนมาก

    • ผมไม่คิดว่านั่นเป็นเหตุผลหลัก ผู้คนไม่ได้ใส่ใจมากนักถ้ามีใครเอาสิ่งที่ตนสร้างบนแพลตฟอร์มไปขาย โซเชียลมีเดียยักษ์ใหญ่อย่าง Facebook ก็ทำแบบนั้นมาหลายปี แต่ผู้คนก็ยังใช้กันอยู่ คนมาที่ Stack Overflow เพื่อหาคำตอบ แล้วทำไมต้องสนใจว่าภายหลังจะมีคนเอาคำตอบนั้นไปฝึก LLM
    • เรื่องนี้ดูใกล้เคียงกับ จำนวนคำถามที่ลดลง มากกว่าคำตอบที่ลดลง
    • ช่วงเวลาวิเคราะห์ถึงเดือนพฤษภาคม 2023 จึงอยู่ก่อน สัญญา OpenAI หนึ่งปี สัญญานั้นไม่เกี่ยวกับผลลัพธ์ของงานวิจัยนี้
    • นี่เป็นสิ่งที่ซ้อนทับอยู่บนแนวโน้มระยะยาวที่มีมาตั้งแต่ราวปี 2014 แล้ว ความไม่พอใจต่อคุณภาพและลักษณะของคำถามเพิ่มขึ้นต่อเนื่อง กล่าวคือคำถามที่ไม่ทำตามแนวทางของไซต์ และยังขาดความพยายามที่จะเข้าใจว่าไซต์ควรทำงานอย่างไร
  • โดยส่วนตัวแล้ว คำถามจำนวนมากเกี่ยวกับโปรเจกต์โอเพนซอร์สได้ย้ายไปที่ GitHub และ Discord และนอกจาก LLM แล้วก็ยังมีการย้ายแพลตฟอร์มด้วย
    สำหรับปัญหาโปรแกรมมิ่งทั่วไป ผมมักเริ่มจาก Gemini เพราะมันตอบโดยใช้คำศัพท์ของปัญหาของผมได้ทันที ทำให้ไม่ต้องไปไล่เปิดหลายหน้าแล้วประกอบเอง หรือถึงจะผิด ก็มักให้เบาะแสที่ดีกว่าในการเริ่มค้นหา ช่วยประหยัดเวลาที่ต้องคลิกโพสต์ Stack Overflow หลายโพสต์ที่ชื่อคล้ายกันแต่มีความต่างสำคัญในเนื้อหา

    • ปี 2022: Discord ไม่ดีเพราะเสิร์ชเอนจินไม่ index
      ปี 2024: Discord ดีเพราะเครื่องสร้างขยะ AI ไม่ index
    • ประสบการณ์ที่คำถามเกี่ยวกับโปรเจกต์โอเพนซอร์สย้ายไป GitHub และ Discord นั้นตรงกันเป๊ะ แถมยังดีตรงที่สามารถ คุยกับผู้ดูแลโดยตรง ได้ด้วย
  • ผมติดตาม subreddit ด้านเทคนิคหลายแห่ง และในช่วง 2 ปีที่ผ่านมาเห็นคำถามเดียวกันถูกหว่านไปหลาย subreddit บ่อยมาก บัญชีเพิ่งสร้างใหม่ หรือไม่ก็เป็นคำตอบบรรทัดเดียวทั่ว ๆ ไปที่ดูเหมือนสร้างอัตโนมัติทั้งหมด
    ผมมองว่าเป็นบัญชีบอตสำหรับฝึก AI และก่อนจะเขียนคำอธิบายทางเทคนิคยาว ๆ ก็จะตอบก็ต่อเมื่อเช็กก่อนว่าคนจริงเป็นคนถามหรือไม่

    • อย่างไรก็ดี มันก็ช่วยในการฝึกอยู่ดี
      สุดท้ายความสำเร็จของ “วัฒนธรรมการให้ของขวัญ”, “ความรู้ควรเป็นอิสระ”, F/OSS ฯลฯ ผ่าน WWW น่าจะทำให้จริยธรรมแฮกเกอร์แบบ Stallman ทั้งหมดถูกมองในแง่ร้าย
      เราทุกคนทำงานให้ IBM^H^H^HOpenAI แต่ตอนนี้ไม่มีอะไรอย่าง GPL มาคอยหนุนหลังเราแล้ว
  • ถ้ารู้สึกเดจาวู เรื่องนี้เป็นสิ่งที่นักวิจารณ์เคยหยิบมาขยายประเด็นใหญ่แล้วเมื่อเดือนกรกฎาคม 2023 ในชื่อ “Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow”: https://arxiv.org/abs/2307.07367
    HN ก็เคยพูดถึงแล้ว: https://news.ycombinator.com/item?id=36763718

  • สุดท้ายแล้ว โมเดลภาษาขนาดใหญ่ จะเป็นจุดจบของโอเพนซอร์ส ยอมรับได้เลย
    โมเดลภาษาขนาดใหญ่ถูกใช้เพื่อรวบรวมและสอดแทรกทรัพย์สินทางปัญญา ในกระบวนการนี้ไม่มีการให้เครดิตผู้เขียนหรือลำดับสายงาน ไม่มีการระบุที่มาหรืออ้างอิง โดยพฤตินัยแล้ว ทรัพย์สินทางปัญญาที่ใช้ฝึกโมเดลกลายเป็นทรัพย์สินร่วมแบบนิรนาม
    รางวัลทางสังคมที่มักเป็นแรงจูงใจของงานโอเพนซอร์ส เช่น เครดิตและความเคารพ จะถูกบั่นทอน แล้วมันก็จะจบลงแบบนั้น

    • ทำไมจะไม่เขียน โอเพนซอร์ส ให้มากขึ้นด้วย LLM ล่ะ?
      ต้นทุนการมีส่วนร่วมลดลงอย่างมาก เช่น 100 ดอลลาร์จะได้โทเคน GPT-3.5 200 ล้านโทเคน เท่ากับใช้ 10,000 โทเคนในการพัฒนาแต่ละบรรทัดของโปรเจกต์ 20,000 บรรทัด
      นี่คือโปรเจกต์ขนาดกลางที่เป็นไปได้ด้วยการบริจาคครั้งเดียวและใช้เวลาบ่ายครึ่งวันจัดการเฟรมเวิร์กเวิร์กโฟลว์
    • ผมไม่เข้าใจมุมมองนี้
      ถ้า LLM เป็นจุดจบของโอเพนซอร์ส เหตุผลก็คงเป็นอย่างที่พูด คือมันรวบรวมและสอดแทรกทรัพย์สินทางปัญญา และทำให้ทรัพย์สินทางปัญญาที่ถูกฝึกโดยไม่มีผู้เขียน·ลำดับสายงาน·การระบุที่มากลายเป็นทรัพย์สินร่วมแบบนิรนาม
      แต่ถ้านี่เป็นจริงและยังได้รับอนุญาตต่อไป ทรัพย์สินทางปัญญาทั้งหมดที่พึ่งพาลิขสิทธิ์ก็ถูกคุกคามเหมือนกัน ไม่ใช่ปัญหาเฉพาะของโอเพนซอร์ส ถ้าหมายความว่างานที่ไม่ใช่โอเพนซอร์สจะได้รับการคุ้มครองเพราะเก็บ “ซอร์ส” หรือสิ่งเทียบเท่าไว้เป็นความลับ ผมก็ไม่รู้ว่าจะหาเงินจากภาพยนตร์บล็อกบัสเตอร์ที่ให้ใครดูไม่ได้ หรือนวนิยายที่ต้องไม่ให้ใครอ่านได้อย่างไร
      เครดิตและความเคารพไม่ใช่แรงจูงใจเดียวของงานโอเพนซอร์ส และผมยังสงสัยด้วยว่ามันเป็นแรงจูงใจที่พบบ่อยที่สุดหรือไม่ รางวัลแบบนั้นใกล้เคียงกับภาพที่ผู้เล่นที่พยายามทำให้โอเพนซอร์สกลายเป็นโซเชียลเน็ตเวิร์กหรือเกมิฟายอยากวาดขึ้นมากกว่า
      และก็ไม่ชัดเจนว่าทำไมสิ่งเหล่านั้นต้องหายไป การประดิษฐ์กล้องไม่ได้ทำให้ความสุขทางศิลปะของจิตรกรวาดภาพเหมือนหายไป แรงจูงใจทางการเงินล้วน ๆ อาจได้รับผลกระทบ แต่สิ่งนั้นห่างไกลจากแรงจูงใจที่เฉพาะเจาะจงของโอเพนซอร์ส
    • ไม่ใช่อย่างนั้น มันแค่ทำให้โอเพนซอร์สที่นิชมากพออยู่แล้ว นิชยิ่งขึ้น เท่านั้น
  • การพยายามรักษาคอร์ปัสข้อความที่มนุษย์สร้างขึ้นซึ่งมีคุณค่าสำหรับการฝึก LLM ไว้เป็น สวนปิด นั้นเป็นการต่อสู้ที่แพ้ไปแล้ว มีความเป็นไปได้สูงว่าม้าหลุดออกจากคอกไปแล้ว
    แต่ผมมองว่านี่เป็นปัญหาชั่วคราว LLM เป็นเทคโนโลยีช่วงเปลี่ยนผ่าน สักวันหนึ่งคงไม่จำเป็นต้องฝึกด้วย Reddit ทั้งหมดและทุกสิ่งทุกอย่างที่เคยถูกเขียนขึ้นมาแบบยกชุด โมเดลเชิงสถิติแบบนี้มีข้อจำกัดชัดเจน และมนุษย์ก็ไม่ได้เรียนรู้แบบนั้น ตลอดชีวิตเราอาจอ่านหนังสือหลายร้อยเล่ม หรืออาจหลายพันเล่ม แต่ไม่ได้อ่านเป็นล้านเล่ม และก็ไม่จำเป็นต้องทำเช่นนั้น
    สิ่งที่น่าสนใจคือ แม้ประเด็นนี้จะเป็นการขโมยอย่างชัดเจน แต่กลับถูก扱้าว่าเป็นการขโมยจากไซต์หรือบริษัทที่ “เป็นเจ้าของ” ข้อมูล ไม่ใช่การขโมยจากผู้ใช้ที่สร้างมันขึ้นมา ไซต์คอนเทนต์ที่ผู้ใช้สร้างขึ้นท้ายที่สุดแล้วถูกกำหนดให้ล้มเหลว เพราะแรงจูงใจไม่สอดคล้องกับผู้ใช้ และการไล่ล่ากำไรอย่างไม่รู้จบย่อมทำให้ผู้ใช้จากไปอย่างหลีกเลี่ยงไม่ได้
    อีกปัญหาหนึ่งคือ ต้องบริโภคทรัพย์สินทางปัญญามากแค่ไหนถึงจะถือว่าเป็นการขโมย ถ้า LLM ดูภาพยนตร์ทุกเรื่องที่เคยสร้างมา ก็น่าจะเป็นการขโมย แต่กี่เรื่องถึงจะมากเกินไป? Apocalypse Now อ้างอิงหรือได้รับแรงบันดาลใจอย่างหลวม ๆ จาก Heart of Darkness แต่เราไม่อาจบอกได้ว่ามนุษย์คนหนึ่ง “ขโมย” เพียงเพราะอ่าน Heart of Darkness
    อย่างที่พูดกัน ศิลปะทุกอย่างล้วนเป็นงานต่อยอด

    • เห็นด้วย แต่ก็อาจเป็นการให้สิทธิพิเศษกับวิธีทำงานของสติปัญญามนุษย์มากเกินไป LLM คือ ผู้รอบรู้ ที่พ่นคอนเทนต์ออกมาได้ด้วยความเร็วเหนือมนุษย์
      มันสร้างบทกวีและวรรณกรรมได้ และยังสร้างคำตอบด้านโค้ด ฟิสิกส์ หรือการซ่อมรถได้ในทำนองเดียวกัน มนุษย์ที่มีความสามารถแบบนั้นในปัจจุบันหาได้ยากมาก
      ดังนั้นผมเห็นด้วยว่า LLM เป็นสิ่งช่วงเปลี่ยนผ่าน แต่ในความหมายคล้ายกับความเป็นช่วงเปลี่ยนผ่านของสมองจาก basal ganglia ไปสู่ neocortex สมอง AI อเนกประสงค์ในอนาคตมีแนวโน้มสูงว่าจะมี LLM เป็นส่วนหนึ่งร่วมกับองค์ประกอบอื่น ๆ แต่ยังไม่ชัดเจนว่ามันจะวิวัฒน์ไปให้ทำงานเหมือนสมองมนุษย์เสมอไปหรือไม่
    • ฟอรัมออนไลน์บางครั้งเป็นที่เดียวที่หาแนวทางแก้ปัญหาสำหรับ สถานการณ์เฉพาะทางและกรณีขอบ ได้ เป็นเคล็ดลับที่คงยากมากหากต้องค้นพบด้วยตัวเอง
      LLM อาจเรียนรู้เอกสารทางการของเครื่องมือหรือไลบรารีได้ แต่ไม่สามารถทดลองกับปัญหาแปลก ๆ ที่พบได้บ่อยเหลือเกินในวงการเทคโนโลยีเพื่อค้นหาวิธีแก้เองได้ หากผู้คนหยุดแบ่งปันวิธีแก้เหล่านั้นให้กัน ก็อาจกลายเป็นปัญหาใหญ่
    • ช่วงนี้ผมคิดถึงประเด็นที่ว่า “มนุษย์ไม่ได้เรียนรู้แบบนั้น” บ่อยมาก
      เช่น ผมสงสัยว่าเราจะฝึก AI โดยใช้ reinforcement learning และ generative adversarial networks ให้ทำงาน IT จากชุดเอกสาร และวัด fitness ไม่เพียงจากความสำเร็จโดยตรงของงาน แต่รวมถึงความสามารถในการสร้างเอกสารใหม่ที่ถูกกลั่นกรองดีขึ้น ซึ่งช่วยให้สำเนาของตัวมันเองที่ไม่มีบริบทใด ๆ ก็ทำงานนั้นได้ดีด้วย ได้หรือไม่
    • ถ้านึกถึงหนังสืออย่าง “Finite and Infinite Games” ผมคิดว่าเพียงแค่อ่านสิ่งต่าง ๆ จากสาขาอื่นก็สามารถ “ประกอบสร้างใหม่” ความรู้และแก่นข้อโต้แย้งของหนังสือเล่มนั้นได้ในระดับหนึ่ง
      การได้ฟังกูรูทางจิตวิญญาณต่าง ๆ พูดสิ่งเดียวกันด้วยถ้อยคำที่ต่างกัน คล้ายกับการมองชิ้นกระจกสีเดียวกันในคาไลโดสโคปถูกจัดเรียงใหม่จนเกิดเป็นลวดลายใหม่
    • ถูกแค่ครึ่งเดียว การให้เหตุผลและความเข้าใจจริงอาจไม่ใช่จุดแข็งของ LLM แต่สิ่งที่น่าสนใจคือมันสามารถสร้างข้อมูลที่ดีจากทุกอย่างที่มันอ่านมาได้ ส่วนผมอ่านได้เพียงเศษเสี้ยวเล็ก ๆ ของสิ่งนั้น มันอาจโง่ได้ แต่ความจำดี
      ดังนั้นถ้า AI ในอนาคตยังถูกใช้เหมือน ChatGPT ตอนนี้ คือให้คนทั่วไปขอคำแนะนำแทบทุกเรื่อง ผมคิดว่าสุดท้ายมันก็ต้องอ่านทุกอย่างอยู่ดี
  • คนเราไม่โพสต์ในที่ที่ไม่ได้เข้าไปเยี่ยมชม
    เหตุผลที่ผู้คนไม่เข้า Stack Overflow สำหรับข้อมูลที่เป็นที่รู้จักดี โดยเฉพาะภาษาโปรแกรมยอดนิยม ไม่ใช่แค่เพราะ perplexity.ai, ChatGPT, Claude ฯลฯ ตอบคำถามได้ดีกว่าการอ่านหน้า Stack Overflow แต่ยังเพราะไม่ว่าคำตอบจะถูกหรือผิด ก็ทำให้คัดลอกไปวางได้เร็วกว่า
    ถ้าคุณไม่ได้อยู่บน Stack Overflow เพื่อถามคำถาม คุณก็จะไม่ไปตอบคำถามที่นั่นด้วย ไม่จำเป็นต้องมีเหตุผลอื่นเพื่ออธิบายผลการสังเกตนี้
    แน่นอนว่านี่หมายความว่า หาก Stack Overflow และฟอรัม Q&A อื่น ๆ ต้องการแข่งขัน ก็ต้องยกระดับความใช้งานได้ของคำตอบ หรือพูดอีกอย่างคือความสะดวกในการผสานคำตอบเข้ากับเวิร์กโฟลว์ ให้เป็นลำดับความสำคัญสูงสุด

    • การแข่งขันกับ AI เป็นสิ่งที่ชุมชน Stack Overflow และ Codidact ซึ่งเป็นฟอรัม Q&A อีกแห่งที่ผมใช้ ระบุไว้อย่างชัดเจนว่าไม่ใช่เป้าหมาย
      AI ไม่ได้ “ตอบคำถามได้ดีกว่า” มันแค่ตัดขั้นตอนกลางของการตีความคำถามและจับคู่กับถ้อยคำที่มีรูปทรงเหมือนคำตอบออกไปเท่านั้น มันมักหลอนบ่อย และแทบไม่มีการตรวจสอบความสมเหตุสมผลของสิ่งที่ผู้ถามพยายามจะทำ
      เหตุผลหลักที่มันเหนือกว่าฟอรัม Q&A ในด้านความเร็วและความสะดวก คือมันไม่สนใจเลยว่าคำถามและคำตอบนั้นจะเป็นประโยชน์ต่อคนอื่นในภายหลังหรือไม่ ไม่คำนึงถึงข้อกำหนดว่าต้องค้นพบได้ด้วยเสิร์ชเอนจิน คนอื่นต้องเข้าใจได้ว่าเป็นคำถามเดียวกัน และต้องโฟกัสอยู่ที่ประเด็นเดียว
      ตั้งแต่แรกมันไม่ได้ถูกออกแบบมาเพื่อสิ่งนั้น และก็ไม่มีประโยชน์อะไรที่จะทำเช่นนั้น ถ้าคนถัดไปถาม ก็สร้างเนื้อหาคำตอบเดิมขึ้นมาใหม่อีกครั้งในรูปแบบคุณภาพต่ำแบบอื่นก็ได้ ต่างจากผู้เชี่ยวชาญมนุษย์ AI ไม่เหนื่อยกับงานแบบนี้