โมเดลภาษาขนาดใหญ่จะกลายเป็นภัยต่อสินค้าสาธารณะดิจิทัลหรือไม่?

kuroneko · 2023-07-18T15:33:20+09:00

บทวิเคราะห์ผลกระทบของ LLM ต่อคอนเทนต์บนเว็บ โดยพิจารณาจากกิจกรรมบน Stack Overflow หลังยุค ChatGPT กิจกรรมบน Stack Overflow ลดลง 16%~25% หลัง ChatGPT ยิ่งเป็นภาษาที่ถูกใช้อย่างแพร่หลายและมีชื่อเสียงมาก การลดลงก็ยิ่งมาก เป็นตัวเลขจากการเปรียบเทียบกับไซต์ในจีนและรัสเซียที่มีการบล็อก ChatGPT รวมถึงไซต์ด้านคณิตศาสตร์ที่ AI เข้ามาแทนได้ยาก จำนวนโหวตต่อโพสต์ไม่เปลี่ยนแปลง จึงอาจมองได้ว่าคุณภาพของคำตอบไม่ได้ดีขึ้น หมายความว่าปริมาณข้อมูลที่มนุษย์สร้างขึ้นกำลังลดลงหลัง ChatGPT ส่งผลให้เกิดปัญหาได้หลายด้าน ทั้งปริมาณและคุณภาพของข้อมูลทั่วทั้งอินเทอร์เน็ตอาจลดลง และประสิทธิภาพของข้อมูลฝึก AI ก็อาจลดลงด้วย เนื่องจากข้อมูลของ ChatGPT ถูก OpenAI ถือครองแบบผูกขาด ช่องว่างทางเทคโนโลยีระหว่างบริษัทอาจกว้างขึ้น อาจทำให้ขอบเขตการสำรวจของมนุษย์แคบลง และบั่นทอนการพัฒนาของผลิตภัณฑ์หรือภาษารูปแบบใหม่ที่ AI ยังไม่ได้เรียนรู้ ช่องว่างระหว่างประเทศ ระหว่างระดับรายได้ และระหว่างชนชั้นที่เข้าถึงประโยชน์จาก LLM ได้ยาก อาจยิ่งกว้างขึ้น เป็นประเด็นที่ควรนำมาขบคิดเพื่อระบบนิเวศของเว็บและ AI ที่ยั่งยืน

(arxiv.org)

11 คะแนน โดย kuroneko 2023-07-18 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

บทวิเคราะห์ผลกระทบของ LLM ต่อคอนเทนต์บนเว็บ โดยพิจารณาจากกิจกรรมบน Stack Overflow หลังยุค ChatGPT
กิจกรรมบน Stack Overflow ลดลง 16%~25% หลัง ChatGPT
- ยิ่งเป็นภาษาที่ถูกใช้อย่างแพร่หลายและมีชื่อเสียงมาก การลดลงก็ยิ่งมาก
- เป็นตัวเลขจากการเปรียบเทียบกับไซต์ในจีนและรัสเซียที่มีการบล็อก ChatGPT รวมถึงไซต์ด้านคณิตศาสตร์ที่ AI เข้ามาแทนได้ยาก
จำนวนโหวตต่อโพสต์ไม่เปลี่ยนแปลง จึงอาจมองได้ว่าคุณภาพของคำตอบไม่ได้ดีขึ้น
หมายความว่าปริมาณข้อมูลที่มนุษย์สร้างขึ้นกำลังลดลงหลัง ChatGPT
ส่งผลให้เกิดปัญหาได้หลายด้าน
- ทั้งปริมาณและคุณภาพของข้อมูลทั่วทั้งอินเทอร์เน็ตอาจลดลง และประสิทธิภาพของข้อมูลฝึก AI ก็อาจลดลงด้วย
- เนื่องจากข้อมูลของ ChatGPT ถูก OpenAI ถือครองแบบผูกขาด ช่องว่างทางเทคโนโลยีระหว่างบริษัทอาจกว้างขึ้น
- อาจทำให้ขอบเขตการสำรวจของมนุษย์แคบลง และบั่นทอนการพัฒนาของผลิตภัณฑ์หรือภาษารูปแบบใหม่ที่ AI ยังไม่ได้เรียนรู้
- ช่องว่างระหว่างประเทศ ระหว่างระดับรายได้ และระหว่างชนชั้นที่เข้าถึงประโยชน์จาก LLM ได้ยาก อาจยิ่งกว้างขึ้น
เป็นประเด็นที่ควรนำมาขบคิดเพื่อระบบนิเวศของเว็บและ AI ที่ยั่งยืน

5 ความคิดเห็น

soupdog 2023-07-25

ดูเหมือนว่าเมื่อโมเดลภาษามาแทนที่การแลกเปลี่ยนที่ Stack Overflow เคยทำ ความรู้ที่ถูกแบ่งปันบนอินเทอร์เน็ตผ่านการสื่อสารกันระหว่างผู้คนก็ค่อย ๆ ลดลง หากยืมอุปมาเรื่องมหาวิหารกับตลาดมาใช้ ก็ดูเหมือนว่ามันกำลังกลายเป็นมหาวิหารที่มีใครบางคนผูกขาดไว้ในความหมายที่แท้จริง

laeyoung 2023-07-19

สิ่งที่น่ากังวลและเป็นปัญหาใหญ่ที่สุดที่ผมเจอด้วยตัวเองคือ สิ่งที่เศรษฐศาสตร์เรียกว่า "เงินเลวไล่เงินดี" กำลังเกิดขึ้น

ก่อนที่ ChatGPT จะออกมา ถ้าจะขออนุมัติ Google Ads ราวปลายปีที่แล้ว แค่เขียนบทความลงบล็อกประมาณ 8 ชิ้นก็พอแล้วครับ แต่ตอนนี้ต่อให้เขียนเป็น 2 เท่าก็ยังไม่ได้รับการอนุมัติ เพราะถูกมองว่าเนื้อหาไม่เพียงพอหรือเป็นเนื้อหาที่ใช้ไม่ได้ ทั้งที่เป็นบทความที่เขียนด้วยมือล้วน ๆ

พอบล็อกที่สร้างอัตโนมัติด้วย AI มีมากขึ้น เกณฑ์การอนุมัติ AdSense ก็สูงขึ้น และก็ไม่รู้เลยว่าจุดสิ้นสุดจะอยู่ตรงไหน ด้วยเหตุนี้ผมเลยอยู่ในสภาพที่เกือบจะยอมแพ้กับการขออนุมัติ AdSense สำหรับบล็อกรีวิวหนังที่เขียนมาเกือบ 3 เดือนแล้ว

ฝั่งที่ตรวจสอบเองก็แยกไม่ออกว่านี่คือของดีจริงไหม (คอนเทนต์ที่คนเขียน) หรือเป็นของเสีย (ทำด้วย AI หรือทำด้วย AI แล้วค่อยมาแก้) ก็เลยน่าจะเลือกใช้วิธียกระดับเกณฑ์ให้สูงขึ้นแทน สุดท้ายแล้วเราก็อาจจะได้เห็นภาพแบบที่เราเห็นเมื่อต้นปีนี้อีกครั้ง คือมีแต่หน้าเว็บที่สร้างอัตโนมัติไปโผล่อยู่บนอันดับต้น ๆ ของผลการค้นหาใน Google ก็เป็นได้ครับ

cosine20 2023-07-19

ผมกลับมองในแง่บวกมากกว่าครับ
วิธีค้นหาข้อมูลแบบดั้งเดิมจำเป็นต้องมีอยู่สองอย่าง คือ “ความสามารถในการพิมพ์คำค้นที่เหมาะสมลงในเสิร์ชเอนจิน” และ “ความสามารถในการคัดเลือกผลลัพธ์ที่ตรงกับสิ่งที่ตัวเองต้องการจากผลการค้นหา” ความเหนื่อยล้าที่เกิดจากตรงนี้ค่อนข้างมาก
บางครั้งก็แค่อยากหาโค้ดสำหรับงานง่าย ๆ แต่พอกดเข้าไปตามโพสต์ใน StackOverflow ที่ขึ้นมาในผลการค้นหา ก็จะเจอโค้ดคำตอบอยู่สามสี่แบบ ในจำนวนนั้นบางอันเป็นสเปกภาษารุ่นเก่าจนโดน downvote ว่าซับซ้อนเกินไป บางอันแม้จะเป็นคำตอบที่ถูกเลือกไว้ แต่พอมีการอัปเวอร์ชันแล้วก็ใช้งานได้ไม่ถูกต้องอีกต่อไป จนคนในคอมเมนต์พากันบ่นถึงความไม่สะดวกและช่วยกันหาวิธีแก้เอง เรื่องแบบนี้เกิดขึ้นบ่อยกว่าที่คิด

สุดท้ายแล้ว ถ้ามองในภาพใหญ่ หลังเข้าสู่ยุคสารสนเทศ สิ่งที่ยังไม่เปลี่ยนก็คือเรายังคงต้องมี “ความสามารถในการคัดเลือกข้อมูลที่ตัวเองต้องการจริง ๆ ท่ามกลางข้อมูลมหาศาล” แต่ผมคิดว่าตอนนี้ตัวเลือกที่มีให้เรามันมากเกินไป จนการตัดสินใจกลายเป็นเรื่องน่ารำคาญและชวนให้เหนื่อย

ในแง่นี้ ผมคิดว่าโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกมาอย่างดี กลับช่วยให้เกิดการแบ่งงานกันทำได้ในระดับหนึ่ง เพราะมันสามารถมอบข้อมูลได้ด้วย UX ที่สมเหตุสมผล ตั้งแต่ข้อมูลพื้นฐานมาก ๆ ที่คนมักค้นหาบ่อย ไปจนถึงข้อมูลที่ซับซ้อนขึ้นมาอีกระดับ
ส่วนข้อมูลใหม่มาก ๆ ที่ถาม LLM แล้วได้คำตอบที่เหมาะสมได้ยาก หรือคำถามที่ซับซ้อนและมีบริบทหลายด้านพันกันอยู่ บริการถาม-ตอบอย่าง StackOverflow ก็ค่อยเข้ามารับบทตรงนั้น

อย่างไรก็ตาม ผมคิดว่ายังเหลือโจทย์สำคัญว่า LLM จะสามารถคัดเลือกข้อมูลที่ถูกต้องโดยอิงหลักฐานที่ชัดเจน แล้วนำเสนอให้สาธารณชนได้มากแค่ไหน

kuroneko 2023-07-18

เธรด HN

แน่นอนว่านี่เป็นงานวิจัยที่ค่อนข้างจำกัดเพราะศึกษาจากเพียงบางเว็บไซต์ จึงอาจมีอคติอยู่มาก แต่พอมองโดยรวมแล้ว ประเด็นที่ว่าช่องว่างทางเทคโนโลยีอาจยิ่งถ่างกว้างขึ้นในหลายด้านก็ดูน่ากังวลอยู่เหมือนกันนะครับ

มีคอมเมนต์หนึ่งบอกว่า "AI ทำให้เงินที่เกิดจากคุณค่าของคอนเทนต์ที่ผู้คนสร้างขึ้น ไหลไปรวมอยู่กับบริษัท AI จนนำไปสู่การกระจุกตัวของความมั่งคั่ง"
ซึ่งผมก็รู้สึกเห็นด้วยกับประเด็นนี้ครับ

jujumilk3 2023-07-18

โหย อีโมจิใส่ไม่ได้เลยแฮะ เห็นด้วยครับ

โมเดลภาษาขนาดใหญ่จะกลายเป็นภัยต่อสินค้าสาธารณะดิจิทัลหรือไม่?

บทความที่เกี่ยวข้อง

5 ความคิดเห็น