2 คะแนน โดย GN⁺ 23 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อ LLM เลียนแบบ คุณภาพภายนอก ได้อย่างสมบูรณ์แบบ ตัวชี้วัดทดแทน (proxy measure) ที่เคยใช้ตัดสินคุณภาพที่แท้จริงของงานความรู้จึงเริ่มใช้การไม่ได้
  • งานความรู้ประเมินคุณภาพที่แท้จริงได้ยากโดยธรรมชาติ จึงพึ่งพาตัวชี้วัดทดแทนอย่าง ความสมบูรณ์เชิงรูปแบบของเอกสาร มาโดยตลอด แต่ LLM สามารถผ่านตัวชี้วัดเหล่านี้ได้อย่างง่ายดาย
  • โค้ดและรายงานที่ AI เขียนอาจดูเป็นมืออาชีพจากภายนอก แต่กลับผ่านการตรวจไปทั้งที่ ความถูกต้องหรือประโยชน์ใช้สอยที่แท้จริง ยังไม่ได้รับการยืนยัน
  • ตัว LLM เองก็ไม่ได้ถูกฝึกบนเกณฑ์ว่า "ถูกต้องหรือไม่" แต่เป็น "ดูน่าเชื่อหรือไม่" จึงมี ปัญหาเรื่องตัวชี้วัดทดแทนแบบเดียวกัน อยู่ภายใน
  • มีคำเตือนว่าระบบที่สร้างขึ้นด้วยเงินลงทุนหลายพันล้านดอลลาร์กำลังถูกใช้เป็น เครื่องมือที่ทำงานลวงตาแทนที่จะทำงานจริง

บทบาทและข้อจำกัดของตัวชี้วัดทดแทน (Proxy Measure)

  • เมื่อได้รับรายงานวิเคราะห์ตลาด ก็มักเกิดกรณีที่ทั้งฉบับถูกทิ้งเพียงเพราะมี ข้อบกพร่องบนผิวหน้า เช่น วันที่ผิด คำสะกดผิด หรือกราฟซ้ำ
  • สิ่งที่ต้องการรู้จริง ๆ คือรายงานนั้นสะท้อนความเป็นจริงและ นำไปสู่การตัดสินใจที่ดีหรือไม่ แต่การตรวจสอบเรื่องนี้โดยตรงมีต้นทุนสูง
  • คุณภาพภายนอกมีต้นทุนในการตรวจสอบต่ำ และมี ความสัมพันธ์กันมากพอ กับคุณภาพจริง จึงทำหน้าที่เป็นตัวชี้วัดทดแทนมาได้
  • ปัญหานี้มีอยู่ในงานความรู้ทุกประเภท และเพราะการตัดสินคุณภาพงานของผู้อื่นอย่างเป็นกลางต้องใช้ความพยายามมาก โครงสร้างจึง พึ่งพาตัวชี้วัดทดแทนอย่างมาก

กลไกที่ LLM ทำให้ตัวชี้วัดทดแทนใช้การไม่ได้

  • เดิมทีตัวชี้วัดทดแทนช่วยยับยั้ง แรงจูงใจที่ไม่สอดคล้องกัน (misaligned incentives) แต่ LLM ได้ทำลายกลไกนี้
  • LLM โดดเด่นอย่างมากในการ จำลองสไตล์การเขียน แม้จะไม่ได้สร้างซ้ำคุณภาพของงานจริง
  • หากขอให้ ChatGPT เขียนรายงานวิเคราะห์ตลาด ผลลัพธ์จะดูราวกับว่า ผู้เชี่ยวชาญจากบริษัทที่ปรึกษาชั้นนำ เป็นผู้เขียน
  • หากวิศวกรซอฟต์แวร์ใช้ AI เขียนโค้ดหลายพันบรรทัด การสแกนดูเพียงไม่กี่วินาทีก็อาจทำให้มัน ดูเหมือนโค้ดคุณภาพสูง
    • เพื่อนร่วมงานเองก็ให้ AI ช่วยรีวิวโค้ด และจัดการกับปัญหาที่พบแบบเชิงกลไก ทำให้ เหลือเพียงพิธีกรรมของการทำงาน โดยไม่ได้รับประกันคุณภาพที่แท้จริง

ปัญหาแบบเดียวกันที่ฝังอยู่ในตัว LLM เอง

  • กระบวนการฝึก LLM เองก็ไม่ได้ประเมินว่า "คำตอบนั้นเป็นจริงหรือไม่" หรือ "คำตอบนั้นมีประโยชน์หรือไม่"
  • เกณฑ์การฝึกคือ "เป็นคำตอบที่น่าจะปรากฏในข้อมูลฝึกหรือไม่" หรือ "เป็นคำตอบที่ผู้ประเมิน RLHF พึงพอใจหรือไม่"
  • ผลลัพธ์คือ LLM ถูกปรับให้เหมาะสมเพื่อผลิตเอาต์พุตที่ ดูเหมือน ผลงานคุณภาพสูง และมันก็ทำการปรับให้เหมาะสมเช่นนั้นได้เก่งมาก

คำเตือนต่อสถานการณ์ปัจจุบัน

  • ระบบที่สร้างขึ้นด้วยเงินหลายพันล้านดอลลาร์กำลังถูกใช้เพื่อ สร้างซิมูลาครัม (ภาพลวง) ของงาน
  • บริษัทต่าง ๆ กำลังแข่งขันกันเพื่อขึ้นอันดับ 1 บน กระดานผู้นำด้านการใช้โทเคน
  • ยิ่งผู้ปฏิบัติงานผลิตผลลัพธ์จาก LLM มากขึ้นเท่าไร เวลาที่ใช้ พิจารณาผลลัพธ์เหล่านั้นอย่างลึกซึ้งก็ยิ่งลดลง
  • สิ่งที่เหลืออยู่มีเพียงการกวาดตาดู ติดคำว่า "LGTM" แล้วเปิด Claude Code session ที่ 17 เท่านั้น

1 ความคิดเห็น

 
GN⁺ 23 일 전
ความเห็นจาก Hacker News
  • ผมไม่ได้เห็นด้วยทั้งหมดทั้งกับข้ออ้างในบทความที่ว่าแต่ก่อนเราพอจะประเมินคุณภาพของงานใช้แรงงานทางความรู้ของมนุษย์ได้ง่ายจากตัวชี้วัดแทนอย่าง คำผิดหรือข้อผิดพลาดเล็กน้อย และก็ไม่ได้เห็นด้วยทั้งหมดกับข้ออ้างว่าปัญหาคือ AI ไม่มีร่องรอยแบบนั้น
    ในทางแนวคิด งานของมนุษย์ที่แย่มากแต่ข้อเท็จจริงยังถูกต้องและรูปแบบก็ดูเรียบร้อยนั้นมีอยู่เยอะมาแต่เดิมแล้ว
    ถ้าทำงานกับลูกค้าองค์กรมา 10 ปี ผมก็คงไม่พูดว่ายุคก่อน LLM เป็นยุคทองของงานใช้แรงงานทางความรู้คุณภาพสูงเลย เพราะตอนนั้นก็มีของปะปนแบบ ภาพลวงที่ใช้งานได้ของงานใช้แรงงานทางความรู้ เต็มไปหมดเหมือนกัน

    • สำหรับผม ปัญหาใหญ่กว่าคือการที่ ความสามารถในการอธิบายความผิดพลาดแบบมนุษย์ กำลังหายไป
      ผลงานคุณภาพต่ำของคนมักมีสาเหตุ เช่น ไม่รู้จริง เวลาจำกัด หรือเป้าหมายที่เห็นแก่ตัว และสาเหตุเหล่านี้ก็ค่อนข้างสม่ำเสมอ
      เราจับรูปแบบความน่าเชื่อถือได้ เช่น เด็กฝึกงานที่ระมัดระวังแต่ยังไม่รู้ หรือรุ่นพี่ที่ความรู้เยอะแต่พลาดเรื่องชัด ๆ เพราะอดนอน
      แต่ AI กลับสามารถทำ implementation ตามเปเปอร์ได้สมบูรณ์แบบในคราวเดียว ขณะเดียวกันก็ทำพลาดระดับนักศึกษาปีหนึ่งในการรันครั้งเดียวกันได้ ทำให้เกิดสถานการณ์ที่สวนสัญชาตญาณ คือเราต้อง รีวิวโดยสมมติว่าไร้ความสามารถโดยสิ้นเชิง กับเครื่องจักรที่บางครั้งก็แสดงความสามารถระดับสุดโต่ง
    • แม้ยุคก่อน LLM จะไม่ใช่ยุคทองของคุณภาพ แต่ก็จริงที่ LLM ได้ลบสัญญาณอีกอย่างหนึ่งที่เคยใช้แยกงานเพ้อเจ้อซึ่งทำแบบลวก ๆ ออกไป
    • เดิมทีสิ่งนี้ไม่ใช่ การคัดกรองเชิงบวก แต่เป็น ตัวกรองเชิงลบ
      ถ้ามีคำผิดหรือข้อผิดพลาดข้อเท็จจริงพื้นฐาน ก็สามารถคัดทิ้งได้ง่าย แต่การไม่มีสิ่งเหล่านั้นไม่ได้แปลว่าคุณภาพสูง
      ปกติการตรวจแบบนี้เป็นแค่ด่านแรก ไม่ใช่ทั้งหมด และเมื่อผ่านด่านนี้แล้วก็จะเห็นปัญหาจริงได้ง่ายขึ้น
      คล้ายกับในโค้ดที่ต้องจัดการ lint และสไตล์ ก่อนเรื่อง reasoning
    • ถึงจะจับ วลีเฉพาะแบบ AI ที่เด่นชัดได้ แต่ก็อาจพลาดข้อความที่ AI สร้างอีก 99% ที่ไม่มีร่องรอยอะไรเลย
      แต่เพราะตัวเองไม่รู้ว่า 99% นั้นเป็นงานจาก AI ก็เลยเผลอคิดง่าย ๆ ว่าตัวเองกรองงานเขียนจาก AI ออกได้หมด จากแค่รูปแบบ 100% ที่ตัวเองสังเกตเห็น
    • ผมไม่คิดว่านี่สำคัญในระดับแก่นหลัก
      เดิมที งานใช้แรงงานทางความรู้ จำนวนมากก็เป็นตัวแทนของอย่างอื่นอยู่แล้ว
      คุณภาพแบบไม่มีคำผิดและรูปแบบเรียบร้อยนั้นมักเป็นสัญญาณของความเคารพ คล้ายเสื้อเชิ้ตขาวรีดเรียบกับเนกไท และยังมีเอกสารยาวมากมายที่จริง ๆ แล้วไม่มีใครอ่านลึก
      ท้ายที่สุดมันคือวิธีแสดงความเสียสละและการยอมตามเชิงสัญลักษณ์ และ LLM กำลังลบระบบสัญญาณนี้ออกไป
      ถ้าเมื่อก่อนเราเองก็ไม่ได้ดูคุณภาพของเนื้อหาอย่างจริงจังอยู่แล้ว ก็แปลว่าเนื้อหานั้นอาจไม่ได้สำคัญขนาดนั้นตั้งแต่ต้น
  • ในแวดวงวิชาการ ปัญหา ต้นทุนการตรวจงาน AI เริ่มโผล่มาแล้ว แต่ต่างจากเหตุผลที่บทความพูดเล็กน้อย
    ประเด็นสำคัญไม่ใช่การหายไปของร่องรอยงานหยาบ ๆ เท่าไร แต่เป็นการที่ต้นทุนในการตรวจงานที่ทำด้วย AI อย่างละเอียดกำลังสูงเกินกว่าที่มนุษย์จะรับไหว
    ตัวอย่างเช่น วารสารเศรษฐศาสตร์มีภาคผนวกยาวได้ถึงหลายร้อยหน้า แต่เวลาที่คนจะอ่านมีจำกัด
    ผมสงสัยว่าวารสารสาขาอื่น ๆ กำลังถูกกดดันทั้งจากจำนวนงานส่งใหม่ที่เพิ่มขึ้น และจาก ความเข้มข้นของการตรวจทาน ที่ต้องใช้เพื่อยืนยันแต่ละงานด้วยหรือไม่

    • พูดอย่างเป็นธรรม หลายสาขาวิชาต้องใช้ความเชี่ยวชาญสูงมากตั้งแต่ระดับ ปริญญาโทขึ้นไป จึงจะตัดสินได้
      ต่ำกว่าระดับนั้น บางทีก็แทบแยกไม่ออกว่าอะไรถูกจริง กับอะไรที่แค่ดูเหมือนถูก
  • ตอนใช้ AI ผมรู้สึกว่ากำลัง cargo-cult ความเข้าใจ
    คือเลียนแบบผิวหน้าของการเข้าใจอะไรบางอย่าง แต่กลับพรากเวลาและความพยายามที่จำเป็นต่อการเข้าใจจริงไปจากตัวเอง

    • ผมนึกแบบนี้เสมอเวลาเห็นเพื่อนร่วมงานคนหนึ่ง เขามองภาพการใช้ AI แทบทั้งหมดเป็นแฟนตาซีแบบ Jarvis ส่วนตัว
      เขาเชื่อว่าถ้าเอา Claude, Snowflake Cortex, โค้ดรวมศูนย์, เอกสาร, Jira ticket ทุกอย่างไปป้อน ก็จะถามอะไรก็ได้และทุกอย่างจะดีขึ้นมาก
      แต่ความหมกมุ่นนั้นไม่ได้สร้างผลลัพธ์ใหญ่ ๆ และเขาก็เคยเจอข้อจำกัดของเทคโนโลยีแบบหนัก ๆ ด้วยตัวเองหลายครั้ง
      ทุกคนพูดถึง agentic workflow กับวิสัยทัศน์ internal wiki ขนาดมหึมา แต่ผมกลับใช้ AI เพื่อเร่งความเร็วการส่งงานได้พอสมควร โดยไม่เสียเวลากับ การผจญภัยใหญ่โต เลยยังคงส่งมอบผลลัพธ์ได้เรื่อย ๆ
      มันยังมีความย้อนแย้งที่คนซึ่งเคยวิจารณ์การเอาแชตบอตเข้าบริษัท ตอนนี้กลับเผาโทเคนเพื่อรวบรวมไฟล์ .md กับ skill file นับล้านล้านไฟล์มาสร้างแชตบอตของตัวเอง
      สิ่งที่น่ากังวลจริง ๆ คือ องค์ความรู้จริงในระดับสถาบัน กำลังสูญหายไปในทางลัดแบบนี้
      การขอ example ง่าย ๆ หรือถามเพื่อเรียนรู้แนวคิดนั้นโอเค แต่ prompt ประเภทที่ให้มันตรวจเครื่องมือและโครงสร้างพื้นฐานปัจจุบันเพื่อเพิ่มความเร็ว deployment 5 เท่า, ทำ web research, และสร้างทั้งข้อเสนอการนำไปใช้ในองค์กรกับการวิเคราะห์ต้นทุน-ผลประโยชน์ 5 ปีในครั้งเดียว แบบนี้กำลังทำให้คนอ่อนแอลงด้วยมือตัวเอง
      ทุกวันนี้คนโยนข้อเสนอที่ Claude ทำไว้ไปทั่ว แต่กลับข้ามขั้นตอนการลงไปขุดเองสักหน่อย หรือสำรวจร่วมกับสถาปนิกระบบหรือวิศวกรอาวุโส
      ผลก็คือหลายคนเข้าใจหลายเรื่องแบบผิวเผินเท่านั้น พอถามลึกก็อธิบายไม่ค่อยได้ และเชื่อคำตอบจาก AI ราวกับเป็น กลยุทธ์ที่ยืนยันแล้ว จนไม่อยากให้ใครมาท้าทาย
      โอกาสในการเรียนรู้จากคนที่มีประสบการณ์มากกว่าก็ไม่ถูกมองเป็นประสบการณ์การเรียนรู้อีกต่อไป
      สุดท้ายผมยังเชื่อว่าสมองคนเองก็ยังเป็นหนึ่งในเทคโนโลยีที่น่าทึ่งที่สุดอยู่ดี และทำให้ต้องย้อนถามว่าเราจะสร้างหอสมุดเทียมขนาดมหึมานี้ไว้นอกตัวเราไปทำไม
    • ที่จริงผมว่าไม่ใช่ cargo cult ของความเข้าใจ แต่เป็น cargo cult แบบมุมมองผู้จัดการ มากกว่า
      อย่างที่ Bret Devereaux พูดไว้ใน บทวิจารณ์ Game Of Thrones ว่ามุมมองโลกแบบชนชั้นนำจะดูน่าเชื่อและฟังคล้ายยูโทเปียสำหรับชนชั้นนำเท่านั้น
      ฟองสบู่ที่ตัดขาดจากแรงงานจริงแบบนี้สุดท้ายจะแตกอย่างแรง และถ้าตอนนั้นมวลชนที่ตกงานเพราะ AI ร้องว่ากินขนมปังไม่ได้ แต่คนข้างบนตอบว่าก็กินเค้กสิ ก็ชวนให้นึกถึงแรงตีกลับระดับการปฏิวัติฝรั่งเศสได้เลย
    • ในทางกลับกัน AI สามารถทำบางอย่างแทนผมได้ แม้ผมจะยังไม่เข้าใจมัน
      แต่ถ้าเป็นเครื่องมือที่ช่วยตอน พยายามทำความเข้าใจอย่างลึกซึ้ง ก็แทบไม่มีอะไรดีเท่า AI แล้วเหมือนกัน
  • ท้ายที่สุด การจะเข้าใจอะไรสักอย่างก็คือ การลงมือทำด้วยตัวเอง แทบจะพอ ๆ กัน
    การไม่เข้าใจไม่ใช่เรื่องผิด แต่ในกรณีนั้น ไม่ว่าจะมีตัวชี้วัดแทนหรือไม่ สุดท้ายก็ต้องอาศัยความเข้าใจของคนอื่นที่เราเชื่อถือ
    การทำงานให้น้อยลงแล้วเชื่อมากขึ้นอาจไปได้ถึงจุดหนึ่ง แต่เกินจากนั้นไป งานในอนาคตก็จะเริ่มเปราะบาง
    คำว่า simulacrum เป็นคำที่ดีมากจริง ๆ

    • แนวคิด Simulacrum มาจาก Baudrillard และบทความ Simulation and Simulacra ของเขาก็ช่วยให้เข้าใจได้พอสมควรว่าทำไมเศรษฐกิจสมัยใหม่ถึงประหลาดแบบนี้
  • เพราะอย่างนี้มั้งที่ ผู้จัดการระดับกลาง ดูเหมือนเป็นศาสนิกกลุ่มแรกของลัทธิ LLM สูงสุด
    ผู้จัดการระดับกลางมีแรงจูงใจมากมายให้ผลักงานใช้แรงงานทางความรู้ไปสู่การทำให้เป็นนามธรรมมากขึ้นเรื่อย ๆ นอกเหนือจากทักษะจริงของบทบาท และดูเหมือนว่าชั้นนามธรรมนั้นจะอธิบายได้ดีเป็นพิเศษใน embedding space

  • โค้ดจาก AI หลายครั้งดูแย่กว่าความเป็นจริง
    มันยืดยาวเกินไป สับสน และใส่ fallback มาเต็มไปหมด พอมีปัญหาก็ไหลผ่าน try/catch จำนวนมหาศาล ส่ง stack trace ไปโผล่ในที่ประหลาด
    ถึงอย่างนั้น ถ้าดูแค่ฟังก์ชันล้วน ๆ มันก็มักทำงานได้ดีกว่าโค้ดที่คนเขียนซึ่งภายนอกดูคล้ายกันอยู่บ่อยครั้ง

    • ถึงจะอธิบายแบบนั้น โค้ดนั้นก็ยังเป็น โค้ดแย่ อยู่ดี
      เพราะทั้งคนและ LLM ก็ reason กับมันได้ยาก
  • อยากเห็น สไตล์บทความบล็อก แบบนี้มากขึ้น
    ความยาวกำลังดี สื่อสารประเด็นได้ดี และมีความเป็นเรื่องเล่า
    ช่วงนี้มี AI slop จาก LLM ที่ยาวเท่านิยายเยอะเกินไป เลยยิ่งทำให้บทความแบบนี้น่ายินดี

  • สำหรับหลายคนในอุตสาหกรรม นี่ดูเป็น แนวโน้มที่ชัดเจนอยู่แล้ว พอสมควร
    ปัญหาคือมีเงินเดิมพันอยู่มากเกินไป จนผู้เล่นรายใหญ่ยังคงผลักสิ่งที่ตัวเองต้องการต่อไป

  • มันทำให้ผมเผลอจินตนาการว่าอนุภาคที่เล็กกว่าอะตอมจริง ๆ แล้วคือ จักรวาลหนึ่ง ๆ และคุณสมบัติของมันสะท้อนร่องรอยของสิ่งมีชีวิตที่เคยปกครองจักรวาลนั้น กับระบบอัตโนมัติที่ยังเดินต่อหลังพวกเขาหายไป
    เหมือนเครื่องจักรอัตโนมัติที่เก็บเกี่ยวเอนโทรปีและเพิ่มจำนวนตัวเองต่อไปเรื่อย ๆ
    ตอนนี้เรากำลังสร้างพลังที่ใหญ่กว่าเราเอง และวันหนึ่งอาจไปถึง จุดที่ย้อนกลับไม่ได้

    • ผมยังไม่ได้เข้าใจทั้งหมด แต่จินตนาการนั้นน่าสนใจดี
      มันชวนให้นึกถึง จักรวาลและอารยธรรมระดับอนุภาคย่อยจำนวนนับไม่ถ้วน ที่รุ่งเรืองและล่มสลาย บางแห่งก็ถูกเทคโนโลยีกึ่งปัญญาอัตโนมัติกลืนกิน และในระดับมหภาค สิ่งนั้นแสดงออกมาเป็นพฤติกรรมของอนุภาค
      ตอนนี้พวกเราเองก็กำลังสร้างอนุภาคหนึ่งขึ้นมา และทางเลือกโดยรวมของพวกเราอาจส่งผลเล็กน้อยแต่มีความหมายต่อจักรวาลชั้นบนที่เราอาศัยอยู่
  • output ของใครคนหนึ่งย่อมกลายเป็น input ของอีกคนเสมอ
    ถ้าเพิ่มปริมาณด้วย LLM คนถัดไปก็จะใช้ LLM อีกทีเพื่อ parse มันแล้วสร้าง output ของตัวเอง
    พอมันต่อกันไปเรื่อย ๆ จนผู้บริโภคปลายทางเริ่มร้องเรียน สุดท้ายก็ไม่มีใครระบุได้แน่ชัดว่าจุดไหนกันแน่ที่ผิดพลาด

    • แน่นอน ตอนนั้นก็คงบอกว่าเป็นเพราะผู้บริโภคคนสุดท้าย ใช้งานผิดวิธี
      เพราะคนสุดท้ายเป็นคนเดียวที่มองเห็นได้ตรงหน้า ส่วนที่เหลือซ่อนอยู่หลังพร็อกซีอีก 7 ชั้น