2 คะแนน โดย GN⁺ 3 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • คุณภาพของงานใช้ความรู้ตรวจสอบได้ยากหากไม่ได้ลงมือทำซ้ำด้วยตนเอง จึงมักต้องพึ่งตัวชี้วัดทดแทนอย่าง ความสมบูรณ์ที่ดูจากภายนอก มากกว่าความถูกต้องจริง
  • เมื่อเห็น ข้อบกพร่องบนผิวหน้า เช่น วันที่ผิดหรือป้ายกำกับกราฟมีปัญหา ก็มักทิ้งผลงานทั้งชิ้นได้ง่าย แม้จะไม่เกี่ยวกับข้อสรุปหลักของเนื้อหา และเกณฑ์ตัดสินก็เอนเอียงไปหาภาพลักษณ์ที่ตรวจสอบได้ถูกกว่า มากกว่าการสะท้อนความจริง
  • LLM สามารถเลียนแบบสำนวนและรูปแบบที่ดูน่าเชื่อถือได้ดี แม้จะไม่ได้สร้างคุณภาพของงานจริงขึ้นมาใหม่ ทำให้ ขั้นตอนเชิงพิธีกรรม ของรายงานหรือโค้ดยังคงอยู่ แต่คุณภาพที่อยู่ข้างใต้กลับอาจว่างเปล่า
  • หากเกณฑ์ที่วัดเป็นคุณภาพเชิงผิวเผิน การปล่อยให้ LLM เขียนผลลัพธ์ส่วนใหญ่ก็กลายเป็นทางเลือกที่สมเหตุสมผล และตัว LLM เองก็ถูกปรับให้เหมาะกับ เอาต์พุตที่ดูเหมือนมีคุณภาพสูง มากกว่า ความจริงหรือความมีประโยชน์
  • ผลลัพธ์คือระบบมูลค่าหลายหมื่นล้านดอลลาร์อาจถูกใช้ไปกับ การจำลองงาน มากกว่างานจริง และกระแสการไล่อ่านผ่าน ๆ แล้วติด LGTM ก็กลายเป็นสภาพที่ทำให้ Goodhart's law เป็นอัตโนมัติ

โครงสร้างและผลลัพธ์ที่ LLM เปลี่ยนไป

  • LLM เลียนแบบ สำนวนและรูปแบบที่ดูน่าเชื่อถือ ได้เก่งมาก แม้จะไม่ได้สร้างคุณภาพของงานจริงขึ้นมาใหม่
  • รายงานวิเคราะห์ตลาดที่เขียนด้วย ChatGPT อาจอ่านแล้วและดูเหมือนผลงานจากบริษัทที่ปรึกษาชั้นนำ
  • วิศวกรซอฟต์แวร์สามารถสร้างโค้ดหลายพันบรรทัดที่ดูเหมือนมีคุณภาพสูงได้จากการกวาดตาเพียงครู่เดียว และเพื่อนร่วมงานก็อาจใช้ AI รีวิวโค้ดอีกครั้งเพื่อหาปัญหาและแก้ไข
  • ผลคือ ขั้นตอนเชิงพิธีกรรม ของงานยังคงอยู่ แต่คุณภาพจริงที่อยู่ข้างใต้กลับอาจว่างเปล่า
  • หาก เกณฑ์ที่ถูกวัด คือคุณภาพเชิงผิวเผิน คนทำงานก็มีเหตุผลที่จะทำตัวให้ดูดีตามเกณฑ์นั้น จนผลลัพธ์ส่วนใหญ่ถูกเขียนโดย LLM
  • การฝึก LLM เองก็ไม่ได้มุ่งไปที่ว่าคำตอบจริงหรือมีประโยชน์แค่ไหน แต่ไปที่ว่ามันดูเหมือนสิ่งที่น่าจะพบในชุดข้อมูลฝึก หรือทำให้ ผู้ประเมิน RLHF พอใจหรือไม่
  • สุดท้าย LLM เองก็ถูกปรับให้เหมาะกับการสร้างเอาต์พุตที่ดูเหมือนมีคุณภาพสูง
  • ระบบที่สร้างขึ้นด้วยเงินหลายหมื่นล้านดอลลาร์จึงถูกนำไปใช้เพื่อทำ การจำลองงาน มากกว่างานจริง
  • บริษัทต่าง ๆ กลายเป็นอยู่ในภาวะแข่งกันว่าใครใช้โทเคนได้มากกว่ากัน
  • ยิ่งคนทำงานสร้างเอาต์พุตจาก LLM มากเท่าไร เวลาที่ใช้ตรวจทานเอาต์พุตนั้นอย่างลึกซึ้งก็ยิ่งน้อยลง
  • สิ่งที่เหลืออยู่มีเพียงการกวาดตาดูคร่าว ๆ ติด LGTM แล้วเปิดเซสชัน Claude Code ถัดไป

1 ความคิดเห็น

 
GN⁺ 3 일 전
ความเห็นจาก Hacker News
  • ผมไม่ได้เห็นด้วยทั้งหมดทั้งกับข้ออ้างในบทความที่ว่าแต่ก่อนเราพอจะประเมินคุณภาพของงานใช้แรงงานทางความรู้ของมนุษย์ได้ง่ายจากตัวชี้วัดแทนอย่าง คำผิดหรือข้อผิดพลาดเล็กน้อย และก็ไม่ได้เห็นด้วยทั้งหมดกับข้ออ้างว่าปัญหาคือ AI ไม่มีร่องรอยแบบนั้น
    ในทางแนวคิด งานของมนุษย์ที่แย่มากแต่ข้อเท็จจริงยังถูกต้องและรูปแบบก็ดูเรียบร้อยนั้นมีอยู่เยอะมาแต่เดิมแล้ว
    ถ้าทำงานกับลูกค้าองค์กรมา 10 ปี ผมก็คงไม่พูดว่ายุคก่อน LLM เป็นยุคทองของงานใช้แรงงานทางความรู้คุณภาพสูงเลย เพราะตอนนั้นก็มีของปะปนแบบ ภาพลวงที่ใช้งานได้ของงานใช้แรงงานทางความรู้ เต็มไปหมดเหมือนกัน

    • สำหรับผม ปัญหาใหญ่กว่าคือการที่ ความสามารถในการอธิบายความผิดพลาดแบบมนุษย์ กำลังหายไป
      ผลงานคุณภาพต่ำของคนมักมีสาเหตุ เช่น ไม่รู้จริง เวลาจำกัด หรือเป้าหมายที่เห็นแก่ตัว และสาเหตุเหล่านี้ก็ค่อนข้างสม่ำเสมอ
      เราจับรูปแบบความน่าเชื่อถือได้ เช่น เด็กฝึกงานที่ระมัดระวังแต่ยังไม่รู้ หรือรุ่นพี่ที่ความรู้เยอะแต่พลาดเรื่องชัด ๆ เพราะอดนอน
      แต่ AI กลับสามารถทำ implementation ตามเปเปอร์ได้สมบูรณ์แบบในคราวเดียว ขณะเดียวกันก็ทำพลาดระดับนักศึกษาปีหนึ่งในการรันครั้งเดียวกันได้ ทำให้เกิดสถานการณ์ที่สวนสัญชาตญาณ คือเราต้อง รีวิวโดยสมมติว่าไร้ความสามารถโดยสิ้นเชิง กับเครื่องจักรที่บางครั้งก็แสดงความสามารถระดับสุดโต่ง
    • แม้ยุคก่อน LLM จะไม่ใช่ยุคทองของคุณภาพ แต่ก็จริงที่ LLM ได้ลบสัญญาณอีกอย่างหนึ่งที่เคยใช้แยกงานเพ้อเจ้อซึ่งทำแบบลวก ๆ ออกไป
    • เดิมทีสิ่งนี้ไม่ใช่ การคัดกรองเชิงบวก แต่เป็น ตัวกรองเชิงลบ
      ถ้ามีคำผิดหรือข้อผิดพลาดข้อเท็จจริงพื้นฐาน ก็สามารถคัดทิ้งได้ง่าย แต่การไม่มีสิ่งเหล่านั้นไม่ได้แปลว่าคุณภาพสูง
      ปกติการตรวจแบบนี้เป็นแค่ด่านแรก ไม่ใช่ทั้งหมด และเมื่อผ่านด่านนี้แล้วก็จะเห็นปัญหาจริงได้ง่ายขึ้น
      คล้ายกับในโค้ดที่ต้องจัดการ lint และสไตล์ ก่อนเรื่อง reasoning
    • ถึงจะจับ วลีเฉพาะแบบ AI ที่เด่นชัดได้ แต่ก็อาจพลาดข้อความที่ AI สร้างอีก 99% ที่ไม่มีร่องรอยอะไรเลย
      แต่เพราะตัวเองไม่รู้ว่า 99% นั้นเป็นงานจาก AI ก็เลยเผลอคิดง่าย ๆ ว่าตัวเองกรองงานเขียนจาก AI ออกได้หมด จากแค่รูปแบบ 100% ที่ตัวเองสังเกตเห็น
    • ผมไม่คิดว่านี่สำคัญในระดับแก่นหลัก
      เดิมที งานใช้แรงงานทางความรู้ จำนวนมากก็เป็นตัวแทนของอย่างอื่นอยู่แล้ว
      คุณภาพแบบไม่มีคำผิดและรูปแบบเรียบร้อยนั้นมักเป็นสัญญาณของความเคารพ คล้ายเสื้อเชิ้ตขาวรีดเรียบกับเนกไท และยังมีเอกสารยาวมากมายที่จริง ๆ แล้วไม่มีใครอ่านลึก
      ท้ายที่สุดมันคือวิธีแสดงความเสียสละและการยอมตามเชิงสัญลักษณ์ และ LLM กำลังลบระบบสัญญาณนี้ออกไป
      ถ้าเมื่อก่อนเราเองก็ไม่ได้ดูคุณภาพของเนื้อหาอย่างจริงจังอยู่แล้ว ก็แปลว่าเนื้อหานั้นอาจไม่ได้สำคัญขนาดนั้นตั้งแต่ต้น
  • ในแวดวงวิชาการ ปัญหา ต้นทุนการตรวจงาน AI เริ่มโผล่มาแล้ว แต่ต่างจากเหตุผลที่บทความพูดเล็กน้อย
    ประเด็นสำคัญไม่ใช่การหายไปของร่องรอยงานหยาบ ๆ เท่าไร แต่เป็นการที่ต้นทุนในการตรวจงานที่ทำด้วย AI อย่างละเอียดกำลังสูงเกินกว่าที่มนุษย์จะรับไหว
    ตัวอย่างเช่น วารสารเศรษฐศาสตร์มีภาคผนวกยาวได้ถึงหลายร้อยหน้า แต่เวลาที่คนจะอ่านมีจำกัด
    ผมสงสัยว่าวารสารสาขาอื่น ๆ กำลังถูกกดดันทั้งจากจำนวนงานส่งใหม่ที่เพิ่มขึ้น และจาก ความเข้มข้นของการตรวจทาน ที่ต้องใช้เพื่อยืนยันแต่ละงานด้วยหรือไม่

    • พูดอย่างเป็นธรรม หลายสาขาวิชาต้องใช้ความเชี่ยวชาญสูงมากตั้งแต่ระดับ ปริญญาโทขึ้นไป จึงจะตัดสินได้
      ต่ำกว่าระดับนั้น บางทีก็แทบแยกไม่ออกว่าอะไรถูกจริง กับอะไรที่แค่ดูเหมือนถูก
  • ตอนใช้ AI ผมรู้สึกว่ากำลัง cargo-cult ความเข้าใจ
    คือเลียนแบบผิวหน้าของการเข้าใจอะไรบางอย่าง แต่กลับพรากเวลาและความพยายามที่จำเป็นต่อการเข้าใจจริงไปจากตัวเอง

    • ผมนึกแบบนี้เสมอเวลาเห็นเพื่อนร่วมงานคนหนึ่ง เขามองภาพการใช้ AI แทบทั้งหมดเป็นแฟนตาซีแบบ Jarvis ส่วนตัว
      เขาเชื่อว่าถ้าเอา Claude, Snowflake Cortex, โค้ดรวมศูนย์, เอกสาร, Jira ticket ทุกอย่างไปป้อน ก็จะถามอะไรก็ได้และทุกอย่างจะดีขึ้นมาก
      แต่ความหมกมุ่นนั้นไม่ได้สร้างผลลัพธ์ใหญ่ ๆ และเขาก็เคยเจอข้อจำกัดของเทคโนโลยีแบบหนัก ๆ ด้วยตัวเองหลายครั้ง
      ทุกคนพูดถึง agentic workflow กับวิสัยทัศน์ internal wiki ขนาดมหึมา แต่ผมกลับใช้ AI เพื่อเร่งความเร็วการส่งงานได้พอสมควร โดยไม่เสียเวลากับ การผจญภัยใหญ่โต เลยยังคงส่งมอบผลลัพธ์ได้เรื่อย ๆ
      มันยังมีความย้อนแย้งที่คนซึ่งเคยวิจารณ์การเอาแชตบอตเข้าบริษัท ตอนนี้กลับเผาโทเคนเพื่อรวบรวมไฟล์ .md กับ skill file นับล้านล้านไฟล์มาสร้างแชตบอตของตัวเอง
      สิ่งที่น่ากังวลจริง ๆ คือ องค์ความรู้จริงในระดับสถาบัน กำลังสูญหายไปในทางลัดแบบนี้
      การขอ example ง่าย ๆ หรือถามเพื่อเรียนรู้แนวคิดนั้นโอเค แต่ prompt ประเภทที่ให้มันตรวจเครื่องมือและโครงสร้างพื้นฐานปัจจุบันเพื่อเพิ่มความเร็ว deployment 5 เท่า, ทำ web research, และสร้างทั้งข้อเสนอการนำไปใช้ในองค์กรกับการวิเคราะห์ต้นทุน-ผลประโยชน์ 5 ปีในครั้งเดียว แบบนี้กำลังทำให้คนอ่อนแอลงด้วยมือตัวเอง
      ทุกวันนี้คนโยนข้อเสนอที่ Claude ทำไว้ไปทั่ว แต่กลับข้ามขั้นตอนการลงไปขุดเองสักหน่อย หรือสำรวจร่วมกับสถาปนิกระบบหรือวิศวกรอาวุโส
      ผลก็คือหลายคนเข้าใจหลายเรื่องแบบผิวเผินเท่านั้น พอถามลึกก็อธิบายไม่ค่อยได้ และเชื่อคำตอบจาก AI ราวกับเป็น กลยุทธ์ที่ยืนยันแล้ว จนไม่อยากให้ใครมาท้าทาย
      โอกาสในการเรียนรู้จากคนที่มีประสบการณ์มากกว่าก็ไม่ถูกมองเป็นประสบการณ์การเรียนรู้อีกต่อไป
      สุดท้ายผมยังเชื่อว่าสมองคนเองก็ยังเป็นหนึ่งในเทคโนโลยีที่น่าทึ่งที่สุดอยู่ดี และทำให้ต้องย้อนถามว่าเราจะสร้างหอสมุดเทียมขนาดมหึมานี้ไว้นอกตัวเราไปทำไม
    • ที่จริงผมว่าไม่ใช่ cargo cult ของความเข้าใจ แต่เป็น cargo cult แบบมุมมองผู้จัดการ มากกว่า
      อย่างที่ Bret Devereaux พูดไว้ใน บทวิจารณ์ Game Of Thrones ว่ามุมมองโลกแบบชนชั้นนำจะดูน่าเชื่อและฟังคล้ายยูโทเปียสำหรับชนชั้นนำเท่านั้น
      ฟองสบู่ที่ตัดขาดจากแรงงานจริงแบบนี้สุดท้ายจะแตกอย่างแรง และถ้าตอนนั้นมวลชนที่ตกงานเพราะ AI ร้องว่ากินขนมปังไม่ได้ แต่คนข้างบนตอบว่าก็กินเค้กสิ ก็ชวนให้นึกถึงแรงตีกลับระดับการปฏิวัติฝรั่งเศสได้เลย
    • ในทางกลับกัน AI สามารถทำบางอย่างแทนผมได้ แม้ผมจะยังไม่เข้าใจมัน
      แต่ถ้าเป็นเครื่องมือที่ช่วยตอน พยายามทำความเข้าใจอย่างลึกซึ้ง ก็แทบไม่มีอะไรดีเท่า AI แล้วเหมือนกัน
  • ท้ายที่สุด การจะเข้าใจอะไรสักอย่างก็คือ การลงมือทำด้วยตัวเอง แทบจะพอ ๆ กัน
    การไม่เข้าใจไม่ใช่เรื่องผิด แต่ในกรณีนั้น ไม่ว่าจะมีตัวชี้วัดแทนหรือไม่ สุดท้ายก็ต้องอาศัยความเข้าใจของคนอื่นที่เราเชื่อถือ
    การทำงานให้น้อยลงแล้วเชื่อมากขึ้นอาจไปได้ถึงจุดหนึ่ง แต่เกินจากนั้นไป งานในอนาคตก็จะเริ่มเปราะบาง
    คำว่า simulacrum เป็นคำที่ดีมากจริง ๆ

    • แนวคิด Simulacrum มาจาก Baudrillard และบทความ Simulation and Simulacra ของเขาก็ช่วยให้เข้าใจได้พอสมควรว่าทำไมเศรษฐกิจสมัยใหม่ถึงประหลาดแบบนี้
  • เพราะอย่างนี้มั้งที่ ผู้จัดการระดับกลาง ดูเหมือนเป็นศาสนิกกลุ่มแรกของลัทธิ LLM สูงสุด
    ผู้จัดการระดับกลางมีแรงจูงใจมากมายให้ผลักงานใช้แรงงานทางความรู้ไปสู่การทำให้เป็นนามธรรมมากขึ้นเรื่อย ๆ นอกเหนือจากทักษะจริงของบทบาท และดูเหมือนว่าชั้นนามธรรมนั้นจะอธิบายได้ดีเป็นพิเศษใน embedding space

  • โค้ดจาก AI หลายครั้งดูแย่กว่าความเป็นจริง
    มันยืดยาวเกินไป สับสน และใส่ fallback มาเต็มไปหมด พอมีปัญหาก็ไหลผ่าน try/catch จำนวนมหาศาล ส่ง stack trace ไปโผล่ในที่ประหลาด
    ถึงอย่างนั้น ถ้าดูแค่ฟังก์ชันล้วน ๆ มันก็มักทำงานได้ดีกว่าโค้ดที่คนเขียนซึ่งภายนอกดูคล้ายกันอยู่บ่อยครั้ง

    • ถึงจะอธิบายแบบนั้น โค้ดนั้นก็ยังเป็น โค้ดแย่ อยู่ดี
      เพราะทั้งคนและ LLM ก็ reason กับมันได้ยาก
  • อยากเห็น สไตล์บทความบล็อก แบบนี้มากขึ้น
    ความยาวกำลังดี สื่อสารประเด็นได้ดี และมีความเป็นเรื่องเล่า
    ช่วงนี้มี AI slop จาก LLM ที่ยาวเท่านิยายเยอะเกินไป เลยยิ่งทำให้บทความแบบนี้น่ายินดี

  • สำหรับหลายคนในอุตสาหกรรม นี่ดูเป็น แนวโน้มที่ชัดเจนอยู่แล้ว พอสมควร
    ปัญหาคือมีเงินเดิมพันอยู่มากเกินไป จนผู้เล่นรายใหญ่ยังคงผลักสิ่งที่ตัวเองต้องการต่อไป

  • มันทำให้ผมเผลอจินตนาการว่าอนุภาคที่เล็กกว่าอะตอมจริง ๆ แล้วคือ จักรวาลหนึ่ง ๆ และคุณสมบัติของมันสะท้อนร่องรอยของสิ่งมีชีวิตที่เคยปกครองจักรวาลนั้น กับระบบอัตโนมัติที่ยังเดินต่อหลังพวกเขาหายไป
    เหมือนเครื่องจักรอัตโนมัติที่เก็บเกี่ยวเอนโทรปีและเพิ่มจำนวนตัวเองต่อไปเรื่อย ๆ
    ตอนนี้เรากำลังสร้างพลังที่ใหญ่กว่าเราเอง และวันหนึ่งอาจไปถึง จุดที่ย้อนกลับไม่ได้

    • ผมยังไม่ได้เข้าใจทั้งหมด แต่จินตนาการนั้นน่าสนใจดี
      มันชวนให้นึกถึง จักรวาลและอารยธรรมระดับอนุภาคย่อยจำนวนนับไม่ถ้วน ที่รุ่งเรืองและล่มสลาย บางแห่งก็ถูกเทคโนโลยีกึ่งปัญญาอัตโนมัติกลืนกิน และในระดับมหภาค สิ่งนั้นแสดงออกมาเป็นพฤติกรรมของอนุภาค
      ตอนนี้พวกเราเองก็กำลังสร้างอนุภาคหนึ่งขึ้นมา และทางเลือกโดยรวมของพวกเราอาจส่งผลเล็กน้อยแต่มีความหมายต่อจักรวาลชั้นบนที่เราอาศัยอยู่
  • output ของใครคนหนึ่งย่อมกลายเป็น input ของอีกคนเสมอ
    ถ้าเพิ่มปริมาณด้วย LLM คนถัดไปก็จะใช้ LLM อีกทีเพื่อ parse มันแล้วสร้าง output ของตัวเอง
    พอมันต่อกันไปเรื่อย ๆ จนผู้บริโภคปลายทางเริ่มร้องเรียน สุดท้ายก็ไม่มีใครระบุได้แน่ชัดว่าจุดไหนกันแน่ที่ผิดพลาด

    • แน่นอน ตอนนั้นก็คงบอกว่าเป็นเพราะผู้บริโภคคนสุดท้าย ใช้งานผิดวิธี
      เพราะคนสุดท้ายเป็นคนเดียวที่มองเห็นได้ตรงหน้า ส่วนที่เหลือซ่อนอยู่หลังพร็อกซีอีก 7 ชั้น