ซิมูลาคราของงานใช้ความรู้

(blog.happyfellow.dev)

2 คะแนน โดย GN⁺ 3 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

คุณภาพของงานใช้ความรู้ตรวจสอบได้ยากหากไม่ได้ลงมือทำซ้ำด้วยตนเอง จึงมักต้องพึ่งตัวชี้วัดทดแทนอย่าง ความสมบูรณ์ที่ดูจากภายนอก มากกว่าความถูกต้องจริง
เมื่อเห็น ข้อบกพร่องบนผิวหน้า เช่น วันที่ผิดหรือป้ายกำกับกราฟมีปัญหา ก็มักทิ้งผลงานทั้งชิ้นได้ง่าย แม้จะไม่เกี่ยวกับข้อสรุปหลักของเนื้อหา และเกณฑ์ตัดสินก็เอนเอียงไปหาภาพลักษณ์ที่ตรวจสอบได้ถูกกว่า มากกว่าการสะท้อนความจริง
LLM สามารถเลียนแบบสำนวนและรูปแบบที่ดูน่าเชื่อถือได้ดี แม้จะไม่ได้สร้างคุณภาพของงานจริงขึ้นมาใหม่ ทำให้ ขั้นตอนเชิงพิธีกรรม ของรายงานหรือโค้ดยังคงอยู่ แต่คุณภาพที่อยู่ข้างใต้กลับอาจว่างเปล่า
หากเกณฑ์ที่วัดเป็นคุณภาพเชิงผิวเผิน การปล่อยให้ LLM เขียนผลลัพธ์ส่วนใหญ่ก็กลายเป็นทางเลือกที่สมเหตุสมผล และตัว LLM เองก็ถูกปรับให้เหมาะกับ เอาต์พุตที่ดูเหมือนมีคุณภาพสูง มากกว่า ความจริงหรือความมีประโยชน์
ผลลัพธ์คือระบบมูลค่าหลายหมื่นล้านดอลลาร์อาจถูกใช้ไปกับ การจำลองงาน มากกว่างานจริง และกระแสการไล่อ่านผ่าน ๆ แล้วติด LGTM ก็กลายเป็นสภาพที่ทำให้ Goodhart's law เป็นอัตโนมัติ

โครงสร้างและผลลัพธ์ที่ LLM เปลี่ยนไป

LLM เลียนแบบ สำนวนและรูปแบบที่ดูน่าเชื่อถือ ได้เก่งมาก แม้จะไม่ได้สร้างคุณภาพของงานจริงขึ้นมาใหม่
รายงานวิเคราะห์ตลาดที่เขียนด้วย ChatGPT อาจอ่านแล้วและดูเหมือนผลงานจากบริษัทที่ปรึกษาชั้นนำ
วิศวกรซอฟต์แวร์สามารถสร้างโค้ดหลายพันบรรทัดที่ดูเหมือนมีคุณภาพสูงได้จากการกวาดตาเพียงครู่เดียว และเพื่อนร่วมงานก็อาจใช้ AI รีวิวโค้ดอีกครั้งเพื่อหาปัญหาและแก้ไข
ผลคือ ขั้นตอนเชิงพิธีกรรม ของงานยังคงอยู่ แต่คุณภาพจริงที่อยู่ข้างใต้กลับอาจว่างเปล่า
หาก เกณฑ์ที่ถูกวัด คือคุณภาพเชิงผิวเผิน คนทำงานก็มีเหตุผลที่จะทำตัวให้ดูดีตามเกณฑ์นั้น จนผลลัพธ์ส่วนใหญ่ถูกเขียนโดย LLM
การฝึก LLM เองก็ไม่ได้มุ่งไปที่ว่าคำตอบจริงหรือมีประโยชน์แค่ไหน แต่ไปที่ว่ามันดูเหมือนสิ่งที่น่าจะพบในชุดข้อมูลฝึก หรือทำให้ ผู้ประเมิน RLHF พอใจหรือไม่
สุดท้าย LLM เองก็ถูกปรับให้เหมาะกับการสร้างเอาต์พุตที่ดูเหมือนมีคุณภาพสูง
ระบบที่สร้างขึ้นด้วยเงินหลายหมื่นล้านดอลลาร์จึงถูกนำไปใช้เพื่อทำ การจำลองงาน มากกว่างานจริง
บริษัทต่าง ๆ กลายเป็นอยู่ในภาวะแข่งกันว่าใครใช้โทเคนได้มากกว่ากัน
ยิ่งคนทำงานสร้างเอาต์พุตจาก LLM มากเท่าไร เวลาที่ใช้ตรวจทานเอาต์พุตนั้นอย่างลึกซึ้งก็ยิ่งน้อยลง
สิ่งที่เหลืออยู่มีเพียงการกวาดตาดูคร่าว ๆ ติด LGTM แล้วเปิดเซสชัน Claude Code ถัดไป

1 ความคิดเห็น

GN⁺ 3 일 전

ความเห็นจาก Hacker News

ผมไม่ได้เห็นด้วยทั้งหมดทั้งกับข้ออ้างในบทความที่ว่าแต่ก่อนเราพอจะประเมินคุณภาพของงานใช้แรงงานทางความรู้ของมนุษย์ได้ง่ายจากตัวชี้วัดแทนอย่าง คำผิดหรือข้อผิดพลาดเล็กน้อย และก็ไม่ได้เห็นด้วยทั้งหมดกับข้ออ้างว่าปัญหาคือ AI ไม่มีร่องรอยแบบนั้น
ในทางแนวคิด งานของมนุษย์ที่แย่มากแต่ข้อเท็จจริงยังถูกต้องและรูปแบบก็ดูเรียบร้อยนั้นมีอยู่เยอะมาแต่เดิมแล้ว
ถ้าทำงานกับลูกค้าองค์กรมา 10 ปี ผมก็คงไม่พูดว่ายุคก่อน LLM เป็นยุคทองของงานใช้แรงงานทางความรู้คุณภาพสูงเลย เพราะตอนนั้นก็มีของปะปนแบบ ภาพลวงที่ใช้งานได้ของงานใช้แรงงานทางความรู้ เต็มไปหมดเหมือนกัน
- สำหรับผม ปัญหาใหญ่กว่าคือการที่ ความสามารถในการอธิบายความผิดพลาดแบบมนุษย์ กำลังหายไป
  ผลงานคุณภาพต่ำของคนมักมีสาเหตุ เช่น ไม่รู้จริง เวลาจำกัด หรือเป้าหมายที่เห็นแก่ตัว และสาเหตุเหล่านี้ก็ค่อนข้างสม่ำเสมอ
  เราจับรูปแบบความน่าเชื่อถือได้ เช่น เด็กฝึกงานที่ระมัดระวังแต่ยังไม่รู้ หรือรุ่นพี่ที่ความรู้เยอะแต่พลาดเรื่องชัด ๆ เพราะอดนอน
  แต่ AI กลับสามารถทำ implementation ตามเปเปอร์ได้สมบูรณ์แบบในคราวเดียว ขณะเดียวกันก็ทำพลาดระดับนักศึกษาปีหนึ่งในการรันครั้งเดียวกันได้ ทำให้เกิดสถานการณ์ที่สวนสัญชาตญาณ คือเราต้อง รีวิวโดยสมมติว่าไร้ความสามารถโดยสิ้นเชิง กับเครื่องจักรที่บางครั้งก็แสดงความสามารถระดับสุดโต่ง
- แม้ยุคก่อน LLM จะไม่ใช่ยุคทองของคุณภาพ แต่ก็จริงที่ LLM ได้ลบสัญญาณอีกอย่างหนึ่งที่เคยใช้แยกงานเพ้อเจ้อซึ่งทำแบบลวก ๆ ออกไป
- เดิมทีสิ่งนี้ไม่ใช่ การคัดกรองเชิงบวก แต่เป็น ตัวกรองเชิงลบ
  ถ้ามีคำผิดหรือข้อผิดพลาดข้อเท็จจริงพื้นฐาน ก็สามารถคัดทิ้งได้ง่าย แต่การไม่มีสิ่งเหล่านั้นไม่ได้แปลว่าคุณภาพสูง
  ปกติการตรวจแบบนี้เป็นแค่ด่านแรก ไม่ใช่ทั้งหมด และเมื่อผ่านด่านนี้แล้วก็จะเห็นปัญหาจริงได้ง่ายขึ้น
  คล้ายกับในโค้ดที่ต้องจัดการ lint และสไตล์ ก่อนเรื่อง reasoning
- ถึงจะจับ วลีเฉพาะแบบ AI ที่เด่นชัดได้ แต่ก็อาจพลาดข้อความที่ AI สร้างอีก 99% ที่ไม่มีร่องรอยอะไรเลย
  แต่เพราะตัวเองไม่รู้ว่า 99% นั้นเป็นงานจาก AI ก็เลยเผลอคิดง่าย ๆ ว่าตัวเองกรองงานเขียนจาก AI ออกได้หมด จากแค่รูปแบบ 100% ที่ตัวเองสังเกตเห็น
- ผมไม่คิดว่านี่สำคัญในระดับแก่นหลัก
  เดิมที งานใช้แรงงานทางความรู้ จำนวนมากก็เป็นตัวแทนของอย่างอื่นอยู่แล้ว
  คุณภาพแบบไม่มีคำผิดและรูปแบบเรียบร้อยนั้นมักเป็นสัญญาณของความเคารพ คล้ายเสื้อเชิ้ตขาวรีดเรียบกับเนกไท และยังมีเอกสารยาวมากมายที่จริง ๆ แล้วไม่มีใครอ่านลึก
  ท้ายที่สุดมันคือวิธีแสดงความเสียสละและการยอมตามเชิงสัญลักษณ์ และ LLM กำลังลบระบบสัญญาณนี้ออกไป
  ถ้าเมื่อก่อนเราเองก็ไม่ได้ดูคุณภาพของเนื้อหาอย่างจริงจังอยู่แล้ว ก็แปลว่าเนื้อหานั้นอาจไม่ได้สำคัญขนาดนั้นตั้งแต่ต้น
ในแวดวงวิชาการ ปัญหา ต้นทุนการตรวจงาน AI เริ่มโผล่มาแล้ว แต่ต่างจากเหตุผลที่บทความพูดเล็กน้อย
ประเด็นสำคัญไม่ใช่การหายไปของร่องรอยงานหยาบ ๆ เท่าไร แต่เป็นการที่ต้นทุนในการตรวจงานที่ทำด้วย AI อย่างละเอียดกำลังสูงเกินกว่าที่มนุษย์จะรับไหว
ตัวอย่างเช่น วารสารเศรษฐศาสตร์มีภาคผนวกยาวได้ถึงหลายร้อยหน้า แต่เวลาที่คนจะอ่านมีจำกัด
ผมสงสัยว่าวารสารสาขาอื่น ๆ กำลังถูกกดดันทั้งจากจำนวนงานส่งใหม่ที่เพิ่มขึ้น และจาก ความเข้มข้นของการตรวจทาน ที่ต้องใช้เพื่อยืนยันแต่ละงานด้วยหรือไม่
- พูดอย่างเป็นธรรม หลายสาขาวิชาต้องใช้ความเชี่ยวชาญสูงมากตั้งแต่ระดับ ปริญญาโทขึ้นไป จึงจะตัดสินได้
  ต่ำกว่าระดับนั้น บางทีก็แทบแยกไม่ออกว่าอะไรถูกจริง กับอะไรที่แค่ดูเหมือนถูก
ตอนใช้ AI ผมรู้สึกว่ากำลัง cargo-cult ความเข้าใจ
คือเลียนแบบผิวหน้าของการเข้าใจอะไรบางอย่าง แต่กลับพรากเวลาและความพยายามที่จำเป็นต่อการเข้าใจจริงไปจากตัวเอง
- ผมนึกแบบนี้เสมอเวลาเห็นเพื่อนร่วมงานคนหนึ่ง เขามองภาพการใช้ AI แทบทั้งหมดเป็นแฟนตาซีแบบ Jarvis ส่วนตัว
  เขาเชื่อว่าถ้าเอา Claude, Snowflake Cortex, โค้ดรวมศูนย์, เอกสาร, Jira ticket ทุกอย่างไปป้อน ก็จะถามอะไรก็ได้และทุกอย่างจะดีขึ้นมาก
  แต่ความหมกมุ่นนั้นไม่ได้สร้างผลลัพธ์ใหญ่ ๆ และเขาก็เคยเจอข้อจำกัดของเทคโนโลยีแบบหนัก ๆ ด้วยตัวเองหลายครั้ง
  ทุกคนพูดถึง agentic workflow กับวิสัยทัศน์ internal wiki ขนาดมหึมา แต่ผมกลับใช้ AI เพื่อเร่งความเร็วการส่งงานได้พอสมควร โดยไม่เสียเวลากับ การผจญภัยใหญ่โต เลยยังคงส่งมอบผลลัพธ์ได้เรื่อย ๆ
  มันยังมีความย้อนแย้งที่คนซึ่งเคยวิจารณ์การเอาแชตบอตเข้าบริษัท ตอนนี้กลับเผาโทเคนเพื่อรวบรวมไฟล์ .md กับ skill file นับล้านล้านไฟล์มาสร้างแชตบอตของตัวเอง
  สิ่งที่น่ากังวลจริง ๆ คือ องค์ความรู้จริงในระดับสถาบัน กำลังสูญหายไปในทางลัดแบบนี้
  การขอ example ง่าย ๆ หรือถามเพื่อเรียนรู้แนวคิดนั้นโอเค แต่ prompt ประเภทที่ให้มันตรวจเครื่องมือและโครงสร้างพื้นฐานปัจจุบันเพื่อเพิ่มความเร็ว deployment 5 เท่า, ทำ web research, และสร้างทั้งข้อเสนอการนำไปใช้ในองค์กรกับการวิเคราะห์ต้นทุน-ผลประโยชน์ 5 ปีในครั้งเดียว แบบนี้กำลังทำให้คนอ่อนแอลงด้วยมือตัวเอง
  ทุกวันนี้คนโยนข้อเสนอที่ Claude ทำไว้ไปทั่ว แต่กลับข้ามขั้นตอนการลงไปขุดเองสักหน่อย หรือสำรวจร่วมกับสถาปนิกระบบหรือวิศวกรอาวุโส
  ผลก็คือหลายคนเข้าใจหลายเรื่องแบบผิวเผินเท่านั้น พอถามลึกก็อธิบายไม่ค่อยได้ และเชื่อคำตอบจาก AI ราวกับเป็น กลยุทธ์ที่ยืนยันแล้ว จนไม่อยากให้ใครมาท้าทาย
  โอกาสในการเรียนรู้จากคนที่มีประสบการณ์มากกว่าก็ไม่ถูกมองเป็นประสบการณ์การเรียนรู้อีกต่อไป
  สุดท้ายผมยังเชื่อว่าสมองคนเองก็ยังเป็นหนึ่งในเทคโนโลยีที่น่าทึ่งที่สุดอยู่ดี และทำให้ต้องย้อนถามว่าเราจะสร้างหอสมุดเทียมขนาดมหึมานี้ไว้นอกตัวเราไปทำไม
- ที่จริงผมว่าไม่ใช่ cargo cult ของความเข้าใจ แต่เป็น cargo cult แบบมุมมองผู้จัดการ มากกว่า
  อย่างที่ Bret Devereaux พูดไว้ใน บทวิจารณ์ Game Of Thrones ว่ามุมมองโลกแบบชนชั้นนำจะดูน่าเชื่อและฟังคล้ายยูโทเปียสำหรับชนชั้นนำเท่านั้น
  ฟองสบู่ที่ตัดขาดจากแรงงานจริงแบบนี้สุดท้ายจะแตกอย่างแรง และถ้าตอนนั้นมวลชนที่ตกงานเพราะ AI ร้องว่ากินขนมปังไม่ได้ แต่คนข้างบนตอบว่าก็กินเค้กสิ ก็ชวนให้นึกถึงแรงตีกลับระดับการปฏิวัติฝรั่งเศสได้เลย
- ในทางกลับกัน AI สามารถทำบางอย่างแทนผมได้ แม้ผมจะยังไม่เข้าใจมัน
  แต่ถ้าเป็นเครื่องมือที่ช่วยตอน พยายามทำความเข้าใจอย่างลึกซึ้ง ก็แทบไม่มีอะไรดีเท่า AI แล้วเหมือนกัน
ท้ายที่สุด การจะเข้าใจอะไรสักอย่างก็คือ การลงมือทำด้วยตัวเอง แทบจะพอ ๆ กัน
การไม่เข้าใจไม่ใช่เรื่องผิด แต่ในกรณีนั้น ไม่ว่าจะมีตัวชี้วัดแทนหรือไม่ สุดท้ายก็ต้องอาศัยความเข้าใจของคนอื่นที่เราเชื่อถือ
การทำงานให้น้อยลงแล้วเชื่อมากขึ้นอาจไปได้ถึงจุดหนึ่ง แต่เกินจากนั้นไป งานในอนาคตก็จะเริ่มเปราะบาง
คำว่า simulacrum เป็นคำที่ดีมากจริง ๆ
- แนวคิด Simulacrum มาจาก Baudrillard และบทความ Simulation and Simulacra ของเขาก็ช่วยให้เข้าใจได้พอสมควรว่าทำไมเศรษฐกิจสมัยใหม่ถึงประหลาดแบบนี้
เพราะอย่างนี้มั้งที่ ผู้จัดการระดับกลาง ดูเหมือนเป็นศาสนิกกลุ่มแรกของลัทธิ LLM สูงสุด
ผู้จัดการระดับกลางมีแรงจูงใจมากมายให้ผลักงานใช้แรงงานทางความรู้ไปสู่การทำให้เป็นนามธรรมมากขึ้นเรื่อย ๆ นอกเหนือจากทักษะจริงของบทบาท และดูเหมือนว่าชั้นนามธรรมนั้นจะอธิบายได้ดีเป็นพิเศษใน embedding space
โค้ดจาก AI หลายครั้งดูแย่กว่าความเป็นจริง
มันยืดยาวเกินไป สับสน และใส่ fallback มาเต็มไปหมด พอมีปัญหาก็ไหลผ่าน try/catch จำนวนมหาศาล ส่ง stack trace ไปโผล่ในที่ประหลาด
ถึงอย่างนั้น ถ้าดูแค่ฟังก์ชันล้วน ๆ มันก็มักทำงานได้ดีกว่าโค้ดที่คนเขียนซึ่งภายนอกดูคล้ายกันอยู่บ่อยครั้ง
- ถึงจะอธิบายแบบนั้น โค้ดนั้นก็ยังเป็น โค้ดแย่ อยู่ดี
  เพราะทั้งคนและ LLM ก็ reason กับมันได้ยาก
อยากเห็น สไตล์บทความบล็อก แบบนี้มากขึ้น
ความยาวกำลังดี สื่อสารประเด็นได้ดี และมีความเป็นเรื่องเล่า
ช่วงนี้มี AI slop จาก LLM ที่ยาวเท่านิยายเยอะเกินไป เลยยิ่งทำให้บทความแบบนี้น่ายินดี
สำหรับหลายคนในอุตสาหกรรม นี่ดูเป็น แนวโน้มที่ชัดเจนอยู่แล้ว พอสมควร
ปัญหาคือมีเงินเดิมพันอยู่มากเกินไป จนผู้เล่นรายใหญ่ยังคงผลักสิ่งที่ตัวเองต้องการต่อไป
มันทำให้ผมเผลอจินตนาการว่าอนุภาคที่เล็กกว่าอะตอมจริง ๆ แล้วคือ จักรวาลหนึ่ง ๆ และคุณสมบัติของมันสะท้อนร่องรอยของสิ่งมีชีวิตที่เคยปกครองจักรวาลนั้น กับระบบอัตโนมัติที่ยังเดินต่อหลังพวกเขาหายไป
เหมือนเครื่องจักรอัตโนมัติที่เก็บเกี่ยวเอนโทรปีและเพิ่มจำนวนตัวเองต่อไปเรื่อย ๆ
ตอนนี้เรากำลังสร้างพลังที่ใหญ่กว่าเราเอง และวันหนึ่งอาจไปถึง จุดที่ย้อนกลับไม่ได้
- ผมยังไม่ได้เข้าใจทั้งหมด แต่จินตนาการนั้นน่าสนใจดี
  มันชวนให้นึกถึง จักรวาลและอารยธรรมระดับอนุภาคย่อยจำนวนนับไม่ถ้วน ที่รุ่งเรืองและล่มสลาย บางแห่งก็ถูกเทคโนโลยีกึ่งปัญญาอัตโนมัติกลืนกิน และในระดับมหภาค สิ่งนั้นแสดงออกมาเป็นพฤติกรรมของอนุภาค
  ตอนนี้พวกเราเองก็กำลังสร้างอนุภาคหนึ่งขึ้นมา และทางเลือกโดยรวมของพวกเราอาจส่งผลเล็กน้อยแต่มีความหมายต่อจักรวาลชั้นบนที่เราอาศัยอยู่
output ของใครคนหนึ่งย่อมกลายเป็น input ของอีกคนเสมอ
ถ้าเพิ่มปริมาณด้วย LLM คนถัดไปก็จะใช้ LLM อีกทีเพื่อ parse มันแล้วสร้าง output ของตัวเอง
พอมันต่อกันไปเรื่อย ๆ จนผู้บริโภคปลายทางเริ่มร้องเรียน สุดท้ายก็ไม่มีใครระบุได้แน่ชัดว่าจุดไหนกันแน่ที่ผิดพลาด
- แน่นอน ตอนนั้นก็คงบอกว่าเป็นเพราะผู้บริโภคคนสุดท้าย ใช้งานผิดวิธี
  เพราะคนสุดท้ายเป็นคนเดียวที่มองเห็นได้ตรงหน้า ส่วนที่เหลือซ่อนอยู่หลังพร็อกซีอีก 7 ชั้น

ซิมูลาคราของงานใช้ความรู้

โครงสร้างและผลลัพธ์ที่ LLM เปลี่ยนไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News