งานวิจัยของ Stanford Law พบว่า AI ทำผลงานได้ดีกว่าอาจารย์นิติศาสตร์
(law.stanford.edu)- ในงานวิจัยของ Stanford Law School อาจารย์นิติศาสตร์ชอบคำตอบที่สร้างโดย AI อย่างท่วมท้นมากกว่าคำตอบของอาจารย์ด้วยกันเองสำหรับคำถามของนักศึกษา ซึ่งชี้ให้เห็นถึงผลลัพธ์ที่อาจส่งผลต่อวิธีการจัดการเรียนการสอนกฎหมาย
- ในการประเมินแบบปกปิดโดยอาจารย์นิติศาสตร์จากโรงเรียนกฎหมายในสหรัฐฯ 16 คน มีการเปรียบเทียบแบบไม่ระบุตัวตนราว 3,000 ครั้ง และ AI มีอัตราชนะในการเปรียบเทียบโดยตรงกับคำตอบของอาจารย์ที่ 75%
- ผู้เข้าร่วมได้สร้าง คำถาม 40 ข้อ ที่นักศึกษาอาจถามหลังเรียนวิชากฎหมายสัญญาหรือในช่วง office hours และตอบด้วยตนเอง ก่อนจะประเมินคำตอบของ AI และอาจารย์คนอื่นโดยไม่ทราบที่มา
- อาจารย์ระบุว่าคำตอบของ AI เป็นอันตรายต่อการเรียนรู้ในสัดส่วน 3.5% ขณะที่คำตอบของอาจารย์ด้วยกันเองอยู่ที่ 12% และระบบ AI แสดงผลงานใกล้เคียงกับผู้สอนมนุษย์ที่ทำได้ดีที่สุดในการวิจัยนี้
- ผลลัพธ์ไม่ได้สนับสนุนการนำ AI tutor มาใช้แบบเต็มรูปแบบโดยตรง แต่เป็นพื้นฐานสำหรับการหารือเรื่อง แนวทางการนำไปใช้อย่างรับผิดชอบ แม้ในสาขาอย่างนิติศาสตร์ที่การใช้วิจารณญาณมีความสำคัญ
การออกแบบงานวิจัยและผลลัพธ์สำคัญ
- งานวิจัย “Law Professors Prefer AI Over Peer Answers” ที่นำโดยศาสตราจารย์ Julian Nyarko แห่ง Stanford Law School ตรวจสอบว่าโมเดลภาษาขนาดใหญ่สามารถทำหน้าที่เป็นติวเตอร์ที่มีประสิทธิภาพสำหรับวิชากฎหมายสัญญาได้หรือไม่
- งานวิจัยมีอาจารย์นิติศาสตร์จากโรงเรียนกฎหมายในสหรัฐฯ 16 คนเข้าร่วม โดยผู้เข้าร่วมได้สร้างคำถามตัวแทน 40 ข้อในวิชากฎหมายสัญญาที่นักศึกษาอาจถามหลังเรียนหรือในช่วง office hours และตอบคำถามเหล่านั้นด้วยตนเอง
- อาจารย์ประเมินโดยไม่ทราบว่าคำตอบมาจาก AI หรือจากอาจารย์ผู้เข้าร่วมคนอื่น และจากการเปรียบเทียบแบบไม่ระบุตัวตนราว 3,000 ครั้ง คำตอบของ AI ชนะการเปรียบเทียบโดยตรง 75%
- ทีมวิจัยได้ปรับความยาวและโครงสร้างของคำตอบ AI ให้สอดคล้องกับคำตอบของมนุษย์ ใช้วิธีประเมินหลายรูปแบบ และให้อาจารย์ประเมินด้วยว่าคำตอบนั้นอาจทำให้นักศึกษาหลงทางหรือสับสนหรือไม่
- ระบบ AI ทำผลงานได้ใกล้เคียงกับผู้สอนมนุษย์ที่ทำได้ดีที่สุดในการวิจัยนี้ และสัดส่วนที่อาจารย์ระบุว่าเป็นอันตรายต่อการเรียนรู้คือ 3.5% สำหรับคำตอบ AI เทียบกับ 12% สำหรับคำตอบของอาจารย์ด้วยกันเอง
ความหมายและข้อจำกัดต่อการศึกษากฎหมาย
- นิติศาสตร์เป็นสาขาที่มักไม่มีคำตอบที่ชัดเจนเพียงหนึ่งเดียว และข้อโต้แย้งที่ขัดแย้งกันก็อาจมีน้ำหนักน่าเชื่อถือได้ทั้งคู่ ทำให้วิจารณญาณ การให้เหตุผลอย่างละเอียดอ่อน และการรับมือกับความกำกวมเป็นเรื่องสำคัญ
- ทีมวิจัยยังพิจารณาระบบติวเตอร์เชิงพาณิชย์และ AI หลายโมเดล เช่น Google NotebookLM รวมถึงโมเดล AI อื่น ๆ ด้วย โดยประสิทธิภาพของแต่ละโมเดลมีความแตกต่างกัน
- แม้ในกรณีที่ข้อจำกัดด้านบริบทส่งผลต่อคำตอบของ AI อาจารย์ก็มักจะยังชอบคำตอบของ AI มากกว่าทางเลือกที่เขียนโดยมนุษย์
- โรงเรียนกฎหมายต้องรักษามาตรฐานทางวิชาการที่เข้มงวดในการบูรณาการเครื่องมือ AI เข้ากับการศึกษากฎหมาย พร้อมพิจารณาความเสี่ยงอย่างอาการหลอนของ AI การพึ่งพามากเกินไป และการถดถอยของความสามารถในการคิดเชิงวิพากษ์
- งานวิจัยนี้ประเมินคุณภาพของคำตอบที่เครื่องมือ AI สร้างขึ้น แต่รูปแบบการนำไปใช้ที่ช่วยยกระดับการเรียนรู้ของนักศึกษาได้อย่างมีประสิทธิภาพที่สุดยังเป็นคำถามเปิด และการอภิปรายควรขยับจากคำถามว่า AI ให้คำตอบที่ถูกต้องและมีคุณภาพสูงได้หรือไม่ ไปสู่การนำไปใช้อย่างรับผิดชอบเพื่อให้เกิดประโยชน์ต่อนักศึกษา
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
งานวิจัยนี้น่าสงสัยพอสมควร ต้องขุดต่ออีกหน่อย แต่ถ้าเป็นคนอ่านก็ควรได้ยิน สัญญาณเตือน ดังมากพอสมควร
Figure 2 (หน้า 6) ดูมีปัญหาหลายอย่าง มีศาสตราจารย์แค่ 16 คน แต่บอกว่าเปรียบเทียบคนละ 3,000 ครั้ง แถมผลลัพธ์ของแต่ละศาสตราจารย์ก็แกว่งมาก ความแปรปรวนสูงมากจนดูเหมือนเป็นสัญญาณว่างานวิจัยนี้ไม่มี อำนาจการทดสอบทางสถิติ ที่มีความหมาย
อีกอย่าง ในผลลัพธ์หลักมีเฉพาะโมเดลของ Google เท่านั้น เลยดูมีอคติชัดเจน โมเดลอื่นไปโผล่ในส่วนอื่น แต่ทำไมถึงหายไปจากผลลัพธ์สำคัญก็ชวนสงสัย
ผมไม่ใช่ผู้เชี่ยวชาญด้านกฎหมาย แต่ค่อนข้างเข้าใจสถิติ และพูดได้อย่างมั่นใจว่าบทความนี้มีกลิ่นแปลก ๆ ถึงจะฟันธงไม่ได้ว่าเป็นเรื่องเหลวไหล แต่สัญญาณอันตรายมีอยู่รอบด้าน
ศาสตราจารย์ในฐานะผู้ประเมินได้ทำการเปรียบเทียบแบบ blind forced-choice จำนวน 2,918 ครั้ง โดยค่ามัธยฐานต่อผู้ประเมินคือ 200 ครั้ง และในแต่ละครั้งจะเลือกคำตอบระหว่างคำตอบของผู้สอนที่ทำให้ไม่ระบุตัวตนกับคำตอบของ LLM ว่าอยากมอบคำตอบไหนให้กับนักศึกษา
ผมยังเคยเห็นงานที่เอาบทสัมภาษณ์กับ protocol ไปใส่ใน ChatGPT แล้วดึงผลลัพธ์ออกมา ก่อนจะเรียกสิ่งนั้นว่า “ระเบียบวิธี” ด้วยซ้ำ แถมยังผ่านการ peer review และตีพิมพ์แล้วด้วย
เรื่องนี้อาจอธิบายได้คล้ายกับหนัง Hollywood ถ้าหนังถูกสร้างมาเพื่อทำให้คนจำนวนมากที่สุดพอใจ มันก็มีโอกาสมากกว่าที่คนจะเลือกมันเหนือหนังเรื่องอื่น
ศาสตราจารย์กฎหมายที่เป็นมนุษย์ย่อมมีบุคลิก ความเชื่อ และความเห็นของตัวเองสะท้อนออกมาในงานเขียน แต่ LLM ถูกฝึกมาเพื่อทำให้ มวลชนวงกว้างที่สุด พอใจ นั่นไม่ได้แปลว่าคำตอบดีกว่า เหมือนกับที่ Captain America ไม่ได้ดีกว่า American Beauty โดยอัตโนมัติเสมอไป
ในฐานะวิศวกรซอฟต์แวร์ ผมพอมีสัญชาตญาณอยู่บ้างว่างานแบบไหนอันตรายถ้าจะมอบให้เอเจนต์ทำ
แต่พอเป็นการให้ AI ร่างเอกสารกฎหมาย กลับยังไม่มีสัญชาตญาณแบบเดียวกันว่ามีอะไรที่อาจผิดพลาดได้บ้าง การเขียนพินัยกรรมดูเผินๆ เหมือนไม่มีพิษมีภัย แต่จริงๆ แล้วก็ไม่แน่ใจ ระบบกฎหมายขึ้นชื่อเรื่องมีกับดักเต็มไปหมด
มันชอบสอดแทรกคำอ้างจากคดีอื่นที่ดูน่าเชื่อถือราวกับพิสูจน์ข้อโต้แย้งที่ต้องการได้อย่างสมบูรณ์แบบ และถึงขั้นแต่งชื่อคดีที่ดูเหมือนจริงอย่าง United States v. Shenzhou Electronics Inc ขึ้นมาได้ด้วย บางครั้งผมตรวจไปหลายรอบไม่เจออ้างอิงปลอมก็เลยสบายใจ แต่พอคำร้องฉบับถัดไปกลับโผล่มาสามรายการเฉยเลย
ถึงอย่างนั้น ทนายที่ไม่ใช้ LLM ในงานวิจัยกฎหมายก็กำลังตามหลังอยู่ มันเก่งอย่างเหลือเชื่อในการหาคำพิพากษาเฉพาะทางที่ถ้าหาคนเดียวคงไม่มีวันเจอ สมัยก่อนการค้นหามักพึ่งการตรงกันของคำค้นแบบเป๊ะๆ ซึ่งหลายครั้งแทบไม่มีประโยชน์กับการวิจัยกฎหมายโดยเนื้อแท้ เราต้องการอะไรสักอย่างที่ค้นหาได้ด้วยเงื่อนไขที่กำกวมกว่านั้น และ AI ทำเรื่องนี้ได้ดีมาก เพียงแต่ผลลัพธ์ต้องตรวจสอบเสมอ LLM ของ Lexis Nexis หรือ Westlaw ก็น่าจะดีกว่าโมเดลทั่วไป
LLM เป็น ผู้ช่วยด้านกฎหมาย ที่ยอดเยี่ยม ถ้าทำงานด้านกฎหมาย ก็ควรใช้มันอย่างน้อยในฐานะเครื่องมือโยนไอเดียใส่ ลองให้มันเล่นบททนายฝ่ายตรงข้ามเพื่อช่วยโต้แย้งกลับก็ได้ เพื่อนผมคนหนึ่งให้มันสวมบททนายของอีกฝ่ายตลอด เพื่อไล่ดูข้อโต้แย้งที่อาจถูกยกขึ้นมาทั้งหมด
มันก็เหมือนกับการพัฒนาซอฟต์แวร์ ถ้าผลลัพธ์ที่สร้างขึ้นมีความสำคัญ คุณต้องตรวจผลลัพธ์
มันให้ความรู้สึกเหมือนเปรียบเทียบการค้นหาของผมที่เป็นผู้ดูแลระบบ กับการค้นหาของ Jane ในทีมบัญชี ผู้ใช้ปลายทางที่ไม่ใช่สายเทคนิคมีโอกาสมากกว่าจะทำปัญหาให้แย่ลง หรือไปติดตั้งอะไรน่าสงสัยจากผลค้นหาที่เต็มไปด้วยโฆษณา ส่วนผมหรือเจ้าหน้าที่เฮลป์เดสก์มีโอกาสทำแบบนั้นน้อยกว่า
ผมคงไม่ไว้ใจให้ AI จัดทำเอกสารกฎหมายสำคัญโดยไม่มีคำแนะนำจากทนาย เช่นเดียวกัน ผมก็ไม่อยากพึ่งพาให้ทนายของผมใช้ AI เขียนโค้ดให้ผม
เอกสารกฎหมายไม่มี automated tests, static types, test environment, การวัดผลแบบ logging/observability หรือ sandboxing
ช่วงเวลาหน่วงระหว่างการเขียนกับการ “นำไปใช้จริง” ก็ทำให้วงจรดีบักมีประสิทธิภาพน้อยลงและมีค่าใช้จ่ายสูงขึ้นมาก โค้ดสามารถดีพลอยขึ้นโปรดักชันได้ภายในไม่กี่วินาที ดูข้อผิดพลาดจากล็อกแล้วดีบักต่อได้ทันที แต่ข้อผิดพลาดในสัญญาหรือเอกสารที่ยื่นต่อศาลมักจะถูกพบหลังจากนั้นอย่างน้อยหลายวัน และบ่อยครั้งเป็นหลายปี ซึ่งถึงตอนนั้นก็มักแก้ไขไม่ได้แล้ว ทำให้ข้อผิดพลาดทั้งค้นพบและแก้ไขได้ยากกว่า
ผลกระทบจากข้อผิดพลาดก็มักใหญ่กว่ามาก เพราะอาจแก้ไขไม่ได้ และความผิดพลาดทางกฎหมายอาจทำให้ชีวิต เสรีภาพ หรือทรัพย์สินจำนวนมากของใครบางคนตกอยู่ในความเสี่ยง แน่นอนว่าบั๊กในระบบที่สำคัญต่อความปลอดภัยก็อาจแย่พอๆ กันหรือแย่กว่าความผิดพลาดทางกฎหมายได้ ดังนั้นจึงไม่ใช่เส้นแบ่งแบบสัมบูรณ์ ถึงอย่างนั้น โดยทั่วไปแล้วซอฟต์แวร์ส่วนใหญ่มักมีความเสี่ยงต่ำกว่าเอกสารกฎหมายส่วนใหญ่
ในทางกลับกัน LLM ดูจะทำเรื่องสไตล์และโครงสร้างพื้นฐานของเอกสารกฎหมายได้ดีกว่าโค้ด เช่น การยึดตามรูปแบบ IRAC, การใส่อ้างอิงประกอบข้อเสนอทางกฎหมาย, หรือการเขียนประโยคที่เข้าใจได้ แน่นอนว่าปัญหาเรื่องหลอนยังคงมีอยู่ ถ้าเทียบกับโค้ดก็คงคล้ายกับแนวปฏิบัติที่ดีอย่างคอมเมนต์ที่ดี, cohesion, การใช้ design patterns อย่างสม่ำเสมอ, test coverage, ชื่อตัวแปรที่ชัดเจน และ DRY
ที่มันทำได้ดีกว่าในตัวชี้วัดเชิงคุณภาพเหล่านี้ อาจเป็นเพราะแม้เอกสารกฎหมายที่ยาวที่สุดก็ยังมักมีโครงสร้างง่ายกว่าและมีจำนวนบรรทัดข้อความน้อยกว่า codebase ขนาดใหญ่และซับซ้อน หรืออาจเป็นเพราะ LLM ถูกฝึกด้วยข้อความภาษาธรรมชาติมากกว่าโค้ด หรือเพราะภาษาธรรมชาติมีความยืดหยุ่นกว่าโค้ด ความต่างเล็กน้อยของถ้อยคำหรือไวยากรณ์อาจไม่ส่งผลมากนักต่อการตีความเอกสาร แต่ข้อผิดพลาดเพียงตัวอักษรเดียวในโค้ดอาจสร้างผลกระทบอย่างมหาศาลได้
ถึงงานวิจัยชิ้นนี้จะแย่ แต่ภาพรวมก็ไม่น่าแปลกใจนัก
งานกฎหมายบางส่วนคือการวิเคราะห์ข้อความจำนวนมาก สรุปข้อสรุป แล้วเขียนข้อความอื่นต่อจากข้อสรุปนั้น ซึ่งนั่นคือ งานถนัดของ LLM แบบตรงตัว
ทนายประเภทนั้นควรอยู่แถวหน้าสุดของคิวคนตกงาน ไม่ใช่โปรแกรมเมอร์ เทียบกันไม่ติดจริง ๆ
มันสามารถรันตรรกะได้ และสร้างลูปจากผลลัพธ์ได้ ตั้งค่า reinforcement learning ที่มีประโยชน์มากกว่าได้ง่ายกว่า สร้างข้อมูลการเรียนรู้แบบสังเคราะห์ได้ง่ายกว่า รองรับการใช้เครื่องมือและการทำ agent แบบขนานได้เป็นธรรมชาติกว่า และการรวมเข้ากับ API ก็ง่ายกว่าเมื่อเทียบกับ API ไม่กี่ตัวที่ระบบศาลมีให้
การเขียนโปรแกรมยังเข้ารหัสนามธรรมในระดับฟังก์ชันและโมดูลไว้อย่างชัดเจน จึงเอาไปทำเป็นกราฟความรู้ ใช้หาเหตุผล และต่อยอดได้ง่ายกว่าชิ้นส่วนข้อความ
AI เหมือน สะเก็ดแผล มันคอยอุดช่องโหว่และรีบเข้าไปเติมช่องว่างชั่วคราว แต่คงไม่ใช่ทางออกสุดท้าย
โมเดลเหล่านี้แสดงให้เห็นว่ามีความต้องการด้านการรู้หนังสือขนาดมหาศาลที่ยังไม่ได้รับการตอบสนองทั้งในซอฟต์แวร์และกฎหมาย ตอนนี้ทางเลือกคือจะแก้สาเหตุเชิงโครงสร้างของความต้องการที่ยังไม่ถูกตอบสนองนั้น หรือจะเอาสะเก็ด AI มาปิดทับซ้อน ๆ กันต่อไป
มันเน้นการวิเคราะห์และสรุปข้อความที่มีอยู่แล้วมากกว่า และตัวข้อความเหล่านั้นเองก็เอาไปใช้ฝึก LLM ได้ง่ายกว่า เช่น กฎหมาย คำพิพากษา วารสารนิติศาสตร์ และตำราเรียน
เพราะงั้นมันน่าจะเป็นงานกฎหมายที่ทำให้เป็น LLM ได้ง่ายที่สุด แต่ในขณะเดียวกันก็อาจมีมูลค่าต่ำที่สุดด้วย เพราะอาจารย์นิติศาสตร์ไม่ได้รับค่าตอบแทนเท่าทนาย BigLaw แนวทางนี้คงขยายตรง ๆ ไม่ได้ ไม่ได้แปลว่า AI จะเจาะ BigLaw ไม่ได้ แต่จะเป็นความท้าทายอีกแบบหนึ่ง
ผมเข้าใจว่าทำไมการถกเถียงใต้บทความนี้ถึงไหลไปในทิศทางนั้น แต่ตัวงานวิจัยเองมุ่งไปที่ความเป็นไปได้ที่ LLM จะทำหน้าที่เป็น ติวเตอร์สำหรับนักศึกษากฎหมาย การขยายประเด็นไปถึงว่า LLM จะมาแทนทนายได้ไหมก็น่าสนใจ แต่ไม่ใช่สิ่งที่งานวิจัยนี้ศึกษาจริง ๆ
ถ้าวางกรอบว่าใช้ LLM เป็นติวเตอร์กฎหมายเพื่อลดต้นทุนการศึกษากฎหมาย ก็ฟังดูเป็นผลลัพธ์เชิงบวกต่อสังคม ยิ่งไปกว่านั้น ถ้าระบบ LLM รุ่นใหม่เข้าถึงแหล่งอ้างอิงทางกฎหมายได้ ความคิดที่ว่ามันจะตอบ คำถามที่นักศึกษาถาม ได้อย่างครอบคลุม พร้อมให้เบาะแสหรือการอ้างอิงโดยตรงไปยังสื่อการสอนหรือแหล่งข้อมูลต้นทาง ก็ดูสมเหตุสมผลตามสัญชาตญาณ และผลการวิจัยก็ดูไปในทางนั้น
ผู้เขียนเน้นอย่างชัดเจนและตั้งใจว่าคำถามกฎหมายจำนวนมากไม่ได้ต้องการคำตอบเชิงคำนวณที่แยกขาดจากบริบท แต่ต้องการการทำให้เข้ากับบริบท ผลลัพธ์ชี้ว่าระบบที่อิง LLM อาจสามารถใช้ “การสร้างอัลกอริทึมความพอดีเชิงความน่าจะเป็น” ของโมเดลภาษาแบบสมัยใหม่ เพื่อวางคำถามของนักศึกษาให้อยู่ในบริบทที่เหมาะสม อธิบายการแลกเปลี่ยนหรือความซับซ้อนที่แฝงอยู่ในคำถาม และที่สำคัญคืออธิบายความซับซ้อนนั้นให้นักศึกษาเข้าใจได้ จนถึงระดับมาตรฐานวิชาชีพของผู้สอนกฎหมาย
ในทางปฏิบัติ ผมหวังว่าผลแบบนี้จะช่วยเพิ่มความมั่นใจให้ผู้อ่าน HN ได้เล็กน้อยว่าเมื่อถามคำถามกฎหมายกับ LLM ก็น่าจะคาดหวังคำตอบที่อธิบายความซับซ้อนของกฎหมายที่เกี่ยวข้องกับคำถามนั้นได้ นี่เป็นข่าวดี และถ้ามีเวลา มันอาจเป็นงานเตรียมตัวขั้นต่ำที่เราควรทำก่อนจะไปปรึกษาทนายจริง ๆ
ในทางกลับกัน ผมไม่คิดว่างานวิจัยนี้เป็นสัญญาณว่า LLM พร้อมจะให้ คำปรึกษากฎหมายโดยตรง ได้แล้วจริง ๆ มันคล้ายกับที่ตำรากฎหมายไม่อาจแทนคำปรึกษากฎหมายได้ หรือพูดให้แม่นกว่านั้นคือ การที่ผมบังเอิญเจอคดีที่ดูคล้ายสถานการณ์ของตัวเองในภาพรวม ก็ไม่ได้รับประกันว่าจะได้ผลลัพธ์เดียวกัน
Figure I.1 บอกอะไรได้เยอะมาก ความยาวของคำตอบกลายเป็นตัวทำนายอัตราชนะที่แรงที่สุด เรื่องนี้อาจเกิดจาก ข้อบกพร่องเชิงระเบียบวิธี ของงานวิจัย
อาจารย์ถูกสั่งให้ตอบแบบกระชับ ประมาณว่า “โปรดเขียนให้กระชับ คาดว่าแต่ละคำตอบจะใช้เวลาไม่เกิน 3 นาที” ดังนั้นพวกเขาน่าจะเอนเอียงไปทางการเขียนสั้น ๆ อยู่แล้ว และในเมื่อถูกบังคับให้เขียนกระชับตั้งแต่แรก อาจารย์ก็อาจไม่ได้ทุ่มเทกับคำตอบแบบเขียนมากนัก นี่ไม่ใช่พาดหัวข่าวแบบที่ผู้เขียนคิดว่าเป็น
น่าแปลกใจที่ Stanford Law ยอมใช้ชื่อข่าวประชาสัมพันธ์ที่เกินจริงขนาดนี้ ผมว่ามันน่าจะเป็นประมาณว่า “สำหรับ คำถามกฎหมายสัญญาทั่วไปของนักศึกษาปี 1 อาจารย์นิติศาสตร์ชอบคำตอบที่ AI สร้างมากกว่าคำตอบที่อาจารย์สร้าง” มากกว่า
การคาดเดาที่ดีที่สุดของผมคือ Gemini อาจถูกฝึกบนตำราที่คำถามเหล่านี้พยายามจะทดสอบอยู่แล้ว เลยอาจเก่งกว่าในด้าน การระลึกจำแบบชัดแจ้ง ของคำถามนั้นหรือคำถามที่ใกล้เคียง
จากที่อ่านระเบียบวิธีในบทความ มันดูเป็นหลักสูตรพื้นฐานที่ค่อนข้างจำกัด
แก้ไข: เพิ่งรู้ว่า Google เป็นผู้บริจาครายใหญ่ให้ HAI ถ้าอย่างนั้นงานวิจัยนี้ก็ถือว่าได้รับทุนจาก Google อย่างน้อยบางส่วน และนั่นก็คงเป็นเหตุผลที่ผู้เขียนประกาศว่าไม่มีผลประโยชน์ทับซ้อนไม่ได้
วงการกฎหมายเข้ากับโมเดลภาษา AI ได้อย่างเหมาะเจาะโดยเนื้อแท้ เพราะโดยพื้นฐานแล้วทุกอย่างอิงอยู่บนข้อความที่เชื่อมโยงถึงกัน
ผมคิดว่าอาจเกิด คลื่นการปลดคน ที่ใหญ่กว่าในสายกฎหมายมากกว่าในสาย IT ด้วยซ้ำ เพียงแต่มีแนวโน้มว่าจะมีแรงล็อบบี้ที่แข็งแรงกว่า และพวกเขาจะพยายามปั่นมูลค่างานของตัวเองให้สูงเพื่อกันคนนอกไม่ให้เข้ามา
แต่คลื่นนั้นเริ่มมาแล้ว และมันจะใหญ่มาก ลูกค้าองค์กรกำลังเรียกร้องให้ใช้ AI พวกเขาไม่อยากจ่ายเงินให้ associate ใช้เวลาหลายชั่วโมงร่างเอกสารแล้วให้ partner มาตรวจอีกที พวกเขาอยากให้ partner ระดับท็อปใช้ AI แล้วค่อยแก้ให้เรียบร้อย
สิ่งที่ LLM ยังทำไม่ได้คือการอธิบายว่าทำไมถึงพูดแบบนั้นเมื่อถูกซักค้าน มันทำได้เพียงหลอนคำอธิบายที่ดีที่สุดว่าทำไมใครสักคนน่าจะพูดสิ่งที่ตัวเองพูด และก็สามารถอธิบายได้อย่างน่าเชื่อว่าทำไมคนอื่นถึงน่าจะพูดอีกแบบหนึ่ง
คำถามอย่าง “ทำไมถึงพูดสิ่งนี้แต่ไม่พูดสิ่งนั้น?” ไม่ได้บังคับให้ระบุฐานของคำพูด แต่กลับทำให้สร้างคำกล่าวใหม่ที่ซับซ้อนกว่าเดิมเท่านั้น
แต่ก็มี เทคนิคการจัดโครงบริบทของ LLM ที่ตรึงผลลัพธ์ที่สร้างเสร็จไว้กับโครงสร้างข้อมูล โครงสร้างข้อมูลนั้นจะคงโครงสร้างของข้ออ้างที่รองรับข้อสรุปในข้อความที่สร้างเสร็จไว้ การจัดระเบียบตรรกะในภาษานั้นเป็นสาขาที่กว้างและมีรูปแบบหลากหลาย โดยสิ่งที่ผมชอบที่สุดคือสิ่งที่เรียกว่า Claim Dependency Graph ซึ่งโมเดลความสัมพันธ์ระหว่างข้ออ้างระดับอะตอมเป็นเส้นเชื่อมของกราฟ
มีปฏิบัติการมากมายที่ทำได้บนโครงสร้างแบบนี้ และ “ให้สร้างย้อนกลับว่ามาถึงข้อสรุปนี้ได้อย่างไร” ก็ชัดเจนว่าเป็นหนึ่งในนั้น
แม้จะเป็นความคิดที่ผ่านการไตร่ตรองมากกว่าเดิม ถ้าโชคดีก็อาจยังจำ “ร่องรอยการให้เหตุผล” ได้ แต่การใคร่ครวญตนเองของเราก็ไปได้แค่นั้น ถ้าไม่ใช่นักประสาทวิทยา เราก็ไม่รู้ด้วยซ้ำว่าเรามีนิวรอนกี่ตัว และยิ่งไม่รู้เข้าไปใหญ่ว่าพวกมันสร้างความคิดขึ้นมาอย่างไร
การให้เหตุผลแบบมีแรงจูงใจยิ่งขัดขวางการใคร่ครวญตนเอง และเมื่อมีทั้งความไม่ซื่อสัตย์กับความผิดพลาดในการสื่อสารซ้อนเข้ามา เราก็ยิ่งถ่ายทอดข้อมูลอันจำกัดที่เหลืออยู่ให้กันได้ไม่ดีพอ
งานวิจัยด้าน ความสามารถในการตีความของโมเดล ก้าวหน้าไปมากแล้ว หากจะถกกันแบบถึงพริกถึงขิง ก็อาจมองได้ว่าเราสามารถอธิบายการตัดสินใจของ AI ได้ดีกว่าสมองมนุษย์เสียอีก
การถามให้ LLM ใส่คำอ้างอิงกำกับแหล่งที่มา สามารถเพิ่ม การจับคู่รูปแบบ ที่เลียนแบบตรรกะได้ใกล้เคียงขึ้นมาก เช่นเดียวกับในมนุษย์
ผมเข้าใจว่าคำถาม “ทำไมถึงพูดสิ่งนี้แต่ไม่พูดสิ่งนั้น” หมายถึงอะไร เพียงแต่ก็เคยเห็นวิธีถามแบบอื่นที่ทำให้ LLM ไม่ตอบสนองเกินไปในทิศทางตรงกันข้าม