งานวิจัยของ Stanford Law พบว่า AI ทำผลงานได้ดีกว่าอาจารย์นิติศาสตร์

(law.stanford.edu)

1 คะแนน โดย GN⁺ 2026-06-04 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ในงานวิจัยของ Stanford Law School อาจารย์นิติศาสตร์ชอบคำตอบที่สร้างโดย AI อย่างท่วมท้นมากกว่าคำตอบของอาจารย์ด้วยกันเองสำหรับคำถามของนักศึกษา ซึ่งชี้ให้เห็นถึงผลลัพธ์ที่อาจส่งผลต่อวิธีการจัดการเรียนการสอนกฎหมาย
ในการประเมินแบบปกปิดโดยอาจารย์นิติศาสตร์จากโรงเรียนกฎหมายในสหรัฐฯ 16 คน มีการเปรียบเทียบแบบไม่ระบุตัวตนราว 3,000 ครั้ง และ AI มีอัตราชนะในการเปรียบเทียบโดยตรงกับคำตอบของอาจารย์ที่ 75%
ผู้เข้าร่วมได้สร้าง คำถาม 40 ข้อ ที่นักศึกษาอาจถามหลังเรียนวิชากฎหมายสัญญาหรือในช่วง office hours และตอบด้วยตนเอง ก่อนจะประเมินคำตอบของ AI และอาจารย์คนอื่นโดยไม่ทราบที่มา
อาจารย์ระบุว่าคำตอบของ AI เป็นอันตรายต่อการเรียนรู้ในสัดส่วน 3.5% ขณะที่คำตอบของอาจารย์ด้วยกันเองอยู่ที่ 12% และระบบ AI แสดงผลงานใกล้เคียงกับผู้สอนมนุษย์ที่ทำได้ดีที่สุดในการวิจัยนี้
ผลลัพธ์ไม่ได้สนับสนุนการนำ AI tutor มาใช้แบบเต็มรูปแบบโดยตรง แต่เป็นพื้นฐานสำหรับการหารือเรื่อง แนวทางการนำไปใช้อย่างรับผิดชอบ แม้ในสาขาอย่างนิติศาสตร์ที่การใช้วิจารณญาณมีความสำคัญ

การออกแบบงานวิจัยและผลลัพธ์สำคัญ

งานวิจัย “Law Professors Prefer AI Over Peer Answers” ที่นำโดยศาสตราจารย์ Julian Nyarko แห่ง Stanford Law School ตรวจสอบว่าโมเดลภาษาขนาดใหญ่สามารถทำหน้าที่เป็นติวเตอร์ที่มีประสิทธิภาพสำหรับวิชากฎหมายสัญญาได้หรือไม่
งานวิจัยมีอาจารย์นิติศาสตร์จากโรงเรียนกฎหมายในสหรัฐฯ 16 คนเข้าร่วม โดยผู้เข้าร่วมได้สร้างคำถามตัวแทน 40 ข้อในวิชากฎหมายสัญญาที่นักศึกษาอาจถามหลังเรียนหรือในช่วง office hours และตอบคำถามเหล่านั้นด้วยตนเอง
อาจารย์ประเมินโดยไม่ทราบว่าคำตอบมาจาก AI หรือจากอาจารย์ผู้เข้าร่วมคนอื่น และจากการเปรียบเทียบแบบไม่ระบุตัวตนราว 3,000 ครั้ง คำตอบของ AI ชนะการเปรียบเทียบโดยตรง 75%
ทีมวิจัยได้ปรับความยาวและโครงสร้างของคำตอบ AI ให้สอดคล้องกับคำตอบของมนุษย์ ใช้วิธีประเมินหลายรูปแบบ และให้อาจารย์ประเมินด้วยว่าคำตอบนั้นอาจทำให้นักศึกษาหลงทางหรือสับสนหรือไม่
ระบบ AI ทำผลงานได้ใกล้เคียงกับผู้สอนมนุษย์ที่ทำได้ดีที่สุดในการวิจัยนี้ และสัดส่วนที่อาจารย์ระบุว่าเป็นอันตรายต่อการเรียนรู้คือ 3.5% สำหรับคำตอบ AI เทียบกับ 12% สำหรับคำตอบของอาจารย์ด้วยกันเอง

ความหมายและข้อจำกัดต่อการศึกษากฎหมาย

นิติศาสตร์เป็นสาขาที่มักไม่มีคำตอบที่ชัดเจนเพียงหนึ่งเดียว และข้อโต้แย้งที่ขัดแย้งกันก็อาจมีน้ำหนักน่าเชื่อถือได้ทั้งคู่ ทำให้วิจารณญาณ การให้เหตุผลอย่างละเอียดอ่อน และการรับมือกับความกำกวมเป็นเรื่องสำคัญ
ทีมวิจัยยังพิจารณาระบบติวเตอร์เชิงพาณิชย์และ AI หลายโมเดล เช่น Google NotebookLM รวมถึงโมเดล AI อื่น ๆ ด้วย โดยประสิทธิภาพของแต่ละโมเดลมีความแตกต่างกัน
แม้ในกรณีที่ข้อจำกัดด้านบริบทส่งผลต่อคำตอบของ AI อาจารย์ก็มักจะยังชอบคำตอบของ AI มากกว่าทางเลือกที่เขียนโดยมนุษย์
โรงเรียนกฎหมายต้องรักษามาตรฐานทางวิชาการที่เข้มงวดในการบูรณาการเครื่องมือ AI เข้ากับการศึกษากฎหมาย พร้อมพิจารณาความเสี่ยงอย่างอาการหลอนของ AI การพึ่งพามากเกินไป และการถดถอยของความสามารถในการคิดเชิงวิพากษ์
งานวิจัยนี้ประเมินคุณภาพของคำตอบที่เครื่องมือ AI สร้างขึ้น แต่รูปแบบการนำไปใช้ที่ช่วยยกระดับการเรียนรู้ของนักศึกษาได้อย่างมีประสิทธิภาพที่สุดยังเป็นคำถามเปิด และการอภิปรายควรขยับจากคำถามว่า AI ให้คำตอบที่ถูกต้องและมีคุณภาพสูงได้หรือไม่ ไปสู่การนำไปใช้อย่างรับผิดชอบเพื่อให้เกิดประโยชน์ต่อนักศึกษา

2 ความคิดเห็น

adieuxmonth 2026-06-04

โอ้โหหหหหห

GN⁺ 2026-06-04

ความคิดเห็นจาก Hacker News

งานวิจัยนี้น่าสงสัยพอสมควร ต้องขุดต่ออีกหน่อย แต่ถ้าเป็นคนอ่านก็ควรได้ยิน สัญญาณเตือน ดังมากพอสมควร
Figure 2 (หน้า 6) ดูมีปัญหาหลายอย่าง มีศาสตราจารย์แค่ 16 คน แต่บอกว่าเปรียบเทียบคนละ 3,000 ครั้ง แถมผลลัพธ์ของแต่ละศาสตราจารย์ก็แกว่งมาก ความแปรปรวนสูงมากจนดูเหมือนเป็นสัญญาณว่างานวิจัยนี้ไม่มี อำนาจการทดสอบทางสถิติ ที่มีความหมาย
อีกอย่าง ในผลลัพธ์หลักมีเฉพาะโมเดลของ Google เท่านั้น เลยดูมีอคติชัดเจน โมเดลอื่นไปโผล่ในส่วนอื่น แต่ทำไมถึงหายไปจากผลลัพธ์สำคัญก็ชวนสงสัย
ผมไม่ใช่ผู้เชี่ยวชาญด้านกฎหมาย แต่ค่อนข้างเข้าใจสถิติ และพูดได้อย่างมั่นใจว่าบทความนี้มีกลิ่นแปลก ๆ ถึงจะฟันธงไม่ได้ว่าเป็นเรื่องเหลวไหล แต่สัญญาณอันตรายมีอยู่รอบด้าน
- ก็จริง แต่เมื่อ 2 ปีก่อน เราพูดกันว่า AI เป็น “เครื่องมือที่น่าทึ่ง แต่จะไม่มาแทนแรงงานความรู้” ส่วนตอนนี้กลายเป็นว่า “งานวิจัยที่บอกว่าเอาชนะแรงงานความรู้ระดับท็อปได้อาจมี ข้อบกพร่องเชิงระเบียบวิธี” อีก 2 ปีข้างหน้าคงจบเห่แน่
- มากกว่านั้นคือโครงสร้างของงานวิจัยทั้งชุดดูไร้ความหมาย เขาจัดให้เป็นรูปแบบถาม/ตอบ แล้วให้มนุษย์มาประเมินคำตอบ ซึ่งนั่นคือสิ่งที่ LLM ถูกฝึกให้ทำโดยตรง สุดท้ายก็คือการโน้มน้าวให้มนุษย์กดปุ่มว่า “คำตอบนี้ดีกว่า”
- แยกจากประเด็นที่ว่าทั้งบทความอาจจะคลุมเครืออยู่บ้าง สิ่งที่น่าสนใจคือ อัตราความเป็นอันตราย ของ Instructor 3 และ 8 ต่ำกว่า LLM อยู่พอสมควร แต่ความชอบกลับไม่ใช่สูงสุด ความเป็นอันตรายเคลื่อนไหวสวนทางกับความชอบ แต่ไม่ได้ตรงกันสมบูรณ์ ดูเหมือนว่าแม้แต่ในการเลือกของผู้เชี่ยวชาญเองก็ยังมีอิทธิพลจากคาริสม่าอยู่บ้าง
- ตัวเลข 3,000 กรณีน่าจะมาจากตรงนี้ และมีอธิบายในบทความ
  ศาสตราจารย์ในฐานะผู้ประเมินได้ทำการเปรียบเทียบแบบ blind forced-choice จำนวน 2,918 ครั้ง โดยค่ามัธยฐานต่อผู้ประเมินคือ 200 ครั้ง และในแต่ละครั้งจะเลือกคำตอบระหว่างคำตอบของผู้สอนที่ทำให้ไม่ระบุตัวตนกับคำตอบของ LLM ว่าอยากมอบคำตอบไหนให้กับนักศึกษา
- ช่วงนี้พอดูงานวิจัยแล้วจะเห็นมากขึ้นเรื่อย ๆ ว่าเป็นแนว “สัมภาษณ์ 8 คนแล้วสรุปผลจากความเห็นผู้เชี่ยวชาญ” โดยเฉพาะในสาย AI และความมั่นคงไซเบอร์ ที่เต็มไปด้วยงานแบบนี้
  ผมยังเคยเห็นงานที่เอาบทสัมภาษณ์กับ protocol ไปใส่ใน ChatGPT แล้วดึงผลลัพธ์ออกมา ก่อนจะเรียกสิ่งนั้นว่า “ระเบียบวิธี” ด้วยซ้ำ แถมยังผ่านการ peer review และตีพิมพ์แล้วด้วย
เรื่องนี้อาจอธิบายได้คล้ายกับหนัง Hollywood ถ้าหนังถูกสร้างมาเพื่อทำให้คนจำนวนมากที่สุดพอใจ มันก็มีโอกาสมากกว่าที่คนจะเลือกมันเหนือหนังเรื่องอื่น
ศาสตราจารย์กฎหมายที่เป็นมนุษย์ย่อมมีบุคลิก ความเชื่อ และความเห็นของตัวเองสะท้อนออกมาในงานเขียน แต่ LLM ถูกฝึกมาเพื่อทำให้ มวลชนวงกว้างที่สุด พอใจ นั่นไม่ได้แปลว่าคำตอบดีกว่า เหมือนกับที่ Captain America ไม่ได้ดีกว่า American Beauty โดยอัตโนมัติเสมอไป
ในฐานะวิศวกรซอฟต์แวร์ ผมพอมีสัญชาตญาณอยู่บ้างว่างานแบบไหนอันตรายถ้าจะมอบให้เอเจนต์ทำ
แต่พอเป็นการให้ AI ร่างเอกสารกฎหมาย กลับยังไม่มีสัญชาตญาณแบบเดียวกันว่ามีอะไรที่อาจผิดพลาดได้บ้าง การเขียนพินัยกรรมดูเผินๆ เหมือนไม่มีพิษมีภัย แต่จริงๆ แล้วก็ไม่แน่ใจ ระบบกฎหมายขึ้นชื่อเรื่องมีกับดักเต็มไปหมด
- ผมเคยใช้ LLM ทั่วไปสำหรับร่างเอกสารกฎหมายมาเยอะพอสมควร เช่น Claude หรือ GPT ทั่วๆ ไป จุดที่อันตรายที่สุดคือ การอ้างคำพิพากษาหลอน
  มันชอบสอดแทรกคำอ้างจากคดีอื่นที่ดูน่าเชื่อถือราวกับพิสูจน์ข้อโต้แย้งที่ต้องการได้อย่างสมบูรณ์แบบ และถึงขั้นแต่งชื่อคดีที่ดูเหมือนจริงอย่าง United States v. Shenzhou Electronics Inc ขึ้นมาได้ด้วย บางครั้งผมตรวจไปหลายรอบไม่เจออ้างอิงปลอมก็เลยสบายใจ แต่พอคำร้องฉบับถัดไปกลับโผล่มาสามรายการเฉยเลย
  ถึงอย่างนั้น ทนายที่ไม่ใช้ LLM ในงานวิจัยกฎหมายก็กำลังตามหลังอยู่ มันเก่งอย่างเหลือเชื่อในการหาคำพิพากษาเฉพาะทางที่ถ้าหาคนเดียวคงไม่มีวันเจอ สมัยก่อนการค้นหามักพึ่งการตรงกันของคำค้นแบบเป๊ะๆ ซึ่งหลายครั้งแทบไม่มีประโยชน์กับการวิจัยกฎหมายโดยเนื้อแท้ เราต้องการอะไรสักอย่างที่ค้นหาได้ด้วยเงื่อนไขที่กำกวมกว่านั้น และ AI ทำเรื่องนี้ได้ดีมาก เพียงแต่ผลลัพธ์ต้องตรวจสอบเสมอ LLM ของ Lexis Nexis หรือ Westlaw ก็น่าจะดีกว่าโมเดลทั่วไป
  LLM เป็น ผู้ช่วยด้านกฎหมาย ที่ยอดเยี่ยม ถ้าทำงานด้านกฎหมาย ก็ควรใช้มันอย่างน้อยในฐานะเครื่องมือโยนไอเดียใส่ ลองให้มันเล่นบททนายฝ่ายตรงข้ามเพื่อช่วยโต้แย้งกลับก็ได้ เพื่อนผมคนหนึ่งให้มันสวมบททนายของอีกฝ่ายตลอด เพื่อไล่ดูข้อโต้แย้งที่อาจถูกยกขึ้นมาทั้งหมด
  มันก็เหมือนกับการพัฒนาซอฟต์แวร์ ถ้าผลลัพธ์ที่สร้างขึ้นมีความสำคัญ คุณต้องตรวจผลลัพธ์
- ผมคิดว่าคำพูดนี้น่าจะใช้ได้กับงานอาชีพที่ต้องอาศัยทักษะส่วนใหญ่ AI จะถูกใช้งานได้ดีที่สุดเมื่อคนใช้รู้จักทักษะหรืองานนั้นดีอยู่แล้ว
  มันให้ความรู้สึกเหมือนเปรียบเทียบการค้นหาของผมที่เป็นผู้ดูแลระบบ กับการค้นหาของ Jane ในทีมบัญชี ผู้ใช้ปลายทางที่ไม่ใช่สายเทคนิคมีโอกาสมากกว่าจะทำปัญหาให้แย่ลง หรือไปติดตั้งอะไรน่าสงสัยจากผลค้นหาที่เต็มไปด้วยโฆษณา ส่วนผมหรือเจ้าหน้าที่เฮลป์เดสก์มีโอกาสทำแบบนั้นน้อยกว่า
  ผมคงไม่ไว้ใจให้ AI จัดทำเอกสารกฎหมายสำคัญโดยไม่มีคำแนะนำจากทนาย เช่นเดียวกัน ผมก็ไม่อยากพึ่งพาให้ทนายของผมใช้ AI เขียนโค้ดให้ผม
- ในฐานะทั้งทนายและวิศวกรซอฟต์แวร์ จากประสบการณ์จนถึงตอนนี้ ผมรู้สึกว่าอัตราความผิดพลาดของ LLM ในการร่างโค้ดกับเอกสารกฎหมายค่อนข้างใกล้เคียงกัน แต่ในบริบททางกฎหมายปัญหารุนแรงกว่า เพราะเอกสารกฎหมายไม่มี กลไกป้องกันเชิงโครงสร้าง หลายอย่างแบบที่มีในโค้ด
  เอกสารกฎหมายไม่มี automated tests, static types, test environment, การวัดผลแบบ logging/observability หรือ sandboxing
  ช่วงเวลาหน่วงระหว่างการเขียนกับการ “นำไปใช้จริง” ก็ทำให้วงจรดีบักมีประสิทธิภาพน้อยลงและมีค่าใช้จ่ายสูงขึ้นมาก โค้ดสามารถดีพลอยขึ้นโปรดักชันได้ภายในไม่กี่วินาที ดูข้อผิดพลาดจากล็อกแล้วดีบักต่อได้ทันที แต่ข้อผิดพลาดในสัญญาหรือเอกสารที่ยื่นต่อศาลมักจะถูกพบหลังจากนั้นอย่างน้อยหลายวัน และบ่อยครั้งเป็นหลายปี ซึ่งถึงตอนนั้นก็มักแก้ไขไม่ได้แล้ว ทำให้ข้อผิดพลาดทั้งค้นพบและแก้ไขได้ยากกว่า
  ผลกระทบจากข้อผิดพลาดก็มักใหญ่กว่ามาก เพราะอาจแก้ไขไม่ได้ และความผิดพลาดทางกฎหมายอาจทำให้ชีวิต เสรีภาพ หรือทรัพย์สินจำนวนมากของใครบางคนตกอยู่ในความเสี่ยง แน่นอนว่าบั๊กในระบบที่สำคัญต่อความปลอดภัยก็อาจแย่พอๆ กันหรือแย่กว่าความผิดพลาดทางกฎหมายได้ ดังนั้นจึงไม่ใช่เส้นแบ่งแบบสัมบูรณ์ ถึงอย่างนั้น โดยทั่วไปแล้วซอฟต์แวร์ส่วนใหญ่มักมีความเสี่ยงต่ำกว่าเอกสารกฎหมายส่วนใหญ่
  ในทางกลับกัน LLM ดูจะทำเรื่องสไตล์และโครงสร้างพื้นฐานของเอกสารกฎหมายได้ดีกว่าโค้ด เช่น การยึดตามรูปแบบ IRAC, การใส่อ้างอิงประกอบข้อเสนอทางกฎหมาย, หรือการเขียนประโยคที่เข้าใจได้ แน่นอนว่าปัญหาเรื่องหลอนยังคงมีอยู่ ถ้าเทียบกับโค้ดก็คงคล้ายกับแนวปฏิบัติที่ดีอย่างคอมเมนต์ที่ดี, cohesion, การใช้ design patterns อย่างสม่ำเสมอ, test coverage, ชื่อตัวแปรที่ชัดเจน และ DRY
  ที่มันทำได้ดีกว่าในตัวชี้วัดเชิงคุณภาพเหล่านี้ อาจเป็นเพราะแม้เอกสารกฎหมายที่ยาวที่สุดก็ยังมักมีโครงสร้างง่ายกว่าและมีจำนวนบรรทัดข้อความน้อยกว่า codebase ขนาดใหญ่และซับซ้อน หรืออาจเป็นเพราะ LLM ถูกฝึกด้วยข้อความภาษาธรรมชาติมากกว่าโค้ด หรือเพราะภาษาธรรมชาติมีความยืดหยุ่นกว่าโค้ด ความต่างเล็กน้อยของถ้อยคำหรือไวยากรณ์อาจไม่ส่งผลมากนักต่อการตีความเอกสาร แต่ข้อผิดพลาดเพียงตัวอักษรเดียวในโค้ดอาจสร้างผลกระทบอย่างมหาศาลได้
- การบอกว่าการเขียนพินัยกรรมไม่เป็นอันตรายนั้นไม่จริงเลย โดยเฉพาะถ้าคุณเป็นผู้จัดการมรดกที่ต้องมารับมือกับ พินัยกรรม AI ที่พังๆ ฤดูใบไม้ผลินี้ผมเพิ่งจัดการมรดกของพ่อไป และแม้แต่มรดกที่เรียบง่ายที่สุดก็ยังเป็นกระบวนการที่น่าหงุดหงิดและชวนสับสน
- ผมไม่มองว่าการเขียนพินัยกรรมเป็นเรื่องไม่เป็นพิษเป็นภัย ถ้าเขียนผิด ญาติใกล้ชิดอาจต้องรับภาระปัญหาใหญ่ และต้องผ่าน กระบวนการพิสูจน์พินัยกรรม ที่กินเวลาเป็นเดือนหรือเป็นปี
ถึงงานวิจัยชิ้นนี้จะแย่ แต่ภาพรวมก็ไม่น่าแปลกใจนัก
งานกฎหมายบางส่วนคือการวิเคราะห์ข้อความจำนวนมาก สรุปข้อสรุป แล้วเขียนข้อความอื่นต่อจากข้อสรุปนั้น ซึ่งนั่นคือ งานถนัดของ LLM แบบตรงตัว
ทนายประเภทนั้นควรอยู่แถวหน้าสุดของคิวคนตกงาน ไม่ใช่โปรแกรมเมอร์ เทียบกันไม่ติดจริง ๆ
- ในทางทฤษฎี การที่มันเป็นงานถนัดของ LLM ไม่ได้แปลว่า LLM จะทำงานนั้นได้จริง เรายังต้องพิสูจน์ให้ได้โดยไม่ยึดติดกับความเชื่อเดิม ๆ กฎหมายเป็น ระบบที่เกี่ยวข้องกับชีวิตผู้คนโดยตรง และต้องผ่านการตรวจสอบในระดับสูงสุด
- ที่บอกว่าเป็นงานถนัดของ LLM ก็ถูก แต่ถ้ามองในแง่การใช้งาน LLM การเขียนโปรแกรมมีข้อได้เปรียบมากกว่ากฎหมาย
  มันสามารถรันตรรกะได้ และสร้างลูปจากผลลัพธ์ได้ ตั้งค่า reinforcement learning ที่มีประโยชน์มากกว่าได้ง่ายกว่า สร้างข้อมูลการเรียนรู้แบบสังเคราะห์ได้ง่ายกว่า รองรับการใช้เครื่องมือและการทำ agent แบบขนานได้เป็นธรรมชาติกว่า และการรวมเข้ากับ API ก็ง่ายกว่าเมื่อเทียบกับ API ไม่กี่ตัวที่ระบบศาลมีให้
  การเขียนโปรแกรมยังเข้ารหัสนามธรรมในระดับฟังก์ชันและโมดูลไว้อย่างชัดเจน จึงเอาไปทำเป็นกราฟความรู้ ใช้หาเหตุผล และต่อยอดได้ง่ายกว่าชิ้นส่วนข้อความ
- ทั้งงานเขียนโปรแกรมและงานกฎหมายต่างก็เห็นปัญหาเดียวกันของ AI
  AI เหมือน สะเก็ดแผล มันคอยอุดช่องโหว่และรีบเข้าไปเติมช่องว่างชั่วคราว แต่คงไม่ใช่ทางออกสุดท้าย
  โมเดลเหล่านี้แสดงให้เห็นว่ามีความต้องการด้านการรู้หนังสือขนาดมหาศาลที่ยังไม่ได้รับการตอบสนองทั้งในซอฟต์แวร์และกฎหมาย ตอนนี้ทางเลือกคือจะแก้สาเหตุเชิงโครงสร้างของความต้องการที่ยังไม่ถูกตอบสนองนั้น หรือจะเอาสะเก็ด AI มาปิดทับซ้อน ๆ กันต่อไป
- งานวิจัยนี้ดูคนในแวดวงวิชาการ ผมไม่ได้จะดูถูกพวกเขาหรืองานของพวกเขา แต่มันต่างจากงานด้านดีลหรือคดีความใน BigLaw มาก
  มันเน้นการวิเคราะห์และสรุปข้อความที่มีอยู่แล้วมากกว่า และตัวข้อความเหล่านั้นเองก็เอาไปใช้ฝึก LLM ได้ง่ายกว่า เช่น กฎหมาย คำพิพากษา วารสารนิติศาสตร์ และตำราเรียน
  เพราะงั้นมันน่าจะเป็นงานกฎหมายที่ทำให้เป็น LLM ได้ง่ายที่สุด แต่ในขณะเดียวกันก็อาจมีมูลค่าต่ำที่สุดด้วย เพราะอาจารย์นิติศาสตร์ไม่ได้รับค่าตอบแทนเท่าทนาย BigLaw แนวทางนี้คงขยายตรง ๆ ไม่ได้ ไม่ได้แปลว่า AI จะเจาะ BigLaw ไม่ได้ แต่จะเป็นความท้าทายอีกแบบหนึ่ง
ผมเข้าใจว่าทำไมการถกเถียงใต้บทความนี้ถึงไหลไปในทิศทางนั้น แต่ตัวงานวิจัยเองมุ่งไปที่ความเป็นไปได้ที่ LLM จะทำหน้าที่เป็น ติวเตอร์สำหรับนักศึกษากฎหมาย การขยายประเด็นไปถึงว่า LLM จะมาแทนทนายได้ไหมก็น่าสนใจ แต่ไม่ใช่สิ่งที่งานวิจัยนี้ศึกษาจริง ๆ
ถ้าวางกรอบว่าใช้ LLM เป็นติวเตอร์กฎหมายเพื่อลดต้นทุนการศึกษากฎหมาย ก็ฟังดูเป็นผลลัพธ์เชิงบวกต่อสังคม ยิ่งไปกว่านั้น ถ้าระบบ LLM รุ่นใหม่เข้าถึงแหล่งอ้างอิงทางกฎหมายได้ ความคิดที่ว่ามันจะตอบ คำถามที่นักศึกษาถาม ได้อย่างครอบคลุม พร้อมให้เบาะแสหรือการอ้างอิงโดยตรงไปยังสื่อการสอนหรือแหล่งข้อมูลต้นทาง ก็ดูสมเหตุสมผลตามสัญชาตญาณ และผลการวิจัยก็ดูไปในทางนั้น
ผู้เขียนเน้นอย่างชัดเจนและตั้งใจว่าคำถามกฎหมายจำนวนมากไม่ได้ต้องการคำตอบเชิงคำนวณที่แยกขาดจากบริบท แต่ต้องการการทำให้เข้ากับบริบท ผลลัพธ์ชี้ว่าระบบที่อิง LLM อาจสามารถใช้ “การสร้างอัลกอริทึมความพอดีเชิงความน่าจะเป็น” ของโมเดลภาษาแบบสมัยใหม่ เพื่อวางคำถามของนักศึกษาให้อยู่ในบริบทที่เหมาะสม อธิบายการแลกเปลี่ยนหรือความซับซ้อนที่แฝงอยู่ในคำถาม และที่สำคัญคืออธิบายความซับซ้อนนั้นให้นักศึกษาเข้าใจได้ จนถึงระดับมาตรฐานวิชาชีพของผู้สอนกฎหมาย
ในทางปฏิบัติ ผมหวังว่าผลแบบนี้จะช่วยเพิ่มความมั่นใจให้ผู้อ่าน HN ได้เล็กน้อยว่าเมื่อถามคำถามกฎหมายกับ LLM ก็น่าจะคาดหวังคำตอบที่อธิบายความซับซ้อนของกฎหมายที่เกี่ยวข้องกับคำถามนั้นได้ นี่เป็นข่าวดี และถ้ามีเวลา มันอาจเป็นงานเตรียมตัวขั้นต่ำที่เราควรทำก่อนจะไปปรึกษาทนายจริง ๆ
ในทางกลับกัน ผมไม่คิดว่างานวิจัยนี้เป็นสัญญาณว่า LLM พร้อมจะให้ คำปรึกษากฎหมายโดยตรง ได้แล้วจริง ๆ มันคล้ายกับที่ตำรากฎหมายไม่อาจแทนคำปรึกษากฎหมายได้ หรือพูดให้แม่นกว่านั้นคือ การที่ผมบังเอิญเจอคดีที่ดูคล้ายสถานการณ์ของตัวเองในภาพรวม ก็ไม่ได้รับประกันว่าจะได้ผลลัพธ์เดียวกัน
- ดูเหมือนว่ามันแสดงให้เห็นว่า LLM ฉลาดพอที่จะนำไปใช้ในบริบทการศึกษากฎหมายได้
Figure I.1 บอกอะไรได้เยอะมาก ความยาวของคำตอบกลายเป็นตัวทำนายอัตราชนะที่แรงที่สุด เรื่องนี้อาจเกิดจาก ข้อบกพร่องเชิงระเบียบวิธี ของงานวิจัย
อาจารย์ถูกสั่งให้ตอบแบบกระชับ ประมาณว่า “โปรดเขียนให้กระชับ คาดว่าแต่ละคำตอบจะใช้เวลาไม่เกิน 3 นาที” ดังนั้นพวกเขาน่าจะเอนเอียงไปทางการเขียนสั้น ๆ อยู่แล้ว และในเมื่อถูกบังคับให้เขียนกระชับตั้งแต่แรก อาจารย์ก็อาจไม่ได้ทุ่มเทกับคำตอบแบบเขียนมากนัก นี่ไม่ใช่พาดหัวข่าวแบบที่ผู้เขียนคิดว่าเป็น
น่าแปลกใจที่ Stanford Law ยอมใช้ชื่อข่าวประชาสัมพันธ์ที่เกินจริงขนาดนี้ ผมว่ามันน่าจะเป็นประมาณว่า “สำหรับ คำถามกฎหมายสัญญาทั่วไปของนักศึกษาปี 1 อาจารย์นิติศาสตร์ชอบคำตอบที่ AI สร้างมากกว่าคำตอบที่อาจารย์สร้าง” มากกว่า
- ชื่อที่แก้แล้วแม่นกว่า มันแปลกที่นักวิชาการฟังดูเหมือน CEO ของห้องแล็บระดับท็อปที่พยายามปั่น มูลค่ากิจการ ด้วยคำกล่าวเกินจริง
การคาดเดาที่ดีที่สุดของผมคือ Gemini อาจถูกฝึกบนตำราที่คำถามเหล่านี้พยายามจะทดสอบอยู่แล้ว เลยอาจเก่งกว่าในด้าน การระลึกจำแบบชัดแจ้ง ของคำถามนั้นหรือคำถามที่ใกล้เคียง
จากที่อ่านระเบียบวิธีในบทความ มันดูเป็นหลักสูตรพื้นฐานที่ค่อนข้างจำกัด
- นอกจากนั้น งานวิจัยนี้ทำที่สถาบัน HAI ของ Stanford และดูเหมือนจะมีอคติชัดเจน แถมในบทความยังขาด คำชี้แจงผลประโยชน์ทับซ้อน อย่างน่าแปลกใจ
  แก้ไข: เพิ่งรู้ว่า Google เป็นผู้บริจาครายใหญ่ให้ HAI ถ้าอย่างนั้นงานวิจัยนี้ก็ถือว่าได้รับทุนจาก Google อย่างน้อยบางส่วน และนั่นก็คงเป็นเหตุผลที่ผู้เขียนประกาศว่าไม่มีผลประโยชน์ทับซ้อนไม่ได้
วงการกฎหมายเข้ากับโมเดลภาษา AI ได้อย่างเหมาะเจาะโดยเนื้อแท้ เพราะโดยพื้นฐานแล้วทุกอย่างอิงอยู่บนข้อความที่เชื่อมโยงถึงกัน
ผมคิดว่าอาจเกิด คลื่นการปลดคน ที่ใหญ่กว่าในสายกฎหมายมากกว่าในสาย IT ด้วยซ้ำ เพียงแต่มีแนวโน้มว่าจะมีแรงล็อบบี้ที่แข็งแรงกว่า และพวกเขาจะพยายามปั่นมูลค่างานของตัวเองให้สูงเพื่อกันคนนอกไม่ให้เข้ามา
- ในฐานะทนาย ผมคิดว่าลางสังหรณ์นั้นเกี่ยวกับ LLM น่าจะถูก กฎหมายคือ เกมภาษา ที่ LLM ทำได้ดี
  แต่คลื่นนั้นเริ่มมาแล้ว และมันจะใหญ่มาก ลูกค้าองค์กรกำลังเรียกร้องให้ใช้ AI พวกเขาไม่อยากจ่ายเงินให้ associate ใช้เวลาหลายชั่วโมงร่างเอกสารแล้วให้ partner มาตรวจอีกที พวกเขาอยากให้ partner ระดับท็อปใช้ AI แล้วค่อยแก้ให้เรียบร้อย
สิ่งที่ LLM ยังทำไม่ได้คือการอธิบายว่าทำไมถึงพูดแบบนั้นเมื่อถูกซักค้าน มันทำได้เพียงหลอนคำอธิบายที่ดีที่สุดว่าทำไมใครสักคนน่าจะพูดสิ่งที่ตัวเองพูด และก็สามารถอธิบายได้อย่างน่าเชื่อว่าทำไมคนอื่นถึงน่าจะพูดอีกแบบหนึ่ง
คำถามอย่าง “ทำไมถึงพูดสิ่งนี้แต่ไม่พูดสิ่งนั้น?” ไม่ได้บังคับให้ระบุฐานของคำพูด แต่กลับทำให้สร้างคำกล่าวใหม่ที่ซับซ้อนกว่าเดิมเท่านั้น
- ในกรณีง่าย ๆ ก็จริง
  แต่ก็มี เทคนิคการจัดโครงบริบทของ LLM ที่ตรึงผลลัพธ์ที่สร้างเสร็จไว้กับโครงสร้างข้อมูล โครงสร้างข้อมูลนั้นจะคงโครงสร้างของข้ออ้างที่รองรับข้อสรุปในข้อความที่สร้างเสร็จไว้ การจัดระเบียบตรรกะในภาษานั้นเป็นสาขาที่กว้างและมีรูปแบบหลากหลาย โดยสิ่งที่ผมชอบที่สุดคือสิ่งที่เรียกว่า Claim Dependency Graph ซึ่งโมเดลความสัมพันธ์ระหว่างข้ออ้างระดับอะตอมเป็นเส้นเชื่อมของกราฟ
  มีปฏิบัติการมากมายที่ทำได้บนโครงสร้างแบบนี้ และ “ให้สร้างย้อนกลับว่ามาถึงข้อสรุปนี้ได้อย่างไร” ก็ชัดเจนว่าเป็นหนึ่งในนั้น
- มนุษย์มีแรงจูงใจจริงที่คอยกำหนดกรอบของความคิดที่ถูกถ่ายทอดออกมา ส่วน LLM จะสร้าง ความคิดที่ถูกสร้างขึ้นใหม่ เพื่อตอบสนองต่อกระแสของคำถาม
- กับมนุษย์ก็น่าจะจริงเหมือนกัน ในบทสนทนาเรามักตอบไปตามสัญชาตญาณ และจะค่อยสร้างเหตุผลมาย้อนรองรับเมื่อถูกขอเท่านั้น
  แม้จะเป็นความคิดที่ผ่านการไตร่ตรองมากกว่าเดิม ถ้าโชคดีก็อาจยังจำ “ร่องรอยการให้เหตุผล” ได้ แต่การใคร่ครวญตนเองของเราก็ไปได้แค่นั้น ถ้าไม่ใช่นักประสาทวิทยา เราก็ไม่รู้ด้วยซ้ำว่าเรามีนิวรอนกี่ตัว และยิ่งไม่รู้เข้าไปใหญ่ว่าพวกมันสร้างความคิดขึ้นมาอย่างไร
  การให้เหตุผลแบบมีแรงจูงใจยิ่งขัดขวางการใคร่ครวญตนเอง และเมื่อมีทั้งความไม่ซื่อสัตย์กับความผิดพลาดในการสื่อสารซ้อนเข้ามา เราก็ยิ่งถ่ายทอดข้อมูลอันจำกัดที่เหลืออยู่ให้กันได้ไม่ดีพอ
  งานวิจัยด้าน ความสามารถในการตีความของโมเดล ก้าวหน้าไปมากแล้ว หากจะถกกันแบบถึงพริกถึงขิง ก็อาจมองได้ว่าเราสามารถอธิบายการตัดสินใจของ AI ได้ดีกว่าสมองมนุษย์เสียอีก
- ที่ LLM หลอนก็เพราะมนุษย์หลอนเหมือนกัน
  การถามให้ LLM ใส่คำอ้างอิงกำกับแหล่งที่มา สามารถเพิ่ม การจับคู่รูปแบบ ที่เลียนแบบตรรกะได้ใกล้เคียงขึ้นมาก เช่นเดียวกับในมนุษย์
  ผมเข้าใจว่าคำถาม “ทำไมถึงพูดสิ่งนี้แต่ไม่พูดสิ่งนั้น” หมายถึงอะไร เพียงแต่ก็เคยเห็นวิธีถามแบบอื่นที่ทำให้ LLM ไม่ตอบสนองเกินไปในทิศทางตรงกันข้าม

งานวิจัยของ Stanford Law พบว่า AI ทำผลงานได้ดีกว่าอาจารย์นิติศาสตร์

การออกแบบงานวิจัยและผลลัพธ์สำคัญ

ความหมายและข้อจำกัดต่อการศึกษากฎหมาย

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News