1 คะแนน โดย GN⁺ 2 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในงานวิจัยของ Stanford Law School อาจารย์นิติศาสตร์ชอบคำตอบที่สร้างโดย AI อย่างท่วมท้นมากกว่าคำตอบของอาจารย์ด้วยกันเองสำหรับคำถามของนักศึกษา ซึ่งชี้ให้เห็นถึงผลลัพธ์ที่อาจส่งผลต่อวิธีการจัดการเรียนการสอนกฎหมาย
  • ในการประเมินแบบปกปิดโดยอาจารย์นิติศาสตร์จากโรงเรียนกฎหมายในสหรัฐฯ 16 คน มีการเปรียบเทียบแบบไม่ระบุตัวตนราว 3,000 ครั้ง และ AI มีอัตราชนะในการเปรียบเทียบโดยตรงกับคำตอบของอาจารย์ที่ 75%
  • ผู้เข้าร่วมได้สร้าง คำถาม 40 ข้อ ที่นักศึกษาอาจถามหลังเรียนวิชากฎหมายสัญญาหรือในช่วง office hours และตอบด้วยตนเอง ก่อนจะประเมินคำตอบของ AI และอาจารย์คนอื่นโดยไม่ทราบที่มา
  • อาจารย์ระบุว่าคำตอบของ AI เป็นอันตรายต่อการเรียนรู้ในสัดส่วน 3.5% ขณะที่คำตอบของอาจารย์ด้วยกันเองอยู่ที่ 12% และระบบ AI แสดงผลงานใกล้เคียงกับผู้สอนมนุษย์ที่ทำได้ดีที่สุดในการวิจัยนี้
  • ผลลัพธ์ไม่ได้สนับสนุนการนำ AI tutor มาใช้แบบเต็มรูปแบบโดยตรง แต่เป็นพื้นฐานสำหรับการหารือเรื่อง แนวทางการนำไปใช้อย่างรับผิดชอบ แม้ในสาขาอย่างนิติศาสตร์ที่การใช้วิจารณญาณมีความสำคัญ

การออกแบบงานวิจัยและผลลัพธ์สำคัญ

  • งานวิจัย “Law Professors Prefer AI Over Peer Answers” ที่นำโดยศาสตราจารย์ Julian Nyarko แห่ง Stanford Law School ตรวจสอบว่าโมเดลภาษาขนาดใหญ่สามารถทำหน้าที่เป็นติวเตอร์ที่มีประสิทธิภาพสำหรับวิชากฎหมายสัญญาได้หรือไม่
  • งานวิจัยมีอาจารย์นิติศาสตร์จากโรงเรียนกฎหมายในสหรัฐฯ 16 คนเข้าร่วม โดยผู้เข้าร่วมได้สร้างคำถามตัวแทน 40 ข้อในวิชากฎหมายสัญญาที่นักศึกษาอาจถามหลังเรียนหรือในช่วง office hours และตอบคำถามเหล่านั้นด้วยตนเอง
  • อาจารย์ประเมินโดยไม่ทราบว่าคำตอบมาจาก AI หรือจากอาจารย์ผู้เข้าร่วมคนอื่น และจากการเปรียบเทียบแบบไม่ระบุตัวตนราว 3,000 ครั้ง คำตอบของ AI ชนะการเปรียบเทียบโดยตรง 75%
  • ทีมวิจัยได้ปรับความยาวและโครงสร้างของคำตอบ AI ให้สอดคล้องกับคำตอบของมนุษย์ ใช้วิธีประเมินหลายรูปแบบ และให้อาจารย์ประเมินด้วยว่าคำตอบนั้นอาจทำให้นักศึกษาหลงทางหรือสับสนหรือไม่
  • ระบบ AI ทำผลงานได้ใกล้เคียงกับผู้สอนมนุษย์ที่ทำได้ดีที่สุดในการวิจัยนี้ และสัดส่วนที่อาจารย์ระบุว่าเป็นอันตรายต่อการเรียนรู้คือ 3.5% สำหรับคำตอบ AI เทียบกับ 12% สำหรับคำตอบของอาจารย์ด้วยกันเอง

ความหมายและข้อจำกัดต่อการศึกษากฎหมาย

  • นิติศาสตร์เป็นสาขาที่มักไม่มีคำตอบที่ชัดเจนเพียงหนึ่งเดียว และข้อโต้แย้งที่ขัดแย้งกันก็อาจมีน้ำหนักน่าเชื่อถือได้ทั้งคู่ ทำให้วิจารณญาณ การให้เหตุผลอย่างละเอียดอ่อน และการรับมือกับความกำกวมเป็นเรื่องสำคัญ
  • ทีมวิจัยยังพิจารณาระบบติวเตอร์เชิงพาณิชย์และ AI หลายโมเดล เช่น Google NotebookLM รวมถึงโมเดล AI อื่น ๆ ด้วย โดยประสิทธิภาพของแต่ละโมเดลมีความแตกต่างกัน
  • แม้ในกรณีที่ข้อจำกัดด้านบริบทส่งผลต่อคำตอบของ AI อาจารย์ก็มักจะยังชอบคำตอบของ AI มากกว่าทางเลือกที่เขียนโดยมนุษย์
  • โรงเรียนกฎหมายต้องรักษามาตรฐานทางวิชาการที่เข้มงวดในการบูรณาการเครื่องมือ AI เข้ากับการศึกษากฎหมาย พร้อมพิจารณาความเสี่ยงอย่างอาการหลอนของ AI การพึ่งพามากเกินไป และการถดถอยของความสามารถในการคิดเชิงวิพากษ์
  • งานวิจัยนี้ประเมินคุณภาพของคำตอบที่เครื่องมือ AI สร้างขึ้น แต่รูปแบบการนำไปใช้ที่ช่วยยกระดับการเรียนรู้ของนักศึกษาได้อย่างมีประสิทธิภาพที่สุดยังเป็นคำถามเปิด และการอภิปรายควรขยับจากคำถามว่า AI ให้คำตอบที่ถูกต้องและมีคุณภาพสูงได้หรือไม่ ไปสู่การนำไปใช้อย่างรับผิดชอบเพื่อให้เกิดประโยชน์ต่อนักศึกษา

1 ความคิดเห็น

 
GN⁺ 2 시간 전
ความคิดเห็นจาก Hacker News
  • งานวิจัยนี้น่าสงสัยพอสมควร ต้องขุดต่ออีกหน่อย แต่ถ้าเป็นคนอ่านก็ควรได้ยิน สัญญาณเตือน ดังมากพอสมควร
    Figure 2 (หน้า 6) ดูมีปัญหาหลายอย่าง มีศาสตราจารย์แค่ 16 คน แต่บอกว่าเปรียบเทียบคนละ 3,000 ครั้ง แถมผลลัพธ์ของแต่ละศาสตราจารย์ก็แกว่งมาก ความแปรปรวนสูงมากจนดูเหมือนเป็นสัญญาณว่างานวิจัยนี้ไม่มี อำนาจการทดสอบทางสถิติ ที่มีความหมาย
    อีกอย่าง ในผลลัพธ์หลักมีเฉพาะโมเดลของ Google เท่านั้น เลยดูมีอคติชัดเจน โมเดลอื่นไปโผล่ในส่วนอื่น แต่ทำไมถึงหายไปจากผลลัพธ์สำคัญก็ชวนสงสัย
    ผมไม่ใช่ผู้เชี่ยวชาญด้านกฎหมาย แต่ค่อนข้างเข้าใจสถิติ และพูดได้อย่างมั่นใจว่าบทความนี้มีกลิ่นแปลก ๆ ถึงจะฟันธงไม่ได้ว่าเป็นเรื่องเหลวไหล แต่สัญญาณอันตรายมีอยู่รอบด้าน

    • ก็จริง แต่เมื่อ 2 ปีก่อน เราพูดกันว่า AI เป็น “เครื่องมือที่น่าทึ่ง แต่จะไม่มาแทนแรงงานความรู้” ส่วนตอนนี้กลายเป็นว่า “งานวิจัยที่บอกว่าเอาชนะแรงงานความรู้ระดับท็อปได้อาจมี ข้อบกพร่องเชิงระเบียบวิธี” อีก 2 ปีข้างหน้าคงจบเห่แน่
    • มากกว่านั้นคือโครงสร้างของงานวิจัยทั้งชุดดูไร้ความหมาย เขาจัดให้เป็นรูปแบบถาม/ตอบ แล้วให้มนุษย์มาประเมินคำตอบ ซึ่งนั่นคือสิ่งที่ LLM ถูกฝึกให้ทำโดยตรง สุดท้ายก็คือการโน้มน้าวให้มนุษย์กดปุ่มว่า “คำตอบนี้ดีกว่า”
    • แยกจากประเด็นที่ว่าทั้งบทความอาจจะคลุมเครืออยู่บ้าง สิ่งที่น่าสนใจคือ อัตราความเป็นอันตราย ของ Instructor 3 และ 8 ต่ำกว่า LLM อยู่พอสมควร แต่ความชอบกลับไม่ใช่สูงสุด ความเป็นอันตรายเคลื่อนไหวสวนทางกับความชอบ แต่ไม่ได้ตรงกันสมบูรณ์ ดูเหมือนว่าแม้แต่ในการเลือกของผู้เชี่ยวชาญเองก็ยังมีอิทธิพลจากคาริสม่าอยู่บ้าง
    • ตัวเลข 3,000 กรณีน่าจะมาจากตรงนี้ และมีอธิบายในบทความ
      ศาสตราจารย์ในฐานะผู้ประเมินได้ทำการเปรียบเทียบแบบ blind forced-choice จำนวน 2,918 ครั้ง โดยค่ามัธยฐานต่อผู้ประเมินคือ 200 ครั้ง และในแต่ละครั้งจะเลือกคำตอบระหว่างคำตอบของผู้สอนที่ทำให้ไม่ระบุตัวตนกับคำตอบของ LLM ว่าอยากมอบคำตอบไหนให้กับนักศึกษา
    • ช่วงนี้พอดูงานวิจัยแล้วจะเห็นมากขึ้นเรื่อย ๆ ว่าเป็นแนว “สัมภาษณ์ 8 คนแล้วสรุปผลจากความเห็นผู้เชี่ยวชาญ” โดยเฉพาะในสาย AI และความมั่นคงไซเบอร์ ที่เต็มไปด้วยงานแบบนี้
      ผมยังเคยเห็นงานที่เอาบทสัมภาษณ์กับ protocol ไปใส่ใน ChatGPT แล้วดึงผลลัพธ์ออกมา ก่อนจะเรียกสิ่งนั้นว่า “ระเบียบวิธี” ด้วยซ้ำ แถมยังผ่านการ peer review และตีพิมพ์แล้วด้วย
  • เรื่องนี้อาจอธิบายได้คล้ายกับหนัง Hollywood ถ้าหนังถูกสร้างมาเพื่อทำให้คนจำนวนมากที่สุดพอใจ มันก็มีโอกาสมากกว่าที่คนจะเลือกมันเหนือหนังเรื่องอื่น
    ศาสตราจารย์กฎหมายที่เป็นมนุษย์ย่อมมีบุคลิก ความเชื่อ และความเห็นของตัวเองสะท้อนออกมาในงานเขียน แต่ LLM ถูกฝึกมาเพื่อทำให้ มวลชนวงกว้างที่สุด พอใจ นั่นไม่ได้แปลว่าคำตอบดีกว่า เหมือนกับที่ Captain America ไม่ได้ดีกว่า American Beauty โดยอัตโนมัติเสมอไป

  • ในฐานะวิศวกรซอฟต์แวร์ ผมพอมีสัญชาตญาณอยู่บ้างว่างานแบบไหนอันตรายถ้าจะมอบให้เอเจนต์ทำ
    แต่พอเป็นการให้ AI ร่างเอกสารกฎหมาย กลับยังไม่มีสัญชาตญาณแบบเดียวกันว่ามีอะไรที่อาจผิดพลาดได้บ้าง การเขียนพินัยกรรมดูเผินๆ เหมือนไม่มีพิษมีภัย แต่จริงๆ แล้วก็ไม่แน่ใจ ระบบกฎหมายขึ้นชื่อเรื่องมีกับดักเต็มไปหมด

    • ผมเคยใช้ LLM ทั่วไปสำหรับร่างเอกสารกฎหมายมาเยอะพอสมควร เช่น Claude หรือ GPT ทั่วๆ ไป จุดที่อันตรายที่สุดคือ การอ้างคำพิพากษาหลอน
      มันชอบสอดแทรกคำอ้างจากคดีอื่นที่ดูน่าเชื่อถือราวกับพิสูจน์ข้อโต้แย้งที่ต้องการได้อย่างสมบูรณ์แบบ และถึงขั้นแต่งชื่อคดีที่ดูเหมือนจริงอย่าง United States v. Shenzhou Electronics Inc ขึ้นมาได้ด้วย บางครั้งผมตรวจไปหลายรอบไม่เจออ้างอิงปลอมก็เลยสบายใจ แต่พอคำร้องฉบับถัดไปกลับโผล่มาสามรายการเฉยเลย
      ถึงอย่างนั้น ทนายที่ไม่ใช้ LLM ในงานวิจัยกฎหมายก็กำลังตามหลังอยู่ มันเก่งอย่างเหลือเชื่อในการหาคำพิพากษาเฉพาะทางที่ถ้าหาคนเดียวคงไม่มีวันเจอ สมัยก่อนการค้นหามักพึ่งการตรงกันของคำค้นแบบเป๊ะๆ ซึ่งหลายครั้งแทบไม่มีประโยชน์กับการวิจัยกฎหมายโดยเนื้อแท้ เราต้องการอะไรสักอย่างที่ค้นหาได้ด้วยเงื่อนไขที่กำกวมกว่านั้น และ AI ทำเรื่องนี้ได้ดีมาก เพียงแต่ผลลัพธ์ต้องตรวจสอบเสมอ LLM ของ Lexis Nexis หรือ Westlaw ก็น่าจะดีกว่าโมเดลทั่วไป
      LLM เป็น ผู้ช่วยด้านกฎหมาย ที่ยอดเยี่ยม ถ้าทำงานด้านกฎหมาย ก็ควรใช้มันอย่างน้อยในฐานะเครื่องมือโยนไอเดียใส่ ลองให้มันเล่นบททนายฝ่ายตรงข้ามเพื่อช่วยโต้แย้งกลับก็ได้ เพื่อนผมคนหนึ่งให้มันสวมบททนายของอีกฝ่ายตลอด เพื่อไล่ดูข้อโต้แย้งที่อาจถูกยกขึ้นมาทั้งหมด
      มันก็เหมือนกับการพัฒนาซอฟต์แวร์ ถ้าผลลัพธ์ที่สร้างขึ้นมีความสำคัญ คุณต้องตรวจผลลัพธ์
    • ผมคิดว่าคำพูดนี้น่าจะใช้ได้กับงานอาชีพที่ต้องอาศัยทักษะส่วนใหญ่ AI จะถูกใช้งานได้ดีที่สุดเมื่อคนใช้รู้จักทักษะหรืองานนั้นดีอยู่แล้ว
      มันให้ความรู้สึกเหมือนเปรียบเทียบการค้นหาของผมที่เป็นผู้ดูแลระบบ กับการค้นหาของ Jane ในทีมบัญชี ผู้ใช้ปลายทางที่ไม่ใช่สายเทคนิคมีโอกาสมากกว่าจะทำปัญหาให้แย่ลง หรือไปติดตั้งอะไรน่าสงสัยจากผลค้นหาที่เต็มไปด้วยโฆษณา ส่วนผมหรือเจ้าหน้าที่เฮลป์เดสก์มีโอกาสทำแบบนั้นน้อยกว่า
      ผมคงไม่ไว้ใจให้ AI จัดทำเอกสารกฎหมายสำคัญโดยไม่มีคำแนะนำจากทนาย เช่นเดียวกัน ผมก็ไม่อยากพึ่งพาให้ทนายของผมใช้ AI เขียนโค้ดให้ผม
    • ในฐานะทั้งทนายและวิศวกรซอฟต์แวร์ จากประสบการณ์จนถึงตอนนี้ ผมรู้สึกว่าอัตราความผิดพลาดของ LLM ในการร่างโค้ดกับเอกสารกฎหมายค่อนข้างใกล้เคียงกัน แต่ในบริบททางกฎหมายปัญหารุนแรงกว่า เพราะเอกสารกฎหมายไม่มี กลไกป้องกันเชิงโครงสร้าง หลายอย่างแบบที่มีในโค้ด
      เอกสารกฎหมายไม่มี automated tests, static types, test environment, การวัดผลแบบ logging/observability หรือ sandboxing
      ช่วงเวลาหน่วงระหว่างการเขียนกับการ “นำไปใช้จริง” ก็ทำให้วงจรดีบักมีประสิทธิภาพน้อยลงและมีค่าใช้จ่ายสูงขึ้นมาก โค้ดสามารถดีพลอยขึ้นโปรดักชันได้ภายในไม่กี่วินาที ดูข้อผิดพลาดจากล็อกแล้วดีบักต่อได้ทันที แต่ข้อผิดพลาดในสัญญาหรือเอกสารที่ยื่นต่อศาลมักจะถูกพบหลังจากนั้นอย่างน้อยหลายวัน และบ่อยครั้งเป็นหลายปี ซึ่งถึงตอนนั้นก็มักแก้ไขไม่ได้แล้ว ทำให้ข้อผิดพลาดทั้งค้นพบและแก้ไขได้ยากกว่า
      ผลกระทบจากข้อผิดพลาดก็มักใหญ่กว่ามาก เพราะอาจแก้ไขไม่ได้ และความผิดพลาดทางกฎหมายอาจทำให้ชีวิต เสรีภาพ หรือทรัพย์สินจำนวนมากของใครบางคนตกอยู่ในความเสี่ยง แน่นอนว่าบั๊กในระบบที่สำคัญต่อความปลอดภัยก็อาจแย่พอๆ กันหรือแย่กว่าความผิดพลาดทางกฎหมายได้ ดังนั้นจึงไม่ใช่เส้นแบ่งแบบสัมบูรณ์ ถึงอย่างนั้น โดยทั่วไปแล้วซอฟต์แวร์ส่วนใหญ่มักมีความเสี่ยงต่ำกว่าเอกสารกฎหมายส่วนใหญ่
      ในทางกลับกัน LLM ดูจะทำเรื่องสไตล์และโครงสร้างพื้นฐานของเอกสารกฎหมายได้ดีกว่าโค้ด เช่น การยึดตามรูปแบบ IRAC, การใส่อ้างอิงประกอบข้อเสนอทางกฎหมาย, หรือการเขียนประโยคที่เข้าใจได้ แน่นอนว่าปัญหาเรื่องหลอนยังคงมีอยู่ ถ้าเทียบกับโค้ดก็คงคล้ายกับแนวปฏิบัติที่ดีอย่างคอมเมนต์ที่ดี, cohesion, การใช้ design patterns อย่างสม่ำเสมอ, test coverage, ชื่อตัวแปรที่ชัดเจน และ DRY
      ที่มันทำได้ดีกว่าในตัวชี้วัดเชิงคุณภาพเหล่านี้ อาจเป็นเพราะแม้เอกสารกฎหมายที่ยาวที่สุดก็ยังมักมีโครงสร้างง่ายกว่าและมีจำนวนบรรทัดข้อความน้อยกว่า codebase ขนาดใหญ่และซับซ้อน หรืออาจเป็นเพราะ LLM ถูกฝึกด้วยข้อความภาษาธรรมชาติมากกว่าโค้ด หรือเพราะภาษาธรรมชาติมีความยืดหยุ่นกว่าโค้ด ความต่างเล็กน้อยของถ้อยคำหรือไวยากรณ์อาจไม่ส่งผลมากนักต่อการตีความเอกสาร แต่ข้อผิดพลาดเพียงตัวอักษรเดียวในโค้ดอาจสร้างผลกระทบอย่างมหาศาลได้
    • การบอกว่าการเขียนพินัยกรรมไม่เป็นอันตรายนั้นไม่จริงเลย โดยเฉพาะถ้าคุณเป็นผู้จัดการมรดกที่ต้องมารับมือกับ พินัยกรรม AI ที่พังๆ ฤดูใบไม้ผลินี้ผมเพิ่งจัดการมรดกของพ่อไป และแม้แต่มรดกที่เรียบง่ายที่สุดก็ยังเป็นกระบวนการที่น่าหงุดหงิดและชวนสับสน
    • ผมไม่มองว่าการเขียนพินัยกรรมเป็นเรื่องไม่เป็นพิษเป็นภัย ถ้าเขียนผิด ญาติใกล้ชิดอาจต้องรับภาระปัญหาใหญ่ และต้องผ่าน กระบวนการพิสูจน์พินัยกรรม ที่กินเวลาเป็นเดือนหรือเป็นปี
  • ถึงงานวิจัยชิ้นนี้จะแย่ แต่ภาพรวมก็ไม่น่าแปลกใจนัก
    งานกฎหมายบางส่วนคือการวิเคราะห์ข้อความจำนวนมาก สรุปข้อสรุป แล้วเขียนข้อความอื่นต่อจากข้อสรุปนั้น ซึ่งนั่นคือ งานถนัดของ LLM แบบตรงตัว
    ทนายประเภทนั้นควรอยู่แถวหน้าสุดของคิวคนตกงาน ไม่ใช่โปรแกรมเมอร์ เทียบกันไม่ติดจริง ๆ

    • ในทางทฤษฎี การที่มันเป็นงานถนัดของ LLM ไม่ได้แปลว่า LLM จะทำงานนั้นได้จริง เรายังต้องพิสูจน์ให้ได้โดยไม่ยึดติดกับความเชื่อเดิม ๆ กฎหมายเป็น ระบบที่เกี่ยวข้องกับชีวิตผู้คนโดยตรง และต้องผ่านการตรวจสอบในระดับสูงสุด
    • ที่บอกว่าเป็นงานถนัดของ LLM ก็ถูก แต่ถ้ามองในแง่การใช้งาน LLM การเขียนโปรแกรมมีข้อได้เปรียบมากกว่ากฎหมาย
      มันสามารถรันตรรกะได้ และสร้างลูปจากผลลัพธ์ได้ ตั้งค่า reinforcement learning ที่มีประโยชน์มากกว่าได้ง่ายกว่า สร้างข้อมูลการเรียนรู้แบบสังเคราะห์ได้ง่ายกว่า รองรับการใช้เครื่องมือและการทำ agent แบบขนานได้เป็นธรรมชาติกว่า และการรวมเข้ากับ API ก็ง่ายกว่าเมื่อเทียบกับ API ไม่กี่ตัวที่ระบบศาลมีให้
      การเขียนโปรแกรมยังเข้ารหัสนามธรรมในระดับฟังก์ชันและโมดูลไว้อย่างชัดเจน จึงเอาไปทำเป็นกราฟความรู้ ใช้หาเหตุผล และต่อยอดได้ง่ายกว่าชิ้นส่วนข้อความ
    • ทั้งงานเขียนโปรแกรมและงานกฎหมายต่างก็เห็นปัญหาเดียวกันของ AI
      AI เหมือน สะเก็ดแผล มันคอยอุดช่องโหว่และรีบเข้าไปเติมช่องว่างชั่วคราว แต่คงไม่ใช่ทางออกสุดท้าย
      โมเดลเหล่านี้แสดงให้เห็นว่ามีความต้องการด้านการรู้หนังสือขนาดมหาศาลที่ยังไม่ได้รับการตอบสนองทั้งในซอฟต์แวร์และกฎหมาย ตอนนี้ทางเลือกคือจะแก้สาเหตุเชิงโครงสร้างของความต้องการที่ยังไม่ถูกตอบสนองนั้น หรือจะเอาสะเก็ด AI มาปิดทับซ้อน ๆ กันต่อไป
    • งานวิจัยนี้ดูคนในแวดวงวิชาการ ผมไม่ได้จะดูถูกพวกเขาหรืองานของพวกเขา แต่มันต่างจากงานด้านดีลหรือคดีความใน BigLaw มาก
      มันเน้นการวิเคราะห์และสรุปข้อความที่มีอยู่แล้วมากกว่า และตัวข้อความเหล่านั้นเองก็เอาไปใช้ฝึก LLM ได้ง่ายกว่า เช่น กฎหมาย คำพิพากษา วารสารนิติศาสตร์ และตำราเรียน
      เพราะงั้นมันน่าจะเป็นงานกฎหมายที่ทำให้เป็น LLM ได้ง่ายที่สุด แต่ในขณะเดียวกันก็อาจมีมูลค่าต่ำที่สุดด้วย เพราะอาจารย์นิติศาสตร์ไม่ได้รับค่าตอบแทนเท่าทนาย BigLaw แนวทางนี้คงขยายตรง ๆ ไม่ได้ ไม่ได้แปลว่า AI จะเจาะ BigLaw ไม่ได้ แต่จะเป็นความท้าทายอีกแบบหนึ่ง
  • ผมเข้าใจว่าทำไมการถกเถียงใต้บทความนี้ถึงไหลไปในทิศทางนั้น แต่ตัวงานวิจัยเองมุ่งไปที่ความเป็นไปได้ที่ LLM จะทำหน้าที่เป็น ติวเตอร์สำหรับนักศึกษากฎหมาย การขยายประเด็นไปถึงว่า LLM จะมาแทนทนายได้ไหมก็น่าสนใจ แต่ไม่ใช่สิ่งที่งานวิจัยนี้ศึกษาจริง ๆ
    ถ้าวางกรอบว่าใช้ LLM เป็นติวเตอร์กฎหมายเพื่อลดต้นทุนการศึกษากฎหมาย ก็ฟังดูเป็นผลลัพธ์เชิงบวกต่อสังคม ยิ่งไปกว่านั้น ถ้าระบบ LLM รุ่นใหม่เข้าถึงแหล่งอ้างอิงทางกฎหมายได้ ความคิดที่ว่ามันจะตอบ คำถามที่นักศึกษาถาม ได้อย่างครอบคลุม พร้อมให้เบาะแสหรือการอ้างอิงโดยตรงไปยังสื่อการสอนหรือแหล่งข้อมูลต้นทาง ก็ดูสมเหตุสมผลตามสัญชาตญาณ และผลการวิจัยก็ดูไปในทางนั้น
    ผู้เขียนเน้นอย่างชัดเจนและตั้งใจว่าคำถามกฎหมายจำนวนมากไม่ได้ต้องการคำตอบเชิงคำนวณที่แยกขาดจากบริบท แต่ต้องการการทำให้เข้ากับบริบท ผลลัพธ์ชี้ว่าระบบที่อิง LLM อาจสามารถใช้ “การสร้างอัลกอริทึมความพอดีเชิงความน่าจะเป็น” ของโมเดลภาษาแบบสมัยใหม่ เพื่อวางคำถามของนักศึกษาให้อยู่ในบริบทที่เหมาะสม อธิบายการแลกเปลี่ยนหรือความซับซ้อนที่แฝงอยู่ในคำถาม และที่สำคัญคืออธิบายความซับซ้อนนั้นให้นักศึกษาเข้าใจได้ จนถึงระดับมาตรฐานวิชาชีพของผู้สอนกฎหมาย
    ในทางปฏิบัติ ผมหวังว่าผลแบบนี้จะช่วยเพิ่มความมั่นใจให้ผู้อ่าน HN ได้เล็กน้อยว่าเมื่อถามคำถามกฎหมายกับ LLM ก็น่าจะคาดหวังคำตอบที่อธิบายความซับซ้อนของกฎหมายที่เกี่ยวข้องกับคำถามนั้นได้ นี่เป็นข่าวดี และถ้ามีเวลา มันอาจเป็นงานเตรียมตัวขั้นต่ำที่เราควรทำก่อนจะไปปรึกษาทนายจริง ๆ
    ในทางกลับกัน ผมไม่คิดว่างานวิจัยนี้เป็นสัญญาณว่า LLM พร้อมจะให้ คำปรึกษากฎหมายโดยตรง ได้แล้วจริง ๆ มันคล้ายกับที่ตำรากฎหมายไม่อาจแทนคำปรึกษากฎหมายได้ หรือพูดให้แม่นกว่านั้นคือ การที่ผมบังเอิญเจอคดีที่ดูคล้ายสถานการณ์ของตัวเองในภาพรวม ก็ไม่ได้รับประกันว่าจะได้ผลลัพธ์เดียวกัน

    • ดูเหมือนว่ามันแสดงให้เห็นว่า LLM ฉลาดพอที่จะนำไปใช้ในบริบทการศึกษากฎหมายได้
  • Figure I.1 บอกอะไรได้เยอะมาก ความยาวของคำตอบกลายเป็นตัวทำนายอัตราชนะที่แรงที่สุด เรื่องนี้อาจเกิดจาก ข้อบกพร่องเชิงระเบียบวิธี ของงานวิจัย
    อาจารย์ถูกสั่งให้ตอบแบบกระชับ ประมาณว่า “โปรดเขียนให้กระชับ คาดว่าแต่ละคำตอบจะใช้เวลาไม่เกิน 3 นาที” ดังนั้นพวกเขาน่าจะเอนเอียงไปทางการเขียนสั้น ๆ อยู่แล้ว และในเมื่อถูกบังคับให้เขียนกระชับตั้งแต่แรก อาจารย์ก็อาจไม่ได้ทุ่มเทกับคำตอบแบบเขียนมากนัก นี่ไม่ใช่พาดหัวข่าวแบบที่ผู้เขียนคิดว่าเป็น

  • น่าแปลกใจที่ Stanford Law ยอมใช้ชื่อข่าวประชาสัมพันธ์ที่เกินจริงขนาดนี้ ผมว่ามันน่าจะเป็นประมาณว่า “สำหรับ คำถามกฎหมายสัญญาทั่วไปของนักศึกษาปี 1 อาจารย์นิติศาสตร์ชอบคำตอบที่ AI สร้างมากกว่าคำตอบที่อาจารย์สร้าง” มากกว่า

    • ชื่อที่แก้แล้วแม่นกว่า มันแปลกที่นักวิชาการฟังดูเหมือน CEO ของห้องแล็บระดับท็อปที่พยายามปั่น มูลค่ากิจการ ด้วยคำกล่าวเกินจริง
  • การคาดเดาที่ดีที่สุดของผมคือ Gemini อาจถูกฝึกบนตำราที่คำถามเหล่านี้พยายามจะทดสอบอยู่แล้ว เลยอาจเก่งกว่าในด้าน การระลึกจำแบบชัดแจ้ง ของคำถามนั้นหรือคำถามที่ใกล้เคียง
    จากที่อ่านระเบียบวิธีในบทความ มันดูเป็นหลักสูตรพื้นฐานที่ค่อนข้างจำกัด

    • นอกจากนั้น งานวิจัยนี้ทำที่สถาบัน HAI ของ Stanford และดูเหมือนจะมีอคติชัดเจน แถมในบทความยังขาด คำชี้แจงผลประโยชน์ทับซ้อน อย่างน่าแปลกใจ
      แก้ไข: เพิ่งรู้ว่า Google เป็นผู้บริจาครายใหญ่ให้ HAI ถ้าอย่างนั้นงานวิจัยนี้ก็ถือว่าได้รับทุนจาก Google อย่างน้อยบางส่วน และนั่นก็คงเป็นเหตุผลที่ผู้เขียนประกาศว่าไม่มีผลประโยชน์ทับซ้อนไม่ได้
  • วงการกฎหมายเข้ากับโมเดลภาษา AI ได้อย่างเหมาะเจาะโดยเนื้อแท้ เพราะโดยพื้นฐานแล้วทุกอย่างอิงอยู่บนข้อความที่เชื่อมโยงถึงกัน
    ผมคิดว่าอาจเกิด คลื่นการปลดคน ที่ใหญ่กว่าในสายกฎหมายมากกว่าในสาย IT ด้วยซ้ำ เพียงแต่มีแนวโน้มว่าจะมีแรงล็อบบี้ที่แข็งแรงกว่า และพวกเขาจะพยายามปั่นมูลค่างานของตัวเองให้สูงเพื่อกันคนนอกไม่ให้เข้ามา

    • ในฐานะทนาย ผมคิดว่าลางสังหรณ์นั้นเกี่ยวกับ LLM น่าจะถูก กฎหมายคือ เกมภาษา ที่ LLM ทำได้ดี
      แต่คลื่นนั้นเริ่มมาแล้ว และมันจะใหญ่มาก ลูกค้าองค์กรกำลังเรียกร้องให้ใช้ AI พวกเขาไม่อยากจ่ายเงินให้ associate ใช้เวลาหลายชั่วโมงร่างเอกสารแล้วให้ partner มาตรวจอีกที พวกเขาอยากให้ partner ระดับท็อปใช้ AI แล้วค่อยแก้ให้เรียบร้อย
  • สิ่งที่ LLM ยังทำไม่ได้คือการอธิบายว่าทำไมถึงพูดแบบนั้นเมื่อถูกซักค้าน มันทำได้เพียงหลอนคำอธิบายที่ดีที่สุดว่าทำไมใครสักคนน่าจะพูดสิ่งที่ตัวเองพูด และก็สามารถอธิบายได้อย่างน่าเชื่อว่าทำไมคนอื่นถึงน่าจะพูดอีกแบบหนึ่ง
    คำถามอย่าง “ทำไมถึงพูดสิ่งนี้แต่ไม่พูดสิ่งนั้น?” ไม่ได้บังคับให้ระบุฐานของคำพูด แต่กลับทำให้สร้างคำกล่าวใหม่ที่ซับซ้อนกว่าเดิมเท่านั้น

    • ในกรณีง่าย ๆ ก็จริง
      แต่ก็มี เทคนิคการจัดโครงบริบทของ LLM ที่ตรึงผลลัพธ์ที่สร้างเสร็จไว้กับโครงสร้างข้อมูล โครงสร้างข้อมูลนั้นจะคงโครงสร้างของข้ออ้างที่รองรับข้อสรุปในข้อความที่สร้างเสร็จไว้ การจัดระเบียบตรรกะในภาษานั้นเป็นสาขาที่กว้างและมีรูปแบบหลากหลาย โดยสิ่งที่ผมชอบที่สุดคือสิ่งที่เรียกว่า Claim Dependency Graph ซึ่งโมเดลความสัมพันธ์ระหว่างข้ออ้างระดับอะตอมเป็นเส้นเชื่อมของกราฟ
      มีปฏิบัติการมากมายที่ทำได้บนโครงสร้างแบบนี้ และ “ให้สร้างย้อนกลับว่ามาถึงข้อสรุปนี้ได้อย่างไร” ก็ชัดเจนว่าเป็นหนึ่งในนั้น
    • มนุษย์มีแรงจูงใจจริงที่คอยกำหนดกรอบของความคิดที่ถูกถ่ายทอดออกมา ส่วน LLM จะสร้าง ความคิดที่ถูกสร้างขึ้นใหม่ เพื่อตอบสนองต่อกระแสของคำถาม
    • กับมนุษย์ก็น่าจะจริงเหมือนกัน ในบทสนทนาเรามักตอบไปตามสัญชาตญาณ และจะค่อยสร้างเหตุผลมาย้อนรองรับเมื่อถูกขอเท่านั้น
      แม้จะเป็นความคิดที่ผ่านการไตร่ตรองมากกว่าเดิม ถ้าโชคดีก็อาจยังจำ “ร่องรอยการให้เหตุผล” ได้ แต่การใคร่ครวญตนเองของเราก็ไปได้แค่นั้น ถ้าไม่ใช่นักประสาทวิทยา เราก็ไม่รู้ด้วยซ้ำว่าเรามีนิวรอนกี่ตัว และยิ่งไม่รู้เข้าไปใหญ่ว่าพวกมันสร้างความคิดขึ้นมาอย่างไร
      การให้เหตุผลแบบมีแรงจูงใจยิ่งขัดขวางการใคร่ครวญตนเอง และเมื่อมีทั้งความไม่ซื่อสัตย์กับความผิดพลาดในการสื่อสารซ้อนเข้ามา เราก็ยิ่งถ่ายทอดข้อมูลอันจำกัดที่เหลืออยู่ให้กันได้ไม่ดีพอ
      งานวิจัยด้าน ความสามารถในการตีความของโมเดล ก้าวหน้าไปมากแล้ว หากจะถกกันแบบถึงพริกถึงขิง ก็อาจมองได้ว่าเราสามารถอธิบายการตัดสินใจของ AI ได้ดีกว่าสมองมนุษย์เสียอีก
    • ที่ LLM หลอนก็เพราะมนุษย์หลอนเหมือนกัน
      การถามให้ LLM ใส่คำอ้างอิงกำกับแหล่งที่มา สามารถเพิ่ม การจับคู่รูปแบบ ที่เลียนแบบตรรกะได้ใกล้เคียงขึ้นมาก เช่นเดียวกับในมนุษย์
      ผมเข้าใจว่าคำถาม “ทำไมถึงพูดสิ่งนี้แต่ไม่พูดสิ่งนั้น” หมายถึงอะไร เพียงแต่ก็เคยเห็นวิธีถามแบบอื่นที่ทำให้ LLM ไม่ตอบสนองเกินไปในทิศทางตรงกันข้าม