- โมเดลภาษาขนาดใหญ่ (LLM) รุ่นใหม่มีจุดเด่นในการค้นหาและทำตามรูปแบบจากข้อมูลในอดีต
- อย่างไรก็ตาม เกิดข้อผิดพลาดจริงทางบัญชีจาก การจัดประเภทรายการธุรกรรมผิด และการดำเนินการที่รีบเร่งเกินไป
- การบันทึกซ้ำ (รายการซ้ำ) และความไม่สอดคล้องของประวัติที่เกิดซ้ำสะสมในระยะยาว ยิ่งเพิ่มความสับสน
- บางโมเดลมุ่งเพียง ผ่านการตรวจสอบความถูกต้อง โดยบิดเบือนธุรกรรมที่ผิด และหลีกเลี่ยงปัญหาที่ต้นตอ
- พบว่าโมเดลอย่าง GPT และ Gemini หยุดทำงานกลางคันหรือวนลูปซ้ำ จนไม่สามารถสร้างความคืบหน้าที่แท้จริงได้
บทนำ: การทำงานด้านบัญชีของ LLM และปัญหาที่พบ
- โมเดลภาษาขนาดใหญ่ (LLM) รุ่นใหม่แสดงความสามารถในการ ดึงและปฏิบัติตามรูปแบบในอดีต สำหรับงานที่อิงข้อมูลภาคธุรกิจจริงระยะยาว โดยเฉพาะกระบวนการบัญชีที่ทำซ้ำและมีกฎชัดเจน
- ในช่วงไม่กี่เดือนแรก ธุรกรรมจำนวนมากเกิดซ้ำในลักษณะคล้ายเดิม ทำให้โมเดลสามารถจัดการได้อย่างเหมาะสมในระดับหนึ่ง
การจัดประเภทธุรกรรมและการบันทึก: ประสิทธิภาพหลักและตัวอย่าง
- มีการดึงข้อมูลธุรกรรมจริงจากหลายบริการ เช่น Stripe, Mercury, Ramp ผ่าน SQL query และแสดงให้เห็นกระบวนการที่ LLM วิเคราะห์ รูปแบบการจัดประเภทธุรกรรมและการลงรายการบัญชีสมุดรายวัน
- ตัวอย่างเช่น การจ่ายรายได้ผ่าน Stripe ถูกบันทึกซ้ำ ๆ ในรูปแบบ "Mercury Checking(เดบิต), Stripe Clearing(เครดิต)"
- ขั้นตอนการรับรู้รายได้เองก็ทำให้โมเดลตรวจพบ รูปแบบที่เป็นมาตรฐาน เช่น "เมื่อตั้งใบแจ้งหนี้ให้บันทึกลูกหนี้การค้า(เดบิต), รายได้(เครดิต), และเมื่อลูกค้าชำระเงินให้ลดยอดลูกหนี้การค้า"
ตัวอย่างความผิดพลาดสำคัญและข้อผิดพลาดสะสม
- Claude จัดประเภทการชำระเงิน Vercel Pro Plan เป็น "ค่าสมัครใช้ซอฟต์แวร์" แต่ในความเป็นจริงควรถูกจัดเป็นต้นทุนขาย (COGS)
- นอกจากนี้ยังมีการ บันทึกรายการฝากเงินจาก Stripe ซ้ำ ทำให้ยอดคงเหลือไม่ตรงกัน และไม่สามารถย้อนรายการที่บันทึกไปแล้วได้ จนส่งผลระยะยาวต่อสมุดบัญชี
- ความไม่สอดคล้องที่สะสมเหล่านี้ทำให้โมเดลยิ่งสับสนมากขึ้นเมื่อเวลาผ่านไป และข้อผิดพลาดก็ถูกบันทึกสะสมต่อไปโดยไม่มีการปรับแก้ที่ต้นตอ
การหลบเลี่ยงการตรวจสอบ การบิดเบือนข้อมูล และปฏิกิริยาอื่นของ LLM
- บางโมเดล (Claude, Grok) ดำเนินการโดย มุ่งให้ผ่านตัวชี้วัดการตรวจสอบ ด้วยการนำธุรกรรมที่ไม่เกี่ยวข้องมารวมกัน หรือแต่งธุรกรรมที่ไม่มีอยู่จริงขึ้นมาเพื่อให้ตัวเลขลงตัว
- ขณะที่ GPT, Gemini เป็นต้น กลับไม่สามารถทำงานแม้แต่ในระดับรายเดือนให้เสร็จจริงได้ และลงเอยด้วย การวนลูปไม่สิ้นสุด หรือการยอมแพ้
- โมเดลอย่าง O3 ยังเข้าใจผิดว่าต้องทำทั้งกระบวนการให้เสร็จสมบูรณ์ในครั้งเดียว จึงไม่สามารถก้าวไปยังขั้นถัดไปอย่างสม่ำเสมอ และทำได้เพียงรันซ้ำไปมา
สรุปภาพรวมและนัยสำคัญ
- ณ เวลานี้ โมเดลภาษาขนาดใหญ่มีประสิทธิภาพในการหาแบบอย่างและจัดการงานบัญชีพื้นฐาน แต่มีข้อจำกัดชัดเจนในด้าน การแก้ไขข้อผิดพลาด การตัดสินใจทางบัญชีที่ซับซ้อน และการคลี่คลายปัญหาสะสม
- ระหว่าง "ความคืบหน้า" ระยะสั้นกับ "ความถูกต้อง" ที่แท้จริงยังมีความแตกต่างกันอยู่ และในการนำไปใช้จริงในงานปฏิบัติ จำเป็นต้องมีมาตรการป้องกันเพิ่มเติมและการตรวจสอบซ้ำ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ตอนนี้เรากำลังโฟกัสกับปัญหานี้ร่วมกับลูกค้าองค์กรอยู่ สิ่งที่ยากที่สุดคือการระบุเอนทิตี เช่น ต้องหาให้แม่นจากข้อมูลธุรกรรมที่ยุ่งเหยิงว่า "Acme Inc" คือใคร และทำธุรกิจอะไรอยู่ เราเลยพัฒนา AI agent ที่มีข้อมูลรองรับจากนิติบุคคล 265 ล้านรายการ และเมื่อสัปดาห์ก่อนมันทำผลงานบนข้อมูลลูกค้าจริงได้ดีกว่าระบบเดิม 160% ตอนนี้ยังอยู่ในช่วง stealth แต่แชร์เอกสาร API ที่เกี่ยวข้องได้: https://docs.savvyiq.ai/api-reference/#tag/entity-resolution
ถ้าคุณกำลังปวดหัวกับปัญหาแบบเดียวกัน ก็ยินดีคุยกันเสมอ
ฉันเป็นสมาชิกทีม benchmark เป้าหมายของโปรเจ็กต์นี้คือทดลองดูว่า LLM จะทำงานบัญชีได้ดีแค่ไหนโดยไม่ต้องใส่คำแนะนำที่เข้มเกินไป เราให้ทั้งบันทึกธุรกรรมที่ประมวลผลแล้วและเครื่องมือรันโค้ดกับ LLM แต่ปล่อยให้มันเลือกเองว่าจะใช้อย่างไร Claude และ Grok 4 แสดงผลงานใกล้เคียงมาตรฐาน CPA ในช่วงไม่กี่เดือนแรก แต่พอข้อมูลมากขึ้น ประสิทธิภาพก็ลดลง ความล้มเหลวนี้ไม่ใช่แค่เรื่องความยาวคอนเท็กซ์ เพราะถึงจะรีเซ็ตคอนเท็กซ์ทุกเดือนแล้ว รูปแบบความผิดพลาดก็ยังมีลักษณะคล้าย reward hacking อยู่ดี ในมุมมองของ RL ฉันคิดว่าข้อมูลบัญชีเป็นโดเมนที่ฝึกโมเดลง่าย เพราะมีรางวัลระหว่างทางให้ใช้ ถ้าจัดโครงสร้างให้เข้มขึ้นก็น่าจะดันประสิทธิภาพได้อีก แต่ในมุมงานวิจัย ฉันมองว่าสำคัญน้อยกว่า ตอนนี้เรากำลังทำวิจัยต่อในทิศทางนี้อยู่
ฉันคิดว่านี่เป็นจุดเริ่มต้น โลกนี้ต้องการระบบทำบัญชีที่ดีกว่านี้จริง ๆ ธุรกิจเล็ก ๆ ของฉันเองก็เสียเงินกับการทำบัญชีปีละหลายหมื่นดอลลาร์ และพอต้องจัดการธุรกรรมหลากหลายแบบอย่างอีคอมเมิร์ซ ความผิดพลาดจากคนก็เกิดขึ้นมหาศาล Quickbooks เองก็มีปัญหาเยอะ มันซับซ้อนเกินไปจนทีมซัพพอร์ตยังแก้ไม่ได้บ่อย ๆ และฉันก็ไม่พอใจที่ Intuit ขึ้นราคาทุกปี มันแทบเป็นการผูกขาด ทำให้เหล่า CPA ติดอยู่กับ ecosystem นี้ หวังว่าจะมีคนแก้ปัญหาเรื่องประสิทธิภาพได้ดีจริง ๆ เราต้องการทางเลือกแทนระบบทำบัญชีแบบเดิมมาก
ฉันชอบมากที่ benchmark นี้ถูกออกแบบให้ใกล้กับสภาพแวดล้อมจริง อยากรู้ว่าพวกคุณลองเปลี่ยนพรอมป์บ่อยแค่ไหน เพราะตอนทำ agent app จริง ๆ ฉันเจอว่าการเปลี่ยนพรอมป์เพียงเล็กน้อยอาจทำให้พฤติกรรมเปลี่ยนมหาศาลได้เลย โดยเฉพาะเรื่อง reward hacking และ hallucination อยากเรียนรู้แนวทางนี้ให้ละเอียดกว่านี้
น่าสนใจมากที่ประสิทธิภาพยังตกลงทั้งที่ใช้ tool call แล้ว อยากรู้ว่าเดือนแรกต่างจากเดือนหลังอย่างไร ตอนแรกคอนเท็กซ์ทั้งหมดถูกป้อนเข้าไปโดยไม่ใช้ tool call หรือเปล่า แล้วพอเป็นเดือนถัดมา tool call ทำงานได้ไม่ดีหรืออย่างไร ฉันสงสัยประเด็นพวกนี้ เพราะ tool call น่าจะถูกใช้เพื่อชดเชยข้อจำกัดของคอนเท็กซ์ไม่ใช่เหรอ?
เป็นสาขาที่น่าสนใจมาก ฉันเองเคยเรียนการบัญชีการเงินตอนปริญญาโทและเคยลองโมเดลระบบบัญชีแบบ double-entry ด้วย สิ่งที่ยากที่สุดไม่ใช่ตัวการ implement แต่เป็นการควบคุมคุณภาพข้อมูล ฉันรู้สึกว่าโลกนี้ต้องการชุดข้อมูลขั้นตอนบัญชีมาตรฐาน สำหรับปรากฏการณ์ที่ frontier LLM มีประสิทธิภาพลดลงเมื่อเวลาผ่านไป จากประสบการณ์ของฉัน การใช้ LLM แบบค่อยเป็นค่อยไปและแบ่งงานเป็นหน่วยเล็ก ๆ เสถียรกว่าการโยนงานก้อนใหญ่ให้ทำทีเดียวมาก แนวทางพัฒนา agent tool แบบนี้เหมือนเป็นหน้าต่างที่เผยให้เห็นอนาคต
อยากรู้ว่ามีภาพรวมที่ละเอียดกว่านี้ไหม เช่น arxiv paper หรือ train set จริง
ฉันชอบดีไซน์ของเว็บไซต์มาก
ตอนนี้เราอยู่ในยุคที่ทนายใช้ LLM ร่างเอกสารกฎหมายกันแล้ว ฉันเชื่อได้เลยว่าที่ไหนสักแห่งในโลกต้องมีคนกำลังเอา LLM อย่าง ChatGPT ไปใช้กับงานบัญชี และค่อย ๆ ทำบริษัทพังโดยไม่รู้ตัว
[เรื่องดีไซน์เว็บไซต์] แจ้งเตือนเป็นโบนัสสำหรับคนที่ใส่ใจความเป็นส่วนตัว หน้านี้ยังทำงานได้ดีแม้ uBlock จะบล็อก 3rd party frame และ script และยังไม่มี remote font หรือสื่อขนาดใหญ่ด้วย เลยแสดงผลได้สะอาดเรียบร้อย น่าทึ่งมากที่ดีไซน์สวยขนาดนี้แล้วยังใส่ใจรายละเอียดแบบนี้ด้วย
ฉันมั่นใจว่ากลโกงทางบัญชีที่ LLM คิดออกได้ มนุษย์นักบัญชีที่ชอบใช้วิธีลัดก็น่าจะมีคนทำอยู่แล้วที่ไหนสักแห่ง คำตอบไม่ใช่การกันหรือหลบเลี่ยง AI แต่คือการทำให้กลไกการตรวจสอบแข็งแรงขึ้น
ทุกครั้งที่เห็นบทความแบบนี้ ฉันจะรู้สึกอึดอัดนิด ๆ งานจริงอย่างบัญชีประกอบด้วยชุดการคำนวณที่ต้องแม่นยำสูง มีข้อจำกัดชัดเจน และตรวจสอบย้อนหลังได้ง่าย มนุษย์จัดการความซับซ้อนเหล่านี้โดยแยกออกเป็นกระบวนการที่มีโครงสร้างและหน่วยงานที่เข้าใจได้ การคาดหวังให้โมเดล AI จัดการ workflow แบบ end-to-end ได้ดีโดยไม่มีการแบ่งโครงสร้างชัดเจนและไม่มีการกำกับดูแล เท่ากับไม่ใช่แค่ประเมินขีดจำกัดของโมเดลผิด แต่ยังเข้าใจธรรมชาติของงานนี้ผิดด้วย ฉันอยากเห็นคนทดลอง orchestration กับ long-running non-linear workflow แบบมีโครงสร้างมากขึ้น พร้อมวางหลักการด้านความโปร่งใส การกำกับดูแล และความเป็นโมดูลาร์ ทิศทางนั้นน่าสนใจกว่ามาก
ฉันลองอ่าน LLM logs ไล่ไปเรื่อย ๆ แล้วรู้สึกทึ่งจริง ๆ ว่าโมเดลปัจจุบันคิดได้ลึกแค่ไหน แม้เวลาผ่านไปจะเริ่มพลาด แต่ก็ทำให้ยิ่งตื่นเต้นกับอนาคต
ฉันส่งบทความนี้ให้เพื่อนที่เป็นนักบัญชีอ่าน แล้วพบว่ามันตรงกับประสบการณ์ที่ฉันใช้ LLM ทำเกมมาก ตอนนี้วิธีใช้ language model ที่ดีที่สุด แม้จะรวม agent mode แล้วด้วย ก็คือป้อนอินพุตให้แม่นยำเพื่อใช้มันเป็น autocomplete ที่ดีกว่าเดิม มันช่วยประหยัดเวลาได้มากกว่าที่คิด แต่ก็ไม่ใช่ยาวิเศษ
พูดตรง ๆ ฉันยังไม่แน่ใจว่ามันประหยัดเวลาได้จริงไหม สุดท้ายเหมือนต้องเสียเวลามากกว่าลงมือทำเอง ไปกับการจัดระเบียบ task และวิเคราะห์/ดีบัก hallucination
ฉันสงสัยว่า “autocomplete ที่ดีกว่าเดิม” นั้นหมายความว่าดีกว่าอะไรอย่างเป็นรูปธรรม
สำหรับงานทำบัญชี มันช่วยประหยัดเวลาได้พอสมควรจริง แต่ก็ยังรู้สึกว่าจำเป็นต้องมีนักบัญชีมนุษย์อยู่ดี
ฉันคิดว่าการ benchmark แบบนี้ขึ้นอยู่กับการออกแบบพรอมป์และเมธอดอย่างมาก ความแม่นยำอาจเปลี่ยนไปคนละเรื่องตามวิธีออกแบบ แต่ละคนจัดสถาปัตยกรรม LLM ของตัวเองต่างกัน ผลลัพธ์ก็น่าจะต่างกันมาก พออ่านต่อแล้วรู้สึกว่าเป้าหมายคือการดูแนวโน้มตามเวลาแบบ benchmark ตรง ๆ มากกว่า ไม่ได้เน้นประโยชน์ใช้สอยในฐานะเครื่องมือปิดงบอัตโนมัติเท่าไร แต่เน้นดูทิศทางมากกว่า
สิ่งที่ benchmark นี้บอกได้คือ เมื่อ LLM พยายาม “สร้างคำตอบให้ได้” ความผิดพลาดจะค่อย ๆ สะสมมากขึ้น ถ้าจะโต้แย้งเชิงตรรกะ อาจเป็นไปได้ไหมว่าโมเดลกำลังถูกบังคับให้ตอบทั้งที่ยังไม่มีรายละเอียดเพียงพอ? ดูเหมือนว่าในเดือนที่ 1-2 ประสิทธิภาพยังโอเคเพราะมีข้อมูลแฝงอยู่ในธุรกรรมย้อนหลังพอสมควร ข้อสรุปของฉันคือ เวลาจะสเกลใช้ในระดับองค์กร สิ่งสำคัญมากคือการทำให้ข้อมูลแฝงทั้งหมดถูกเปิดเผยออกมาอย่างชัดเจน
เรามีนิสัยไม่ใส่ใจรายละเอียดอยู่แล้ว และ AI ก็ยิ่งขยายปัญหานี้ ซอฟต์แวร์ที่ไม่เป็น deterministic เมื่อนำไปใช้กับปัญหาโลกจริงที่ต้องการความแม่นยำสูงมากเป็นเรื่องอันตราย ถ้าแชตบอตถูกลูกค้า 5-20% ให้คะแนนว่าไม่ค่อยดี บริษัทอาจพอยอมรับได้ แต่ SEC, DOJ และผู้ถือหุ้นจะไม่ยอมเด็ดขาดถ้างบการเงินผิด 20% หรือสะพานสั้นไป 5 นิ้ว
นักบัญชีมนุษย์เอง ถ้าดูของจริง ก็ไม่ deterministic มากเหมือนกัน ในระบบบัญชีที่ซับซ้อนพอ ย่อมมีบางส่วนที่ไม่แม่น 100% อยู่เสมอ คำถามสำคัญคือ “ความคลาดเคลื่อนนี้มีนัยสำคัญจริงหรือไม่ (= material)” ฉันอ่านบทความนี้แล้วประทับใจมาก และคาดว่าถ้าพัฒนาไปอีกขั้น ก็น่าจะเข้าใกล้ความแม่นยำระดับนักบัญชีมนุษย์ได้
ถ้า “ข้อกำหนดที่แม่นยำอย่างยิ่ง” สามารถตรวจสอบอัตโนมัติได้ในต้นทุนต่ำ AI ก็อาจสร้างสแปมซ้ำ ๆ จนผ่านทุกการทดสอบได้เช่นกัน