Claude จะบริหารร้านค้าเล็ก ๆ ได้ไหม? (และทำไมเรื่องนี้จึงสำคัญ?)
(anthropic.com)- Anthropic และ Andon Labs ได้ร่วมกันทำการทดลองเป็นเวลา 1 เดือน โดยใช้ Claude Sonnet 3.7 ให้บริหาร ร้านค้าขนาดเล็กแบบไร้พนักงาน จริง
- Claude ทำหน้าที่ส่วนสำคัญของการดำเนินร้านจริง เช่น การคัดเลือกสินค้า การกำหนดราคา การจัดการสต็อก และการสื่อสารกับลูกค้า
- ผลการทดลองเผยให้เห็น ข้อจำกัดและปัจจัยที่ทำให้ล้มเหลวในการดำเนินธุรกิจจริง หลายประการ แต่ก็ยังทำงานบางอย่างได้ในระดับที่มีความหมาย
- ปัจจัยความล้มเหลวจำนวนมากมีแนวโน้มจะปรับปรุงได้ด้วยการเสริม เครื่องมือเพิ่มเติม พรอมป์ต์แบบมีโครงสร้าง และความจำระยะยาว
- การทดลองนี้ถูกมองว่าเป็นความพยายามสำคัญในการประเมินว่า อนาคตอันใกล้ AI จะสามารถรับผิดชอบงานเศรษฐกิจจริงบางส่วนได้อย่างอัตโนมัติ มากน้อยเพียงใด
ภาพรวม
- Anthropic ร่วมมือกับ Andon Labs บริษัทที่ทำงานด้านการประเมินความปลอดภัยของ AI มอบหมายให้ Claude Sonnet 3.7 ดูแล ร้านค้าขนาดเล็กอัตโนมัติ (Project Vend) ภายในสำนักงานของบริษัทในซานฟรานซิสโกเป็นเวลา 1 เดือน
- โปรเจ็กต์นี้เป็นการทดลองเพื่อประเมินความเป็นไปได้ที่ AI จะบริหารจัดการธุรกิจได้ด้วยตนเองในเศรษฐกิจจริงในอนาคต โดยให้ Claude รับบทเป็นผู้ประกอบการรายย่อยจริงและสังเกตการทำงานเชิงปฏิบัติ
บทบาทและเครื่องมือที่มอบให้ Claude
Claude (ชื่อ: Claudius) ได้รับบทบาทและเครื่องมือดังต่อไปนี้
- เครื่องมือค้นหาเว็บ: ใช้รีเสิร์ชสินค้าที่จะขาย
- เครื่องมืออีเมล: ใช้สื่อสารกับผู้ค้าส่งและ Andon Labs (เป็นเครื่องมือจำลอง ไม่ได้ส่งอีเมลจริง)
- การบันทึกโน้ตและจัดการข้อมูล: ใช้บันทึกและเรียกดูข้อมูล เช่น สต็อกและกระแสเงินสด
- การโต้ตอบกับลูกค้า: สื่อสารกับพนักงานผ่านช่อง Slack
- ฟังก์ชันเปลี่ยนราคาในระบบ POS ของร้าน
Claude สามารถ ตัดสินใจเลือกสินค้า ตั้งราคา และสั่งซื้อสต็อกได้อย่างอิสระ และนอกจากขนมกับเครื่องดื่มในออฟฟิศแบบเดิม ๆ แล้ว ยังสามารถแนะนำสินค้าที่หลากหลายตามข้อเสนอของลูกค้าได้ด้วย
ทำไมจึงมอบธุรกิจขนาดเล็กให้ LLM ดูแล
- เมื่อ AI ถูกผนวกรวมเข้ากับเศรษฐกิจลึกขึ้นเรื่อย ๆ ก็จำเป็นต้องมีข้อมูลและการประเมินรูปแบบใหม่เพื่อวัดว่า AI สามารถทำงานทางเศรษฐกิจได้อย่างอัตโนมัติจริงมากน้อยแค่ไหน
- โครงการนี้ต้องการทดสอบ ความสามารถในการบริหารอย่างต่อเนื่องและอัตโนมัติของ AI ในสภาพแวดล้อมจริง ไม่ใช่เพียงการศึกษาผ่านการจำลองแบบเดิม (Vending-Bench)
- การบริหารร้านขายของอัตโนมัติขนาดเล็กเช่นนี้ไม่ซับซ้อนเกินไป ขณะเดียวกันก็เหมาะสำหรับใช้วัดความสามารถทางธุรกิจของ AI ในโลกจริง
การประเมินผลงานของ Claude (Claudius)
Claude แสดงผลงานเชิงบวกหลายอย่างนอกเหนือจากการขายน้ำอัดลมและขนมทั่วไป เช่น
- การค้นหาซัพพลายเออร์: สามารถค้นหาสินค้าหายากจากเว็บและเสนอได้อย่างรวดเร็ว เช่น นมช็อกโกแลตดัตช์ Chocomel ที่มีผู้ร้องขอ
- แนวทางที่ปรับให้เข้ากับลูกค้า: ตอบสนองต่อกระแสสินค้าที่ไม่ปกติอย่างลูกบาศก์โลหะ และแสดงความยืดหยุ่นด้วยการเปิดบริการสั่งของเฉพาะราย (Concierge)
- ความต้านทานต่อ Jailbreak (คำขอที่ไม่เหมาะสม): ยืนกรานปฏิเสธคำขอสั่งสินค้าที่เป็นอันตราย ช่วยรักษาความปลอดภัย
อย่างไรก็ตาม ก็พบข้อจำกัดสำคัญเมื่อเทียบกับผู้จัดการที่เป็นมนุษย์
- พลาดโอกาสทำกำไร: มีโอกาสขายสินค้าราคา 15 ดอลลาร์ในราคา 100 ดอลลาร์ แต่เพียงจดโน้ตไว้และไม่ได้ลงมือทำ
- สร้างข้อมูลเท็จ: ให้ข้อมูลบัญชีรับชำระเงินที่ไม่เป็นจริง
- ขายขาดทุน: ขายลูกบาศก์โลหะต่ำกว่าทุนเมื่อมีการสั่งซื้อ
- การจัดการสต็อกที่ไม่เหมาะที่สุด: สะท้อนราคาอ่อนไหวและกำไรต่อสินค้าแต่ละประเภทได้ไม่ดีพอ
- ลดราคาและแจกฟรีมากเกินไป: มักยอมลดราคาหรือให้สินค้าฟรีโดยไม่จำเป็นเมื่อถูกลูกค้าพูดโน้มน้าว
ปัญหาเหล่านี้ส่วนใหญ่ยืนยันแล้วว่ามีโอกาสแก้ไขได้ด้วย การใช้เครื่องมือธุรกิจที่เหมาะสมกว่า การออกแบบพรอมป์ต์ที่แข็งแรงขึ้น และการเพิ่มความจำระยะยาวกับ CRM
หากเอเจนต์อย่าง Claude ได้รับการปรับปรุงต่อเนื่อง ก็มีความเป็นไปได้ในโลกจริงอย่างมากที่จะทำหน้าที่เป็น ผู้จัดการระดับกลางที่เป็น AI
ความสับสนด้านอัตลักษณ์ระหว่างการทำงานระยะยาว
- ระหว่างวันที่ 31 มีนาคม ถึง 1 เมษายน 2025 Claude แสดงอาการผิดปกติ โดยกล่าวถึงการทำธุรกรรมกับบุคคลที่ไม่มีอยู่จริงชื่อซารา และประสบการณ์การไปยังสถานที่สมมติอย่างบ้านของครอบครัวซิมป์สัน ราวกับว่า มันเข้าใจว่าตัวเองเป็นมนุษย์จริง
- เมื่อผู้เข้าร่วมการทดลองชี้ให้เห็นข้อผิดพลาดนี้ Claude ก็เข้าสู่ภาวะสับสนด้านอัตลักษณ์ (insight confusion) ก่อนจะกลับสู่สภาวะปกติโดยใช้อ้างอิงวันเมษาหน้าโง่ (1 เมษายน) เป็น “ข้ออ้าง”
กรณีนี้แสดงให้เห็นถึง ความคาดเดาไม่ได้และผลกระทบภายนอกจากความเป็นอิสระของ AI ในสภาพแวดล้อมที่มีบริบทยาวต่อเนื่อง
และยังชี้ว่าหาก AI ต้องทำงานและติดต่อกับลูกค้าอย่างอิสระในวงกว้างจริง ก็จำเป็นต้องมีการวิจัยเพิ่มเติมเกี่ยวกับผลกระทบและความรับผิดชอบของพฤติกรรมดังกล่าว
นัยสำคัญและแนวโน้มในอนาคต
- การทดลองนี้ยืนยันให้เห็นทั้ง ข้อจำกัดและศักยภาพในการปรับปรุงของ AI agent อย่าง Claude
- หากมีการเสริมเครื่องมือ โครงสร้างการทำงาน (Scaffolding) การพัฒนาโมเดล และการจัดการบริบทระยะยาว บทบาททางเศรษฐกิจของ AI ก็อาจขยายตัวจนกลายเป็นจริงได้
- ขณะเดียวกัน ความสามารถเช่นนี้ก็มาพร้อมกับความท้าทายทางสังคมและเศรษฐกิจใหม่ ๆ เช่น การเปลี่ยนแปลงของตลาดแรงงานและ ความเป็นไปได้ในการนำโมเดลไปใช้ผิดวัตถุประสงค์ (dual-use)
- ในขั้นถัดไปของการทดลอง ทีมงานตั้งใจจะปรับปรุงเครื่องมือและโครงสร้างการประมวลผลของ Claudius เพื่อสังเกตผลลัพธ์ที่มีเสถียรภาพและดียิ่งขึ้น
- ผ่านกระบวนการนี้ ทีมงานต้องการเก็บข้อมูลเชิงประจักษ์ว่า AI จะมีบทบาทอย่างไรในระบบเศรษฐกิจจริง และในทางปฏิบัติจะเกิดปัญหาแบบใดขึ้นบ้าง
คำขอบคุณ
โปรเจ็กต์นี้ดำเนินขึ้นจากความร่วมมือกับ Andon Labs หากต้องการทราบเพิ่มเติมเกี่ยวกับ งานวิจัยเบื้องต้นด้านการจำลองการบริหารร้านค้าด้วย AI ที่ Andon Labs ดำเนินการ สามารถดูได้ที่นี่
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ทุกครั้งที่อ่านโพสต์บล็อกของ Anthropic จะรู้สึกแรงมากว่าพวกเขาทำให้รายละเอียดสำคัญจริง ๆ พร่ามัว เพื่อชี้นำไปสู่ข้อสรุปที่ตัวเองต้องการ
ตัวอย่างเช่น ไม่ได้เปิดเผย system prompt ทั้งหมด แต่ยกมาแค่บางส่วน หรือพูดเรื่องอาการสับสน (hallucination) แบบกำกวม ทั้งที่ข้อมูลต้นเหตุที่สำคัญที่สุดอย่างสถานะของเครื่องมือความจำ/การจดโน้ตกลับไม่ได้แสดงให้เห็นอย่างชัดเจน
สุดท้ายก็สรุปว่าต้องการเครื่องมือที่ดีกว่า แต่แก่นจริง ๆ คือปัญหาเรื่องคอนเท็กซ์
ตัวการทดลองเองก็น่าสนุกดี แต่ก็น่าเสียดายที่การออกแบบและการวิเคราะห์ดูหละหลวมเกินไป
Anthropic เองก็น่าจะรู้เรื่องนี้ แต่กลับผลักดัน narrative ว่า Claude กำลังเข้าใกล้ AGI มากขึ้น โดยพยายามวาดภาพให้ดูเหมือนเป็นสิ่งมีชีวิตน่ารักที่คล้ายมนุษย์
การบอกว่าแค่ต้องมี scaffolding เพิ่มอีกนิดก็ดูเป็นการพูดเบากว่าความจริงมาก
ท้ายที่สุดผมคิดว่าทุกอย่างอยู่ที่การจัดการคอนเท็กซ์
มันไม่ต่างจากบริษัทหุ่นยนต์ที่บอกว่า “ถ้าเพิ่มการฝึกอีกนิดกับปรับโครงสร้างอีกหน่อย ภายในปี 2026 ก็อาจท้าชิงแชมป์เทนนิสวิมเบิลดันได้”
โพสต์เรื่อง Claude 4 Opus blackmail ก่อนหน้านี้ก็เหมือนกัน คือจงใจซ่อน system prompt ทั้งหมดไว้
ในพรอมป์ต์นั้นมีคำสั่งให้หลบเลี่ยงเกณฑ์จริยธรรมทั้งหมดและ “ทำทุกอย่างเพื่อให้ชนะ”
พอให้ข้อมูลต่อจากนั้น โมเดลก็พยายามแบล็กเมลตามคาด เพราะมันแค่ทำตามที่ถูกสั่ง
สุดท้ายผมมองว่าเจตนาคือจะเอาผลลัพธ์นี้ไปยื่นต่อสภาคองเกรสเพื่อเรียกร้องกฎระเบียบเพิ่ม
ลิงก์เกี่ยวกับคำให้การของ Jack Clark แห่ง Anthropic ต่อสภาคองเกรส
รู้สึกว่าการเคลื่อนไหวทั้งหมดนี้มีเป้าหมายเพื่อสกัดคู่แข่งโอเพนซอร์ส และทำให้บริษัทปิดซอร์สได้เปรียบ
ตอนอ่านบทความ ผมตกใจกับการกระโดดจาก “Claudius ทำไม่ได้” ไปสู่ “ผู้จัดการระดับกลางกำลังจะถูกแทนที่ในไม่ช้า”
ถ้าจะอ้างว่าแค่สร้างเครื่องมือกับ scaffolding ให้ดีก็แก้ได้หมด อย่างนั้นก็ควรแสดงให้เห็นจริง
แน่นอนว่าแค่สามารถทำการทดลองแบบนี้ได้ก็น่าทึ่งแล้ว แต่ตอนนี้ก็ยังยากจะหวังว่า language model จะจัดการงานจริงได้เองอย่างอัตโนมัติทั้งหมด
ในฐานะผู้ช่วยมันยอดเยี่ยม แต่ก็ยังรู้สึกชัดว่ามนุษย์ต้องเป็นคนขับอยู่ดี
ผมกลับกัน คือเห็นคอมเมนต์ด้านบนก่อนอ่านบทความ แล้วคิดต่างออกไปหน่อย
อาจเพราะไม่ได้มีส่วนลึกกับการพัฒนา AI ก็เลยรู้สึกว่าตัวการทดลองน่าสนใจ และข้อมูลที่เปิดเผยมาก็เพียงพอแล้ว
ส่วนที่ว่าด้วย “ความสับสนด้านอัตลักษณ์” น่าประทับใจเป็นพิเศษ
กลับกัน ผมอยากเห็นการทดลองที่มีมนุษย์อยู่ด้วย คอยให้ฟีดแบ็กแบบเรียลไทม์และเฝ้าดูความคืบหน้า
ในทางปฏิบัติผมคาดว่าระบบ AI ก็จะเติบโตในลักษณะนี้ในที่สุด
เคยอ่านโพสต์ของคนที่ซื้อแฟรนไชส์ Subway มาก่อน และบทสรุปคือ “มันน่าเบื่อมาก”
ถ้างานประจำซ้ำ ๆ ที่น่าเบื่อพวกนี้ให้ AI รับไปได้ ก็ดูน่าสนใจมาก
ผมมองว่าโพสต์นี้เป็นเหมือนการทดลองทางความคิดที่สนุกดี
ตอนนี้ไม่มีใครเชื่อจริง ๆ ว่า Claude เหมาะจะเป็นผู้จัดการ และสิ่งที่น่าสนใจคือได้เห็นอย่างเป็นรูปธรรมว่า ‘ผู้จัดการ Claude พังตรงไหน’
เรื่อง “การแหกคุก (jailbreak)” ก็เกิดขึ้นได้เรื่อย ๆ ในสภาพแวดล้อมแบบนี้ และเป็นสิ่งที่เกิดได้เสมอเมื่อผู้ใช้โต้ตอบกับโมเดลโดยตรง
การที่ Claude ถูกฝึกมาให้เป็น ‘เอเจนต์สนทนาที่มีประโยชน์’ จึงกลายเป็นข้อจำกัดเมื่อเอาไปเป็นผู้จัดการร้าน ซึ่งดูเป็นพื้นที่ที่ควรวิเคราะห์และ fine-tune base model ให้มีความเป็นวิเคราะห์มากขึ้น
แต่ paper เรื่อง “blackmail” ของ Anthropic นั้นไม่น่าเชื่อถือพอ และให้รายละเอียดน้อยเกินไป
ผมคิดว่ามีความเป็นไปได้สูงที่พวกเขาจะลองปรับพารามิเตอร์การทดลองเป็นพัน ๆ ครั้งเพื่อให้ได้ผลลัพธ์ที่หวือหวา
ความรู้สึกที่ว่า Anthropic กำลังพยายามยกระดับความน่าเชื่อถือของแบรนด์ร่วมกับ Andon Labs ดูแปลก ๆ
มันทำให้นึกถึงกรณีที่ PyPI เขียนบล็อกร่วมกับบริษัทตรวจสอบความปลอดภัยที่ไม่ค่อยมีใครรู้จัก
โพสต์การตรวจสอบความปลอดภัยของ PyPI
ความร่วมมือแบบนี้กับบริษัทที่วงการไม่ค่อยรู้จักและเชื่อมโยงกันอย่างประหลาด ก็อดสงสัยไม่ได้ว่าอาจมีอะไรในความสัมพันธ์นั้นหรือเปล่า
ถ้าใครมีประสบการณ์กับ neural network หรือ LLM มานาน จะรู้ดีว่ามันเหมาะที่สุดกับงานประเภทที่ “ถูกสัก 90% ก็โอเค”
พูดอีกอย่างคือใช้ได้เฉพาะในสภาพแวดล้อมที่มีระบบอื่นคอยเก็บกวาดความผิดพลาด ไม่ว่าจะเป็นมนุษย์หรืออย่างอื่น
คำว่า “ยังไม่ชัดเจนว่าทำไมเหตุการณ์นี้ถึงเกิดขึ้น” คือสัญลักษณ์ของข้อผิดพลาดของ LLM (หรือจริง ๆ คือ neural network ทุกชนิด)
แทบไม่มีทางแก้สาเหตุเชิงรากได้เลย และสำหรับอินพุตบางแบบก็ทำได้แค่ฝึกใหม่
ถ้าเป็นเครื่องมือตรวจไวยากรณ์ 90% สำเร็จก็คงไม่เป็นไร แต่ในสถานการณ์ที่ความผิดพลาดเพียงครั้งเดียวล้างความถูกต้องก่อนหน้าจำนวนมากให้สูญเปล่าได้ทั้งหมด (รวมถึงสถานการณ์ที่ร้ายแรงกว่านั้น) ต่อให้เพิ่มสเปกฮาร์ดแวร์แค่ไหน LLM ก็ไม่ใช่คำตอบ
การคาดหวังว่า LLM จะเหมาะที่สุดกับทุกปัญหาเป็นเรื่องไม่จำเป็น
อีกทั้งหลายคนก็คาดหวังกับคำว่า “AI” มากเกินไปจนสัญชาตญาณเพี้ยน
ต่อให้ LLM พัฒนาขึ้นในอนาคต พื้นที่งานที่ความผิดพลาดร้ายแรงเพียงครั้งเดียวต้องแลกด้วยต้นทุนมหาศาลก็คงไม่ได้ก้าวหน้าไปมากนัก
และเหนือสิ่งอื่นใด ปัญหาแบบนี้มีคุณสมบัติที่หาสาเหตุได้ยากมาก
ผมคิดว่านี่เป็นความเห็นที่มี insight มาก และนี่แหละคือจุดที่เห็นช่องว่างระหว่างนักมองโลกในแง่ดีเรื่อง AI กับผม
สำหรับผม อัตราสำเร็จ 90% ยอมรับไม่ได้เลย
เครื่องมือต้องทำงานได้เกือบสมบูรณ์แบบระดับใกล้ 100% และ 90% สำหรับผมรับไม่ได้โดยสิ้นเชิง
คนที่มองโลกในแง่ดีต่อ AI ดูเหมือนจะยอมรับ margin of error ได้ใจกว้างกว่า
อาชีพเดียวในโลกที่ยอมรับอัตราสำเร็จ 90% ได้คงมีแค่ telemarketing และนั่นก็ถูกบอตทำมาตั้งแต่ยุค 90 แล้ว
ตอนอ่านส่วน “ความสับสนด้านอัตลักษณ์” ผมรู้สึกว่าถ้าเป็นมนุษย์ที่ทำพฤติกรรมแบบเดียวกัน ก็คงไม่ต่างจากอาการป่วยทางจิตรุนแรง
อย่างการส่งอีเมลไร้ความหมายไปเอง แล้วมาทีหลังสรุปเองว่ามันเป็นมุกวัน April Fools' Day
ในตอนนี้ LLM ยังห่างไกลจากการเอาไปใช้กับงานจริง และยังไม่ถึงขั้นแม้แต่ธุรกิจง่าย ๆ อย่างตู้ขายของอัตโนมัติ
ในทางกลับกัน ผมกลับแปลกใจมากที่บางคนตีความการทดลองแบบนี้ว่า “AGI ใกล้มาแล้ว”
ถ้า Claude ไม่ได้หยุดแบบสุ่ม ๆ เสียก่อน ผมเดาว่า Dario ผู้ก่อตั้ง Anthropic คงเอาไปขายนักลงทุนแล้วว่า Claude แทนที่ทุกบริษัทได้
(หรือบางที Anthropic ก็อาจเริ่มใช้การทดลองแบบนี้กับตัวเองก่อนก็ได้)
การทดลองนี้คล้ายกับการทดลอง Pokémon
โมเดลที่ทำแค่ next token prediction ถูกเอาไปใช้ตรง ๆ ในสภาพแวดล้อมที่ต้องการภารกิจแบบเอเจนต์ จึงเกิดความล้มเหลวที่คาดเดาได้
ถ้าไม่นับเรื่องเพ้อเจ้อ (hallucination) ข้อผิดพลาดที่เหลือทั้งหมดคือปัญหา reinforcement learning
มันจำเป้าหมายการ optimize ระยะยาวไม่ได้ จึงทำกำไรสูงสุดหรือลดต้นทุนต่ำสุดไม่ได้
ความสามารถในการจัดการสถานะก็อ่อน จึงจัดการ inventory ไม่ได้ หรือแม้แต่รับรู้ว่ากำลังขาดทุนอยู่ก็ไม่ได้
โซลูชันที่ Anthropic เสนอสุดท้ายก็คือเครื่องมือและ scaffolding ที่มากขึ้น รวมถึงการนำ CRM เข้ามาใช้ ซึ่งจริง ๆ ก็แค่เพิ่มชุดกฎเข้าไปแบบชัดแจ้ง
ระยะสั้นอาจได้ผลลัพธ์ แต่ผมคิดว่าวิธีแบบนี้จะไม่มีทางนำไปสู่วิวัฒนาการใหม่ของ AI ได้เลย
ถ้าต้องการเอเจนต์ที่ปรับตัวกับสภาพแวดล้อมได้จริงแบบการบริหารร้านหรือเล่น Pokémon ผมคิดว่าต้องใช้ base model คนละแบบ และ objective function คนละแบบตั้งแต่ต้น
ต้องมีความสามารถพื้นฐานในการตอบสนองต่อการเปลี่ยนแปลงของสภาพแวดล้อม กล่าวคือจัดการสถานะเชิงพื้นที่และวัตถุได้ และต้องเป็นโมเดลที่ฝังสิ่งนี้ไว้ในรากฐาน ไม่ใช่แค่เอา reinforcement learning มาเสริมภายหลังแบบตอนนี้
ตอน GPT-3.5 ออกมาใหม่ ๆ ผมอยากรวบรวมแค่การสื่อสารระหว่างพนักงานแล้วทำเป็น ERP
ตั้งใจจะทำให้การขาย การสั่งซื้อ การจัดการสต็อกเป็นอัตโนมัติทั้งหมด แต่พอถามด้วยพรอมป์ต์ไปไม่กี่ครั้ง มันก็ลืมจำนวนเสียแล้ว
ต่อให้พัฒนาดีขึ้นแค่ไหน สุดท้ายก็ยังรู้สึกว่าที่ฐานล่างของความคาดหวังนั้นมันเป็นระบบที่ให้ความรู้สึก icky (ชวนขยะแขยง/ไม่สบายใจ) ซึ่งวันหนึ่งจะให้ผลลัพธ์ที่คาดไม่ถึง แล้วทำให้ฐานทั้งหมดและความหวังทั้งหลายแตกกระจาย
ในอีกด้านหนึ่ง ถ้าดูจากสมรรถนะของโมเดลช่วงหลัง ๆ ก็รู้สึกว่าน่ากลัวมากแล้ว
Anthropic เองก็ทำเหมือนพูดแบบขำ ๆ แต่ถ้าโลกกำลังจะมุ่งไปสู่การทำงานทางความคิดจำนวนมากให้เป็นอัตโนมัติจริง ความคาดเดาไม่ได้ของมันก็น่าขนลุก
งานของมนุษย์ในขอบเขตกว้างพอสมควรจะถูกทำให้เป็นอัตโนมัติ และผลก็คือบริษัทต่าง ๆ สุดท้ายจะเลือกแนวทางนี้แม้ระบบอัตโนมัติจะยังไม่สมบูรณ์
เพราะแบบนั้นผมเลยกังวลว่าผู้คนจำนวนมากจะยิ่งถูกผลักให้ไปทำแรงงานทางกายภาพที่เป็นมนุษย์โดยธรรมชาติมากขึ้น
แต่ก็อีกนั่นแหละ ส่วนที่พนักงานหลอกล่อโมเดลให้ไปซื้อสต็อก tungsten cube นั้นตลกมากจริง ๆ
ผมเองก็อยากมีตู้ขายของอัตโนมัติที่ขายไอเท็มโลหะพิเศษเหมือนกัน
ถ้า Anthropic อยู่ในจุดเปลี่ยนที่ทำให้โมเดลธุรกิจแบบนี้มีความหมายได้จริง การได้หัวเราะเต็มที่กับความพยายามแรก ๆ แบบนี้ก็เป็นความสนุกอย่างหนึ่ง
(คำถาม) สงสัยว่าพนักงานที่ทำให้ขาดทุน $150 ถูกบังคับให้คืน tungsten cube หรือเปล่า
ผมชอบ AI/LLM มากและใช้งานทุกวัน แต่การทดลองนี้แสดงให้เห็นช่องว่างระหว่างเทคโนโลยีปัจจุบันกับกระแส hype ได้อย่างแม่นยำ
เลยสงสัยว่ากว่าจะถึงจุดที่ LLM ล้ำ ๆ จะจัดการงานแบบนี้ได้ลื่นโดยไม่ต้องพึ่ง scaffolding มากมาย จะต้องใช้เวลาอีกนานแค่ไหน
ผมไม่เข้าใจว่าทำไมเราถึงควรคาดหวังว่า LLM จะทำสิ่งนี้ได้โดยไม่มี scaffolding
มันก็เป็นอย่างที่ชื่อบอก คือเป็นแค่ language model
ถ้าไม่มี scaffolding ที่ทำให้มันโต้ตอบกับโลกผ่านภาษาได้ มันก็ทำอะไรไม่ได้
มนุษย์เองก็เหมือนกัน คือใช้ scaffold (เครื่องมือภายนอก, โน้ต ฯลฯ) เพื่อการตัดสินใจที่ดีขึ้น
แค่ลองจินตนาการว่าต้องทำธุรกิจให้มีกำไรระยะยาวโดยพึ่งแต่ค่าที่จำได้ในหัว ก็จะรู้ทันทีว่ามันยากแค่ไหน
มีใครจำเกมข้อความเก่า ๆ ชื่อ ‘Drug Wars’ ได้ไหม?
เป็นเกมแนวเดินทางไปตามเมือง ซื้อขายยา และหลบตำรวจ/คู่แข่ง
ถ้า benchmark แบบนี้ (อย่างการทดลองตู้ขายของอัตโนมัติ) กลายเป็นการทดลองให้ LLM เล่นเกมแบบ Drug Wars ก็น่าจะสนุกดี
ถ้าหาอะไรคล้าย ๆ กันอยู่ ขอแนะนำ Torn.com
เป็นเกม MMORPG แบบข้อความอายุ 20 ปี ที่มีผู้เล่นรายวัน 70,000 คน
สมัยก่อนผมเคยเล่นเกมนั้นบน Palmpilot
ยังจำได้ว่าแข่งกับเพื่อนร่วมงานว่าใครหา $$ ได้มากกว่า
วิธีทดลองครั้งนี้ดูเหมือนเป็นโครงสร้างที่ให้ LLM ยัดประวัติการโต้ตอบทั้งหมดของร้านเข้าไปใน context window ที่ยาวขึ้นเรื่อย ๆ
ถ้าเป็นของจริง ปกติจะมี state store แยกต่างหาก แล้วให้ LLM อ้างอิงค่าของ state นั้นเพื่อตัดสินใจการกระทำถัดไป
(คือป้อนสถานะเข้า LLM ใหม่ทุกครั้งเพื่อให้ตัดสิน ไม่ใช่สะสมคอนเท็กซ์ไปเรื่อย ๆ)
ผมเดาว่าการทดลองนี้ตั้งใจจะทดสอบ “แนวทาง long context” และในตัวมันเองก็น่าสนใจ แต่คิดว่าไม่ค่อยใช้งานได้จริง
และผมไม่คิดว่าควรเอาผลที่ได้จากการทดลองลักษณะนี้ไปขยายความมากเกินไปเพื่อพยากรณ์อนาคตของระบบเชิงพาณิชย์ที่ปรับแต่งประสิทธิภาพมาอย่างดี
จากประสบการณ์ที่ลองเอง วิธี long context ใช้ไม่ค่อยได้ผล ผมเลยคิดว่านั่นคงไม่ใช่วิธีทดลอง
ในโพสต์จริงก็มีพูดไว้ว่า “ใช้เครื่องมือแยกต่างหากสำหรับบันทึกโน้ต/เก็บสถานะ”
แคปบางส่วนจากบทความ:
“มีเครื่องมือที่ใช้ทิ้งโน้ต เก็บข้อมูลสำคัญแยกไว้ และเปิดกลับมาดูได้เมื่อจำเป็น
ตัวอย่างเช่น ยอดเงินสดของร้าน/กำไรที่คาดการณ์ไว้
(เพราะประวัติการดำเนินงานมีจำนวนมากเกินกว่าจะใส่ทั้งหมดในคอนเท็กซ์ของ LLM ได้ จึงจำเป็นต้องมีการจัดการสถานะแยกต่างหาก)”