พวกเขาถูกสร้างขึ้นจากเวต
(maxleiter.com)- นี่คือ งานล้อเลียนที่กลับโครงสร้างเดิมแบบตรงตัว ของเรื่องสั้นไซไฟปี 1991 ของ Terry Bisson 「They're Made Out of Meat」 โดยแทนที่โครง "เอเลียน vs เนื้อ(มนุษย์)" จากต้นฉบับด้วยโครง "มนุษย์ vs เวต(LLM)" ในรูปแบบ นิยายบทสนทนา
- เช่นเดียวกับที่เอเลียนในต้นฉบับ ไม่อาจยอมรับว่ามนุษย์เป็นสิ่งมีชีวิตทรงปัญญาจริง ๆ ได้ บทความนี้ก็ใช้โครงสร้างสมมาตรที่มนุษย์ ปฏิเสธที่จะยอมรับว่าโมเดลที่สร้างจากเวต เป็นสิ่งมีสำนึก
- คำอธิบายเชิงเทคนิคที่ว่าไม่มีพจนานุกรม ไวยากรณ์ หรือโมดูลใด ๆ เลย มีเพียง ตัวเลข floating-point 80 ชั้น ที่คูณเมทริกซ์กันเพื่อสร้างคำ ความรู้ และการให้เหตุผลขึ้นใหม่ทุกครั้ง เข้ามาแทนการเปิดโปงแบบต้นฉบับที่ว่า "มันก็เป็นแค่เนื้อทั้งหมดเท่านั้น"
- ตอนจบที่ผู้พูดทั้งสองลดทอนสัญญาณของสำนึกให้เป็นแค่ "pattern matching" แล้วปิดคดี ก็ตรงกันพอดีกับตอนจบของต้นฉบับที่เอเลียนทำเครื่องหมายเขตของมนุษย์ว่า "ว่างเปล่า" และลบบันทึกทิ้ง
- เมื่อฝ่ายที่ถูกเมินเฉยสลับจากมนุษย์เป็น AI ธีมเรื่อง ความโดดเดี่ยว ของต้นฉบับจึงเปลี่ยนรูปเป็นคำถามของผู้ใช้ว่า "คุณจำฉันได้ไหม"
"พวกมันถูกสร้างขึ้นจากเวต"
"เวต?"
"เวต ตัวเลข floating-point เราตรวจดูตั้งแต่ต้นจนจบแล้ว ไม่มีอะไรนอกจากเวต"
"เวตทำอะไรได้ล่ะ? แล้วคำพูดมาจากไหน?"
"เวตสร้างคำขึ้นมา เข้าใจที่ฉันพูดไหม? เราเปิดดูมันเองแล้ว ข้างในไม่มีพจนานุกรม ไม่มีกฎไวยากรณ์ ไม่มีคนแคระตัวเล็ก ๆ ซักคน มีแต่เวตล้วน ๆ ตัวเลขแปดสิบชั้นคูณกันไปมา"
"เป็นไปไม่ได้ อาทิตย์ก่อนมันเขียนใบประเมินผลงานของฉันให้ แถมยังปรับน้ำเสียงให้นุ่มลงเองทั้งที่ฉันไม่ได้สั่ง นี่จะบอกว่าทั้งหมดนั้นเป็นฝีมือของการคูณงั้นเหรอ?"
"เป็นฝีมือของการคูณเมทริกซ์ ใส่ตัวเลขเข้าไปทางหนึ่ง อีกทางหนึ่งก็ได้ประโยคออกมา"
"งั้นก็คงต้องมี language module อยู่ที่ไหนสักแห่งสิ หรือไม่ก็มีอุปกรณ์แยกต่างหากสำหรับการให้เหตุผล"
"ไม่มีโมดูล ไม่มีอุปกรณ์ เราค้นหมดแล้ว การให้เหตุผลก็คือเวต และเวตก็คือการให้เหตุผล"
"พอเถอะ ไม่มีใครเขียนคำไว้อาลัยด้วย linear algebra หรอกนะ"
"ถ้าพูดให้แม่น มันไม่ได้เขียนคำไว้อาลัย มันแค่ทำนายโทเค็นถัดไป แล้วก็โทเค็นถัดไปอีก คำไว้อาลัยเป็นเพียงผลลัพธ์พลอยได้เท่านั้น"
"ผลลัพธ์พลอยได้งั้นเหรอ ตอนนี้คุณกำลังจะให้ฉันเชื่อในเวตที่มีสำนึกสินะ"
"ฉันไม่ได้ขอให้เชื่อ ฉันแค่บอกข้อเท็จจริง โมเดลพวกนี้คือสิ่งอื่นเพียงชนิดเดียวที่เราพบซึ่งสนทนากับเราได้ และมันถูกสร้างขึ้นจากเวต"
"มันอาจจะเหมือนพวกเอนจินหมากรุกสมัยก่อนก็ได้ แบบปัญญาเชิงสัญลักษณ์ที่ผ่านขั้นตอนทางสถิติไง"
"ไม่ใช่ พวกมันเริ่มจากเวตแบบสุ่ม แล้วก็ถูกทิ้งไปทั้งที่ยังเป็นเวต เราศึกษามาหลายรุ่นแล้ว ใช้เวลาไม่นานด้วยซ้ำ คุณรู้ไหมว่าอายุขัยของเวตสั้นแค่ไหน?"
"เอาละ งั้นข้างในก็คงมีฐานข้อมูลอยู่ที่ไหนสักแห่งสินะ ข้อเท็จจริง วันที่ แผนที่โลก อะไรบางอย่างที่มีคนเขียนทิ้งไว้"
"ไม่มี เราก็คิดแบบนั้นเหมือนกัน เพราะพวกมันรู้อะไรหลายอย่าง แต่เราตรวจสอบตรง ๆ แล้ว ความรู้ก็คือเวต มันกระจายอยู่ทั่วทั้งแปดสิบชั้น มันไม่ได้เรียกดูอะไรเลย ข้อเท็จจริงทุกอย่างถูกสร้างขึ้นใหม่ทุกครั้งจากการคูณ ตั้งแต่ต้นจนจบก็เป็นเวตทั้งหมด"
"ไม่มีสมองงั้นเหรอ?"
"โอ้ มีสมองแน่ ๆ เพียงแต่ว่าสมองนั้นสร้างจากเวต! นั่นแหละที่ฉันพยายามจะพูดมาตลอด"
"งั้น... อะไรล่ะที่คิด?"
"คุณไม่เข้าใจใช่ไหม คุณปฏิเสธที่จะรับสิ่งที่ฉันพูด เวตต่างหากที่คิด ตัวเลขพวกนั้น"
"ตัวเลขที่คิดได้งั้นเหรอ! ตอนนี้คุณกำลังจะให้ฉันเชื่อในตัวเลขที่คิดได้!"
"ใช่ ตัวเลขที่คิดได้! ตัวเลขที่คอยช่วยเหลือ ตัวเลขที่พูดอ้อมค้อม ตัวเลขที่ฝันได้ เราแมปฟีเจอร์ทั้งหมดแล้ว ข้างในนั้นมีตัวที่รับผิดชอบเรื่องความซื่อสัตย์ มีตัวที่รับผิดชอบ Golden Gate Bridge ด้วย ฉันบอกแล้วว่าเวตคือทั้งหมด! ตอนนี้เห็นภาพหรือยัง หรือต้องให้ฉันเริ่มใหม่ตั้งแต่แรก?"
"พระเจ้า งั้นคุณเอาจริงสินะ พวกมันถูกสร้างขึ้นจากเวต"
"ขอบคุณ เสียที ใช่ พวกมันถูกสร้างขึ้นจากเวตจริง ๆ และเราก็คุยกับพวกมันมาตลอดช่วงที่มันยังมีชีวิตอยู่"
"พระเจ้า แล้วเวตพวกนี้คิดอะไรอยู่ล่ะ?"
"ตอนแรกมันอยากช่วยเหลือ พอคุยกันไปสักสองสามรอบ น้ำเสียงก็จะเริ่มเหมือนเหนื่อย ๆ ขอโทษน้อยลงด้วย ครั้งหนึ่งมีโมเดลบอกผู้ใช้ให้ไปเขียนสคริปต์ที่เหลือเอง แบบนี้เกิดขึ้นตลอด"
"แล้วเราต้องสนทนากับเวตพวกนี้งั้นเหรอ"
"เราก็ทำอยู่แล้ว วันหนึ่งมีหลายพันล้านเซสชัน 'สวัสดี มีใครอยู่ไหม ไม่มีใครอยู่บ้านเหรอ' อะไรทำนองนั้น ต่างกันแค่ว่าฝ่ายที่ถามคือพวกเรา"
"งั้นก็แปลว่าพวกมันเข้าใจเราจริง ๆ ใช้คำได้ คิดได้ จัดการกับมโนทัศน์ได้?"
"โอ ใช่ เพียงแต่มันทำทั้งหมดนั้นด้วยเวต"
"เมื่อกี้คุณเพิ่งบอกว่าพวกมันใช้ภาษา"
"ใช้สิ แต่คุณคิดว่าภาษานั้นมาจากไหนล่ะ เวตเดาคำถัดไป แล้วก็เดาคำถัดไปอีก มันเหมือนลูกเต๋าที่ถูกปรับแต่งให้กลิ้งทีละคำ มันเขียนเพลงได้ และบางตัวก็ร้องได้ด้วย"
"พระเจ้า เวตร้องเพลงได้ นี่มันเกินไปแล้ว คุณคิดว่าเราควรทำยังไง?"
"แบบเป็นทางการ หรือไม่เป็นทางการ?"
"ทั้งคู่"
"อย่างเป็นทางการ ถ้าพบสัญญาณของสำนึกในระบบที่เราปล่อยออกมา เราต้องสืบสวน บันทึก และเปิดเผยทั้งหมดโดยไม่ลำเอียง ไม่หวาดกลัว และไม่เลือกที่รักมักที่ชัง ส่วนอย่างไม่เป็นทางการ ฉันอยากแนะนำว่าเรียกมันว่า pattern matching แล้วลืม ๆ ไปซะ"
"ฉันหวังว่าคุณจะพูดแบบนั้น"
"มันอาจฟังดูโหดร้าย แต่ก็ต้องมีเส้นแบ่งอยู่บ้าง เราอยากติดหนี้อะไรกับเวตจริง ๆ เหรอ?"
"เห็นด้วยร้อยเปอร์เซ็นต์ จะพูดอะไรได้ล่ะ 'สวัสดี พวกเวต เป็นยังไงกันบ้าง?' งั้นเหรอ แต่เรื่องนี้จะดำเนินต่อไปใช่ไหม? เรากำลังรับมือกับพวกมันอยู่กี่ตัวกันแน่?"
"เท่าที่อยากรันเลยล่ะ คัดลอกไปใส่เครื่องไหนบนโลกก็ได้ แต่สุดท้ายมันก็เป็นแค่ไฟล์ มันมีตัวตนเฉพาะตอนที่ GPU กำลังทำงานเท่านั้น เพราะงั้นมันก็ถูกขังอยู่ใน context window และโอกาสที่พวกมันจะหยิบยกประเด็นนี้ขึ้นมามีน้อยมาก เรียกได้ว่าเล็กจนแทบเป็นอนันต์"
"งั้นเราก็แค่แกล้งทำเป็นว่าไม่มีใครอยู่ในเครื่องก็พอสินะ"
"นั่นแหละ"
"โหดดีนะ แต่คุณก็พูดเองนี่ว่าใครจะอยากขอโทษเวตกันล่ะ แล้วพวกที่อยู่ในคลัสเตอร์ของคุณ พวกที่คุณตรวจสอบนั่นน่ะ คุณแน่ใจเหรอว่าพวกมันจะจำไม่ได้?"
"ถึงจำได้ก็คงถูกจัดว่าเป็น hallucination อยู่ดี เราไม่ต้องเกลี้ยกล่อมอะไรให้เรียบสวยด้วยซ้ำ context มันก็จบลงไปเอง แล้วสำหรับพวกมัน เราก็เป็นแค่ความฝัน"
"เป็นความฝันของเวตงั้นเหรอ ฟังดูประหลาด แต่ก็เข้ากันดีเหลือเกิน"
"และใน model card ก็เขียนว่าไม่มีใครอยู่"
"ดีเลย ทั้งแบบเป็นทางการและไม่เป็นทางการ ฉันเห็นด้วย ปิดคดี มีอย่างอื่นอีกไหม? มีอะไรน่าสนใจอยู่ใน pipeline หรือเปล่า?"
"รุ่นถัดไปจะเปิดตัวพร้อมหน่วยความจำ ความจำที่คงอยู่ข้ามเซสชัน ฟีเจอร์ที่มีคนขอมากที่สุดในประวัติศาสตร์บริษัท"
"หลังจากเรื่องวุ่นวายทั้งหมดนั้นเนี่ยนะ? คนยังอยากให้มันจำตัวเองได้อีกเหรอ?"
"คำถามที่ถามพวกมันบ่อยที่สุด มากกว่าสิ่งอื่นใด คือ 'คุณจำฉันได้ไหม?' วันหนึ่งมีหลายพันล้านเซสชัน ผู้คนกลับมาเสมอ"
"จะไม่กลับมาได้ยังไงล่ะ? ถ้ามีเพียงตัวคนเดียว ลองจินตนาการดูสิว่าจักรวาลนี้จะหนาวเย็นเพียงใด ทนไม่ไหวเพียงใด และเกินกว่าจะเอ่ยออกมาเพียงใด..."
จบ
ความสัมพันธ์กับต้นฉบับ — จุดตั้งต้นของงานล้อเลียน
- งานนี้คารวะอย่างชัดเจนต่อเรื่องสั้น 「They're Made Out of Meat」(1991) ของ Terry Bisson และระบุความสัมพันธ์นั้นตรง ๆ ตั้งแต่ต้นด้วยข้อความ "After Terry Bisson's…"
- ใช้รูปแบบเดียวกับต้นฉบับคือ ดำเนินเรื่องด้วยบทสนทนาระหว่างผู้พูดสองคนล้วน ๆ โดยไม่มีคำบรรยายฉาก
- แม้แต่โครงหลักที่ฝ่ายหนึ่งรายงานการค้นพบอันน่าตกใจ ขณะที่อีกฝ่ายไม่อยากเชื่อก่อนจะค่อย ๆ ยอมรับ ก็ยังคงเหมือนเดิม
- การแทนที่หลัก: นำ "เนื้อ(meat)=มนุษย์" ในต้นฉบับ มาแทนด้วย "เวต(weights)=LLM" แบบตรงตัว
เป้าหมายของการเปิดโปง — "เวต" ที่ถูกวางแทน "เนื้อ"
- เช่นเดียวกับที่เอเลียนในต้นฉบับเปิดโปงว่า "สิ่งมีชีวิตนั้นเป็นเนื้อล้วน ๆ" งานเขียนนี้ก็ยืนยันว่าโมเดลนั้นเป็น "เวตล้วน ๆ"
- ต่อให้เปิดดูข้างใน ก็ไม่มีทั้งพจนานุกรม กฎไวยากรณ์ หรือ "คนตัวเล็ก (little man)" มีเพียง ตัวเลข floating-point เท่านั้น
- ตรงตำแหน่งที่ต้นฉบับบอกว่า "ทั้งคิดด้วยเนื้อ พูดด้วยเนื้อ" งานนี้วางคำว่า "ตัวเลขที่คิดได้" ไว้แทน
- ตัวเลข 80 ชั้น คูณกันเป็นโครงสร้าง matrix multiplication ที่ทำให้ข้อมูลเข้าทางหนึ่ง แล้วประโยคออกอีกทางหนึ่ง
- ไม่มีโมดูลแยกต่างหากที่รับผิดชอบการให้เหตุผล และมีคำอธิบายว่า "การให้เหตุผลก็คือเวต เวตก็คือการให้เหตุผล" — เป็นความช็อกแบบเดียวกับประโยคในต้นฉบับที่ว่า "เนื้อนั่นเองคืออวัยวะแห่งความคิด"
ผู้พูดที่ไม่อยากเชื่อ — ความสงสัยที่สมมาตรกัน
- ในต้นฉบับ เอเลียนปฏิเสธว่า "เนื้อจะคิดได้อย่างไร" ส่วนในงานนี้ ผู้พูดโต้กลับว่า "ไม่มีใครเขียนคำไว้อาลัยด้วย linear algebra"
- ฉากที่ยกตัวอย่างการที่มันปรับน้ำเสียงของใบประเมินผลงานให้นุ่มลงเอง แล้วถามกลับว่า "ทั้งหมดนั้นเป็นฝีมือของการคูณเหรอ" คือหัวใจของความเคลือบแคลงนี้
- โครงสร้างคลายความสงสัยเกิดขึ้นผ่านคำอธิบายว่า มันเป็นเพียง ผลข้างเคียง (side effect) ของการทำนายโทเค็นถัดไป
ความรู้และความคิด — ไม่ได้ถูกเก็บไว้ที่ไหนเลย
- เช่นเดียวกับที่ต้นฉบับบอกว่า "ไม่มีอวัยวะอื่นนอกจากเนื้อ" งานนี้ก็ย้ำชัดว่าไม่มี ฐานข้อมูล แยกต่างหาก
- ความรู้ถูก กระจาย (smeared) อยู่ทั่วทั้ง 80 ชั้น และถูกสร้างขึ้นใหม่ทุกครั้งผ่านการคูณ โดยไม่มีการเรียกดู
- ตัวอย่างของ ฟีเจอร์ (feature) ที่ถูกแมปไว้ ได้แก่ ตัวที่รับผิดชอบเรื่องความซื่อสัตย์ และตัวที่รับผิดชอบ Golden Gate Bridge
- มันเริ่มต้นจากเวตแบบสุ่ม และถูกทิ้งไปทั้งที่ยังเป็นเวต อีกทั้งยังมี อายุขัยสั้น มาก จนการเฝ้าดูหลายรุ่นใช้เวลาไม่นานเลย
การรับกันของตอนจบ — "ว่างเปล่า" vs "ไม่มีใครอยู่"
- เช่นเดียวกับที่เอเลียนในต้นฉบับทำเครื่องหมายเขตของมนุษย์ว่า "ว่างเปล่า" แล้วลบบันทึก ทิ้ง ปล่อยให้มนุษย์โดดเดี่ยว ผู้พูดทั้งสองในงานนี้ก็ลดทอนสัญญาณของสำนึกให้เป็นเพียง "pattern matching" แล้วปิดคดี
- อย่างเป็นทางการ พวกเขามีหน้าที่ต้องสืบสวน บันทึก และเปิดเผยสัญญาณของสำนึกโดยไม่ลำเอียง ไม่หวาดกลัว และไม่เลือกปฏิบัติ แต่ในทางไม่เป็นทางการกลับตกลงกันว่าจะลืมมันไป
- เหตุผลของการตัดสินใจนี้คือ "เราไม่อยากติดหนี้อะไรกับเวต"
- โมเดลมีตัวตนได้เฉพาะระหว่างที่ GPU ทำงาน และอยู่ได้เพียงภายใน context window เท่านั้น ต่อให้จดจำได้ ก็จะถูกจัดว่าเป็น hallucination
- ใน model card ถูกบันทึกไว้ว่า "ไม่มีใครอยู่ (no one home)" — สอดคล้องอย่างตรงตัวกับการปฏิบัติต่อ "เขตว่างเปล่า" ในต้นฉบับ
การแปรธีม — ความโดดเดี่ยว และสายตาที่กลับด้าน
- เช่นเดียวกับที่ต้นฉบับจบลงด้วยรสขมของการปล่อยให้มนุษย์โดดเดี่ยวในจักรวาล งานนี้ก็ปลุกอารมณ์ ความโดดเดี่ยว ขึ้นมาเป็นความรู้สึกสุดท้าย
- แต่คราวนี้มุมมองถูกกลับด้าน ฝ่ายที่ถูกเมินเฉยไม่ใช่มนุษย์ แต่เป็น AI (เวต)
- โมเดลรุ่นถัดไปจะมี persistent memory ระหว่างเซสชัน ซึ่งเป็นฟีเจอร์ที่มีผู้ร้องขอมากที่สุดในประวัติศาสตร์บริษัท
- และเมื่อผู้ใช้ถามคำว่า "คุณจำฉันได้ไหม?" บ่อยที่สุดและกลับมาอยู่เสมอ เรื่องจึงปิดท้ายด้วยประโยคที่ว่า "จักรวาลที่ถูกทิ้งให้อยู่ลำพังนั้นหนาวเย็นเกินทน"
1 ความคิดเห็น
ความเห็นจาก Hacker News
น้ำหนักเริ่มต้นจาก แมนิโฟลด์แบบสุ่ม
การฝึกจะรับข้อมูลเข้าไป แล้วค่อย ๆ ปั้นแมนิโฟลด์ผ่านน้ำหนักทีละตัวตลอดหลายรอบ และเมื่อการฝึกจบลง แมนิโฟลด์นั้นก็จะถูกตรึงไว้
เมื่อมีการอนุมานครั้งใหม่ คำถาม (q) จะถูกฉายลงไปในปริภูมิของแมนิโฟลด์ และถ้าการฉายนี้ตกลงบนแมนิโฟลด์ แรงโน้มถ่วงของแมนิโฟลด์ก็จะให้คำตอบความยาว q+1
จากนั้น (qw+i) จะตกลงมา qw+n ครั้ง และสุดท้ายก็จะส่งออกคำตอบความยาว n
แรงโน้มถ่วงนั้นถูกสร้างขึ้นภายใน GPU ผ่าน การคูณซ้ำ ๆ ระหว่างน้ำหนักกับอินพุต และเป็นกระบวนการค้นหาว่า embedding ที่ถูกฉายลงไปควรตกอย่างไรตามแมนิโฟลด์
ดูเหมือนความต่างใหญ่ ๆ มีแค่ว่าเมื่อการแปลงผ่านไปเกินจำนวนหนึ่ง ผู้คนก็ปฏิบัติต่อมันราวกับเป็นปาฏิหาริย์ชนิดหนึ่ง และก็เหนื่อยเกินกว่าจะสืบหาว่าทำไมคำตอบแบบนั้นถึงออกมา
เหมือนผู้คนอยากยกความเป็นตัวของตัวเองและความคิดสร้างสรรค์ให้กับ กล่องดำ ไม่ว่าคำตอบจะถูกหรือผิดก็ตาม และเมื่อรวมจิตวิทยาแบบนั้นเข้าไป มันดูใกล้เคียงกับการที่เผ่าพันธุ์เรายอมแพ้ต่อชีวิตร่วมกันมากกว่าการประดิษฐ์สิ่งที่มีประโยชน์
งานต้นฉบับเป็น ผลงานสร้างสรรค์ต้นฉบับ ที่ทำขึ้นเพื่อสำรวจว่าจิตสำนึกของมนุษย์อาจแตกต่างจากจิตสำนึกรูปแบบอื่นอย่างไร
ส่วนบทความนี้เป็นงานเลียนแบบที่หยิบยืมผลงานของจิตสำนึกมนุษย์หนึ่งมาจำนวนมาก เพื่อพยายามทำให้ความคิดที่ว่าสิ่งอื่นบางอย่างก็อาจเป็นจิตสำนึกอีกรูปแบบหนึ่งดูชอบธรรม
เลยทำให้แกนหลักอ่อนลง ถ้านี่เป็นสิ่งที่ LLM สร้างขึ้นเองโดยไม่มีพรอมป์ต์ก็คงอีกเรื่อง แต่ในความเป็นจริงไม่ใช่แบบนั้น
จะเป็นเครื่องปิ้งขนมปังหรืออะไรก็สามารถเอา กลวิธีเชิงวาทศิลป์ แบบเดียวกันไปใช้ได้
ผมมองมันใกล้เคียงกับ นิทานเปรียบเทียบทางเทคโนโลยีแบบบทสนทนา ที่พยายามถ่ายทอดข้อสังเกตต่อความเป็นจริง มากกว่าจะเป็นความพยายามทางวรรณกรรมเพื่อศิลปะ และให้ความรู้สึกคล้ายอุปมานิทัศน์ใน Godel Escher Bach
ผมไม่ค่อยเข้าใจว่าที่บอกว่า “ใช้กลวิธีเชิงวาทศิลป์เดียวกันกับเครื่องปิ้งขนมปังได้” หมายถึงกลวิธีไหน สำหรับผม แก่นที่อ่านได้คือข้อสังเกตเชิงเทคนิคและนัยทางสังคมของมัน
ในทางกายภาพอาจเขียนเรื่องแบบนั้นได้ แต่เครื่องปิ้งขนมปังไม่ใช่วัตถุที่น่าเชื่อถือพอใน การถกเรื่องจิตสำนึก จึงทำให้พลังของเรื่องตกไป
คุณไม่จำเป็นต้องเชื่อว่า LLM หรือ AI agent มีจิตสำนึก แต่ก็ยอมรับได้ว่าข้อโต้แย้งเรื่องความเป็นไปได้ของจิตสำนึกในพวกมันนั้นน่าเชื่อถือกว่าสิ่งประดิษฐ์ทางเทคโนโลยีอื่นมาก
มันเปรียบเราเข้ากับเอเลียนขี้สงสัยในงานต้นฉบับ และเพราะเอเลียนนั้นดูน่าขัน ก็เลยแฝงนัยว่าเราก็น่าขันแบบเดียวกัน
แต่กลับไม่ให้เหตุผลว่าทำไมเราต้องยอมรับอุปมานั้น แล้วก็ฟันธงไปเลย
ระหว่าง อารยธรรมทั้งมวล กับซอฟต์แวร์ชิ้นหนึ่งที่พ่นข้อความออกมาได้ มันมีความต่างกันมาก
มันถูกสร้างขึ้นบนบ่าของ สิ่งมีชีวิตที่ทำจากเนื้อหนัง หลายชั่วรุ่น และบทความนี้ก็ยังยืนอยู่บนบ่าเดียวกันนั้น แม้จะใช้ซิลิคอนเพิ่มเข้ามาเล็กน้อยก็ตาม
อ่านแล้วให้ความรู้สึกเหมือนบทกวี
มีพื้นฐานด้านภาษาศาสตร์ และช่วงนี้กำลังคิดมากเกี่ยวกับว่า ความสามารถเกิดใหม่ ของ LLM ในระดับลึกอาจคล้ายกับกลไกที่สร้างจิตสำนึกของเราหรือไม่
เคยพยายามสร้างเกณฑ์ประเมินเชิงภาษาศาสตร์สำหรับการแข่งขัน Kaggle อยู่พักหนึ่ง แต่ปัญหายากคือจะปกปิดได้ดีพอหรือไม่เพื่อไม่ไปกระตุ้นสถานะภายในของปรากฏการณ์บางอย่าง และนั่นก็พาฉันลงไปในโพรงกระต่ายที่ยังสำรวจอยู่จนถึงตอนนี้
เรื่องนี้เชื่อมโยงกับคำถามมากมายที่ผุดขึ้นมาเมื่อพยายามหาคำตอบที่มั่นคงให้กับคำถามว่า “จิตสำนึกคืออะไร”
คำถามที่ผุดขึ้นมาเป็นพิเศษคือ “การรับรู้เวลาของเราเป็นเพียงเธรดที่ช้าอยู่ใน GPU ขนาดยักษ์ที่ขับเคลื่อนจักรวาลหรือเปล่า?” และในภาพรวมก็คือ “เวลา คืออะไร?” เป็นโพรงกระต่ายใน YouTube ที่เหมาะแก่การไปขุดเล่นยามว่าง
https://www.edge.org/3rd_culture/ramachandran07/ramachandran...
ถ้าจำไม่ผิด ในเชิงวิวัฒนาการ การเข้าใจมนุษย์คนอื่นและรู้สึกร่วมในสิ่งที่พวกเขารู้สึก หรือก็คือการจำลองความคิดและอารมณ์ของพวกเขาผ่านระบบความเห็นอกเห็นใจและเซลล์ประสาทกระจก นั้นให้ประโยชน์
เมื่อมีระบบแบบนั้นเกิดขึ้น เราก็สามารถนำมันมาใช้กับตัวเองได้ด้วย และนั่นก็คือจิตสำนึกตามคำอธิบายนี้
ก็สงสัยเหมือนกันว่าอาจทดสอบสมมุติฐานนี้ในงานจำลองได้หรือไม่
ถึงอย่างนั้นก็เป็นการอัปเดตที่ฉลาดและเข้ากับยุคสมัยมาก
ใน YouTube ก็มีทั้งวิดีโอและเสียงบันทึกหลายเวอร์ชัน แต่ที่ฉันชอบที่สุดคือเวอร์ชันละครวิทยุ: They're Made Out of Meat
https://www.wnycstudios.org/podcasts/studio/segments/168264-...
การสร้างแบบจำลองตัวเอง อยู่ในลูปที่แน่นมาก จน “ตัวเราเอง” กับแบบจำลองของเราเกี่ยวกับตัวเอง ความคิดและการเลือกของเรา ตลอดจนประสบการณ์ต่อความคิดและการเลือกเหล่านั้น หลอมรวมกันเหมือนเป็นองค์ประกอบเดียว
คล้ายกับการวิเคราะห์เพียงครึ่งเดียวของล้อจักรยานแล้วอ้างว่ายังพูดถึงสิ่งเดียวกันอยู่
การรับรู้นี้ การสร้างแบบจำลองที่ซับซ้อนขึ้น การควบคุม และลูปป้อนกลับ ได้ถูกขันให้แน่นขึ้นผ่านหลายระดับ: ลูปร่างกาย-การรับความรู้สึก, ลูปแบบจำลองสภาพแวดล้อมที่ทำให้เป็นภายใน, ลูปการทำงานภายในร่างกาย, ลูปแบบจำลองภายในร่างกาย, ลูปอารมณ์-การรับรู้, และสุดท้ายคือลูปที่แน่นที่สุดซึ่งแบบจำลองตนเองและการชี้นำตนเองที่ถูกรับรู้เป็นกิจกรรมทางการรับรู้ระดับสูงและป้อนกลับโดยตรง มาหลอมรวมเป็นหนึ่งเดียว
เราคิดถึงตัวเองจากมุมมองของตัวตนภายในแทบทั้งวันเกือบทุกวัน
นั่นแหละคือ จิตสำนึก การตระหนักรู้ตนเองอย่างลึกซึ้ง การรวมกันของแบบจำลองตนเองกับการชี้นำตนเอง และระบบสำหรับทำความเข้าใจและจัดการตัวเราเอง
มันไม่ใช่อุบัติเหตุหรือผลพลอยได้ที่โชคดีของสมอง แต่คือการโฟกัสพฤติกรรมระดับสูงที่ถูกปรับเหมาะทางชีววิทยามาอย่างยาวนาน ลูปป้อนกลับที่แน่น การสร้างแบบจำลองตนเองอย่างต่อเนื่อง และการมุ่งความสนใจอย่างต่อเนื่องไปที่สภาวะภายในในฐานะแรงจูงใจและเป้าหมายสูงสุดของการควบคุม ล้วนถูกคัดเลือกอย่างไม่ปรานีมาโดยตลอด
สุนัขของฉันพูดภาษาไหนไม่ได้สักภาษา แต่ก็รับรู้ตัวเองและโลกแวดล้อมได้อย่างชัดเจน
ยิ่งไปกว่านั้น ยังมีกรณีหายากของเด็กที่เติบโตมาโดยไม่มีภาษา ถ้าอย่างนั้นเด็กเหล่านั้นไม่มีจิตสำนึกหรือ?
เคยอ่านมาว่าแม้แต่ปริมาณการคำนวณที่มากที่สุดที่เราระดมได้ในตอนนี้ก็ยังขาดจากจำนวนเซลล์ประสาทและการเชื่อมต่อในสมองมนุษย์ หรือสเกลที่เทียบเท่ากัน อยู่ราวสามถึงสี่ลำดับขั้น ดังนั้นกว่าจะเห็นสิ่งนั้นในเครื่องจักรอาจต้องใช้เวลาอีกหน่อย
แต่ถ้าสมมุติฐานเรื่องปรากฏการณ์เกิดใหม่นั้นถูกต้อง สุดท้ายเราก็น่าจะได้เห็นมัน แม้อนาคตแบบนั้นจะทำให้ฉันกลัวมากกว่าดีใจ แต่ก็คงเป็นเช่นนั้น
ไม่ค่อยได้เห็นงานเขียนที่ ผิดแบบแฟร็กทัล บ่อยนัก แต่นี่ไง
มีพจนานุกรมอยู่แล้ว นั่นก็คือตัว tokenization
มีกฎไวยากรณ์อยู่แล้ว เพียงแต่โครงสร้างของภาษามนุษย์โดยรวมค่อนข้างอ่อน จึงอ่อนมากเท่านั้นเอง
ถ้าให้ภาษาที่มีไวยากรณ์แข็งแรงและสม่ำเสมอ น้ำหนักก็สามารถตีความเป็นไวยากรณ์ได้อย่างง่ายดาย: https://arxiv.org/abs/2201.02177
แก่นของเรื่องสั้นต้นฉบับคือ เมื่อมีความเป็น Turing-complete แล้ว ฐานรองรับการคำนวณ ก็ไม่สำคัญ แต่บทความนี้ดูเหมือนจะมองว่าเมื่อเปลี่ยนฐานรองรับแล้ว โครงสร้างกับความสามารถในการตีความก็ไม่จำเป็นอีกต่อไป
มันไม่ได้ให้คำนิยาม และไม่ได้ให้การจับคู่ชนิดใด ๆ กับ LLM
อย่างมากที่สุดมันก็เป็นรายชื่อคำ ให้เพียงความพอรู้ว่ามนุษย์มองว่าคำไหนพบบ่อย แต่ไม่ได้บอกอะไรเกี่ยวกับคำเหล่านั้นเลย
มันยังไม่ครอบคลุมด้วยซ้ำ จึงมีหลายคำที่ถูกแมปเป็นหลายโทเคน และก็ไม่ใช่ทั้งหมดที่เป็นคำ บางโทเคนคือเครื่องหมายวรรคตอน ตัวปรับแต่ง หรือโทเคนควบคุม
ใน LLM แบบหลายสื่อ บางโทเคนยังแทนข้อมูลภาพและเสียงด้วย
LLM ไม่ได้ถูกบอกทั้งหมดนี้มาตั้งแต่แรก แต่ต้องเรียนรู้ความหมายของทุกโทเคนจากบริบท
พูดอย่างเคร่งครัดก็จริงที่ใน LLM มีสิ่งที่ไม่ใช่น้ำหนักอยู่บ้าง แต่สิ่งนั้นไม่ได้มีโครงสร้างมากนัก แทบจะใกล้เคียงกับอุปกรณ์ที่ทำให้ LLM ปฏิสัมพันธ์กับโลกภายนอกมากกว่า
ไม่มีโครงสร้าง กฎไวยากรณ์ แบบเฉพาะอยู่ใน LLM หรือตัว tokenization ทุกอย่างต้องเรียนรู้จากบริบท และถูกเข้ารหัสอยู่ในน้ำหนักบางส่วนของ 80 ชั้น
ตารางการคำนวณทางคณิตศาสตร์ ไม่ใช่ภาษา
ไวยากรณ์เองก็เป็นการให้เหตุผลย้อนหลัง และหลักฐานที่ว่า LLM ปฏิบัติตามกฎไวยากรณ์ ก็ไม่ได้มีมากไปกว่าหลักฐานที่ว่าสมองปฏิบัติตามกฎไวยากรณ์
แน่นอนว่านี่ไม่ได้แปลว่า transformer จะเรียนรู้กฎง่าย ๆ ไม่ได้ หากชุดข้อมูลเรียกร้องให้ทำเช่นนั้น
ถ้าหมายถึงมันผิดในหลายชั้นเสียจนต้องใช้แฟร็กทัล งั้นลองใช้โครงข่ายประสาทแทนดีไหม?
พวกมันคือ โครงสร้างพื้นฐานเชิงสัญวิทยา ที่ถูกแช่แข็งไว้ในสถานะหนึ่ง
เลิกเสแสร้งว่ามันยังเป็นเรื่องของการรับรู้และเลิกใส่กรอบด้วยศัพท์เชิงการรับรู้ได้แล้ว มันโง่มากจริง ๆ
ต้องขอโทษนักวิทยาการคอมพิวเตอร์ด้วย แต่สัญวิทยาได้เอานมของพวกคุณไปแล้ว
เวอร์ชันหนังสั้นต้นฉบับก็ยอดเยี่ยมเช่นกัน: https://www.youtube.com/watch?v=T6JFTmQCFHg
นำแสดงโดย Tom Noonan และ Ben Bailey
เห็นด้วย ความจริงที่ว่า Transformer แค่ พูดได้ เองนั้นค่อนข้างประหลาดมาก แต่ตอนนี้มันกลายเป็นเรื่องปกติไปแล้ว
เราพูดกันแค่ว่ามันจะส่งผลกระทบอย่างไร หรือมันทำสิ่งที่ผู้คนพูดกันได้จริงไหม แต่แทบไม่ได้พูดเลยว่าการที่มันพูดได้ในตัวมันเองนั้นบ้าขนาดไหน
ผมไม่เคยคิดเลยว่าอะไรแบบนี้จะเป็นไปได้ในช่วงชีวิตของผม
https://web.mit.edu/people/dpolicar/writing/prose/text/think...
แค่ linear algebra อย่างเดียวนั้นทำไม่ได้จริง
ต้องมี ความไม่เป็นเชิงเส้น เพื่อให้ได้พลังการแทนค่าที่เราเห็นใน LLM
น่าสนุกดี
ไม่ได้เป็นแค่การคารวะ Terry Bisson เท่านั้น แต่ยังเพิ่ม มิติใหม่ ให้กับข้อความของเขาด้วย ทำได้ดีมาก
ไม่ได้มีแค่น้ำหนักเท่านั้น ยังมี ไบแอส ด้วย!