AI กำลังเปลี่ยนความเข้าใจของนักวิทยาศาสตร์เกี่ยวกับการเรียนรู้ภาษา

xguru · 2022-10-21T11:41:58+09:00

ภาษาที่ใช้จริงในชีวิตประจำวันไม่ได้เป็นระเบียบแบบแผนและเต็มไปด้วยความสับสน นักภาษาศาสตร์เคยคิดว่าจำเป็นต้องมี "ไวยากรณ์" เป็นเหมือนกาวที่ช่วยยึดคุณลักษณะที่ดูไร้ระเบียบเหล่านี้ไว้ แต่โมเดลภาษา AI ขนาดใหญ่ใช้ภาษาได้จากการอาศัยข้อมูลภาษาจำนวนมหาศาล และที่น่าทึ่งคือส่วนใหญ่ทำได้โดยแทบไม่ต้องพึ่งไวยากรณ์ แม้บางครั้งการเลือกคำในประโยคที่สร้างขึ้นจะดูแปลกหรือไร้ความหมาย แต่ส่วนใหญ่ก็ยังถูกต้องตามหลักไวยากรณ์ ในความสามารถในการคาดเดาคำถัดไป โมเดล AI เหล่านี้กับสมองของมนุษย์ทำงานคล้ายกัน อาจคิดได้ว่าเป็นเพราะ GPT-3 ถูกฝึกด้วยประสบการณ์ทางภาษาปริมาณเทียบเท่าของมนุษย์ 20,000 ปี งานวิจัยกลับระบุว่า GPT-2 ที่ฝึกด้วยคำเพียงราว 100 ล้านคำ ก็สามารถทำได้ใกล้เคียงกับวิธีที่สมองมนุษย์คาดเดาคำถัดไป (100 ล้านคำใกล้เคียงกับปริมาณคำที่เด็กทั่วไปได้ยินตลอด 10 ปี) สิ่งที่พิสูจน์ได้คือ การได้รับภาษาเพียงอย่างเดียวก็เพียงพอให้เรียนรู้ภาษาได้ดีพอที่จะสร้างประโยคที่มีไวยากรณ์ดี และสามารถเรียนรู้ด้วยวิธีที่คล้ายกับการประมวลผลของสมองมนุษย์ ตลอดหลายปีที่ผ่านมา นักภาษาศาสตร์จำนวนมากเชื่อว่าการเรียนรู้ภาษาเป็นไปไม่ได้หากไม่มีแม่แบบไวยากรณ์ที่ติดตัวมาแต่กำเนิด แต่โมเดล AI แบบใหม่พิสูจน์ว่าไม่ใช่เช่นนั้น โดยแสดงให้เห็นว่าความสามารถในการสร้างภาษาที่ถูกต้องตามหลักไวยากรณ์สามารถเรียนรู้ได้จากประสบการณ์ทางภาษา กล่าวคือ สำหรับการที่เด็กเรียนรู้ภาษา ประสบการณ์ทางภาษาอาจสำคัญกว่าไวยากรณ์

(arstechnica.com)

21 คะแนน โดย xguru 2022-10-21 | 8 ความคิดเห็น | แชร์ทาง WhatsApp

ภาษาที่ใช้จริงในชีวิตประจำวันไม่ได้เป็นระเบียบแบบแผนและเต็มไปด้วยความสับสน
นักภาษาศาสตร์เคยคิดว่าจำเป็นต้องมี "ไวยากรณ์" เป็นเหมือนกาวที่ช่วยยึดคุณลักษณะที่ดูไร้ระเบียบเหล่านี้ไว้
แต่โมเดลภาษา AI ขนาดใหญ่ใช้ภาษาได้จากการอาศัยข้อมูลภาษาจำนวนมหาศาล และที่น่าทึ่งคือส่วนใหญ่ทำได้โดยแทบไม่ต้องพึ่งไวยากรณ์
แม้บางครั้งการเลือกคำในประโยคที่สร้างขึ้นจะดูแปลกหรือไร้ความหมาย แต่ส่วนใหญ่ก็ยังถูกต้องตามหลักไวยากรณ์
ในความสามารถในการคาดเดาคำถัดไป โมเดล AI เหล่านี้กับสมองของมนุษย์ทำงานคล้ายกัน
อาจคิดได้ว่าเป็นเพราะ GPT-3 ถูกฝึกด้วยประสบการณ์ทางภาษาปริมาณเทียบเท่าของมนุษย์ 20,000 ปี
งานวิจัยกลับระบุว่า GPT-2 ที่ฝึกด้วยคำเพียงราว 100 ล้านคำ ก็สามารถทำได้ใกล้เคียงกับวิธีที่สมองมนุษย์คาดเดาคำถัดไป
(100 ล้านคำใกล้เคียงกับปริมาณคำที่เด็กทั่วไปได้ยินตลอด 10 ปี)
สิ่งที่พิสูจน์ได้คือ การได้รับภาษาเพียงอย่างเดียวก็เพียงพอให้เรียนรู้ภาษาได้ดีพอที่จะสร้างประโยคที่มีไวยากรณ์ดี และสามารถเรียนรู้ด้วยวิธีที่คล้ายกับการประมวลผลของสมองมนุษย์
ตลอดหลายปีที่ผ่านมา นักภาษาศาสตร์จำนวนมากเชื่อว่าการเรียนรู้ภาษาเป็นไปไม่ได้หากไม่มีแม่แบบไวยากรณ์ที่ติดตัวมาแต่กำเนิด
- แต่โมเดล AI แบบใหม่พิสูจน์ว่าไม่ใช่เช่นนั้น โดยแสดงให้เห็นว่าความสามารถในการสร้างภาษาที่ถูกต้องตามหลักไวยากรณ์สามารถเรียนรู้ได้จากประสบการณ์ทางภาษา
- กล่าวคือ สำหรับการที่เด็กเรียนรู้ภาษา ประสบการณ์ทางภาษาอาจสำคัญกว่าไวยากรณ์

8 ความคิดเห็น

wooseop 2022-10-23

ที่ AlphaGo เล่นโกะเก่ง ไม่ได้แปลว่าโกะไม่มีกฎนะครับ

jujuhkhkkim 2022-10-22

จริงครับ วิธีที่แม่นยำที่สุดในการเรียนภาษาคือการมีประสบการณ์ให้มาก แต่ดังที่ปัญญาประดิษฐ์แสดงให้เห็น สมมติฐานพื้นฐานคือ "ประสบการณ์จำนวนมหาศาล" สำหรับ AI นั่นคือการได้สัมผัสต่อเนื่องนานถึง 10 ปี แม้มนุษย์อาจไม่ถึงขั้นนั้น แต่สำหรับคนที่อยู่ต่างประเทศและไม่ใช่คนของประเทศนั้น การสร้างประสบการณ์ทางภาษาแบบนี้เป็นเรื่องยากมาก
ใช่แล้ว ถ้าอยากเรียนภาษาอังกฤษให้เร็ว แม่นยำ และมีประสิทธิภาพที่สุด ก็แค่ไปเรียนต่างประเทศสักหลายปีแล้วตั้งใจเรียน แต่คนส่วนใหญ่มีข้อจำกัดทั้งด้านเศรษฐกิจและปัจจัยอื่น ๆ ทำให้ทำแบบนั้นไม่ได้ในสภาพแวดล้อมครอบครัวของตน จึงต้องเรียนไวยากรณ์
อย่างไรก็ตาม ผมคิดว่าระบบการศึกษาเกาหลีที่เน้นไวยากรณ์มากเกินไป และไม่ได้ใช้ไวยากรณ์เป็นเครื่องมือเพื่อการเรียนภาษา แต่กลับเรียนไวยากรณ์เพื่อทำข้อสอบไวยากรณ์ในคะแนนเก็บ น่าจะเป็นสิ่งที่ควรแก้ไข

budlebee 2022-10-22

ผมกลับรู้สึกว่ายุทธศาสตร์การรับสัมผัสอย่างเดียวเป็นวิธีที่ไม่มีประสิทธิภาพ เพราะต้องอาศัยการรับสัมผัสนานถึง 10 ปี

bandoche 2022-10-21

| สามารถเรียนรู้ภาษาได้ดีพอที่จะสร้างประโยคที่มีไวยากรณ์ดีได้เพียงแค่จากการได้รับข้อมูลภาษาอย่างต่อเนื่อง
ส่วนนี้ก็ตรงกับความรู้สึกของผมเป๊ะ ๆ ตอนที่ดูผลลัพธ์ของ GPT เหมือนกัน

humblebee 2022-10-21

น่าสนใจมากครับ! ผมคิดว่าความรู้ในสาขาอื่น ๆ รวมถึงภาษาก็น่าจะประยุกต์ใช้ได้ในบริบทคล้าย ๆ กันเช่นกันครับ เมื่อเทียบกับสิ่งนั้นแล้ว ก็น่าเสียดายที่การศึกษาในประเทศของเรายังคงเป็นไปในรูปแบบการท่องจำความรู้แบบเหมารวมอย่างที่ทุกคนทราบกันดี แม้ในเชิงระบบ การมอบประสบการณ์ที่เหมาะสมให้กับแต่ละคนจะเป็นเรื่องยากและมีต้นทุนสูง แต่ผมหวังว่าเมื่อได้เห็นผลลัพธ์ของ AI ที่ถือกำเนิดขึ้นจากการเลียนแบบเซลล์สมองดังเช่นผลลัพธ์ข้างต้น เราจะมองไปยังทิศทางที่ดีกว่าได้
เหนือสิ่งอื่นใด ผมสงสารเด็ก ๆ ที่กำลังเรียนรู้อย่างหดหู่เพราะผู้ใหญ่เหลือเกิน 😢 ทั้งที่แก่นแท้ของการเรียนรู้คือความสนุกนี่นา!

tttttaa 2022-10-21

จริง ๆ แล้วฉันก็สงสัยมาตั้งแต่ตอนเด็ก ๆ ที่เรียนภาษาอังกฤษแล้วนะ ว่าตอนที่เราเรียนอักษรเกาหลี เราเริ่มจากเรียนไวยากรณ์ก่อนจริงหรือ?

แม้แต่ตอนนี้ เวลาเห็นเนื้อหาไวยากรณ์ในการสอนภาษาเกาหลีให้ชาวต่างชาติ ก็ยังรู้สึกว่ามันยากและแปลก ๆ ว่ากำลังพูดถึงอะไรอยู่ แต่ถึงอย่างนั้นพวกเขาก็ยังใช้ภาษาเกาหลีได้ดีอยู่ดี

525hm 2022-10-21

น่าสนใจนะ ยุคของชอมสกีกำลังจะสิ้นสุดลงหรือเปล่า

orthonormalist 2022-10-23

ผมกลับคิดว่านี่อาจเป็นยุคของ Chomsky มากกว่า สำหรับ Chomsky ไวยากรณ์ไม่ใช่สิ่งที่เรียนรู้ แต่เป็นสิ่งที่มีมาแต่กำเนิด หรือพูดให้แม่นยำกว่านั้นคือเป็นสิ่งที่สร้างขึ้นจากความสามารถที่ติดตัวมาแต่กำเนิด และสำหรับ Chomsky แล้ว ปัญญาประดิษฐ์ในปัจจุบันคือการเรียนรู้แบบฟุ่มเฟือยที่มีแต่คอมพิวเตอร์เท่านั้นที่ทำได้ Chomsky ชี้ว่า ทารกไม่ได้เรียนภาษาด้วยการท่องจำคำศัพท์หลายแสนคำ ทฤษฎีของ Chomsky มีขึ้นเพื่ออธิบายความสามารถของทารกที่เรียนภาษาได้จากประสบการณ์ทางภาษาเพียง 1-2 ปี ซึ่งน้อยกว่ามากเมื่อเทียบกับ machine learning ส่วน machine learning ในปัจจุบันกลับตั้งอยู่บนแนวคิดว่า ในเมื่อคอมพิวเตอร์ไม่ใช่มนุษย์ ก็ไม่จำเป็นต้องเรียนภาษาเหมือนทารก จึงให้มันเรียนภาษาจากข้อมูลนานเป็นสิบปีแทน

AI กำลังเปลี่ยนความเข้าใจของนักวิทยาศาสตร์เกี่ยวกับการเรียนรู้ภาษา

บทความที่เกี่ยวข้อง

8 ความคิดเห็น