2 คะแนน โดย GN⁺ 2024-02-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

บทนำ

  • บทความนี้สำรวจว่าโมเดลภาษาขนาดเล็กทำนายโทเค็นถัดไปอย่างไร
  • แทนที่จะมุ่งเน้นที่กลไก self-attention ของโมเดลทรานส์ฟอร์เมอร์ บทความนี้อธิบายว่าผลลัพธ์จากการคำนวณ attention แปลงไปเป็นการทำนายโทเค็นถัดไปที่แม่นยำได้อย่างไร
  • ผู้เขียนตรวจสอบสถานะภายในผ่านทรานส์ฟอร์เมอร์ขนาดเล็กที่ใช้งานได้จริง และแบ่งปันผลลัพธ์อันมีคุณค่าจากการสำรวจเชิงลึกตลอด 6 เดือน

โครงสร้างของบล็อกทรานส์ฟอร์เมอร์

  • บล็อกทรานส์ฟอร์เมอร์ประกอบด้วยชั้น multi-head self-attention และเครือข่าย feedforward
  • เอาต์พุตของเครือข่าย feedforward เป็นปัจจัยหลักที่กำหนดว่าบล็อกจะแปลงอินพุตเป็นเอาต์พุตอย่างไร

ข้อเสนอ: ทรานส์ฟอร์เมอร์ทำงานอย่างไร

  • แต่ละบล็อกของทรานส์ฟอร์เมอร์เรียนรู้น้ำหนักเพื่อเชื่อมโยงพรอมป์ต์ที่กำหนดเข้ากับคลาสของสตริงในข้อมูลฝึก
  • การกระจายของโทเค็นที่ตามหลังคลาสของสตริงนี้สอดคล้องโดยประมาณกับสิ่งที่บล็อกส่งออกมาเป็นการทำนายโทเค็นถัดไป

การนำไปใช้: การประมาณเอาต์พุตของทรานส์ฟอร์เมอร์ด้วยเอาต์พุตของเครือข่าย feedforward

  • ผู้เขียนนำเสนอขั้นตอนที่เป็นรูปธรรมสำหรับใช้เอาต์พุตของเครือข่าย feedforward เพื่อประมาณเอาต์พุตของทรานส์ฟอร์เมอร์
  • ขั้นตอนนี้เริ่มจากการรันพรอมป์ต์ผ่านโมเดลและบันทึกเอาต์พุตของเครือข่าย feedforward สำหรับแต่ละบล็อก
  • จากนั้นค้นหาสตริงในข้อมูลฝึกที่สร้างเอาต์พุตของเครือข่าย feedforward ที่คล้ายกัน และสร้างการกระจายความถี่ของโทเค็นที่ตามหลังสตริงเหล่านั้น
  • นำการกระจายเหล่านี้มารวมกันโดยถ่วงน้ำหนักและทำ normalization เพื่อให้ได้การกระจายความน่าจะเป็นสุดท้าย

ความเห็นของ GN⁺

  • งานวิจัยนี้ช่วยให้เข้าใจการทำงานภายในของโมเดลทรานส์ฟอร์เมอร์ได้ลึกยิ่งขึ้น โดยเฉพาะข้อมูลเชิงลึกเกี่ยวกับกระบวนการหลัง self-attention ซึ่งสำคัญต่อการทำความเข้าใจกลไกการทำนายของโมเดลทรานส์ฟอร์เมอร์
  • แนวทางของผู้เขียนให้คำอธิบายที่ชัดเจนว่าทรานส์ฟอร์เมอร์รับรู้รูปแบบในข้อมูลฝึกและใช้สิ่งนั้นเป็นพื้นฐานในการทำนายโทเค็นถัดไปอย่างไร
  • บทความนี้อาจเป็นแหล่งข้อมูลที่มีประโยชน์สำหรับผู้ที่กำลังศึกษา أوพัฒนาโมเดลทรานส์ฟอร์เมอร์ และจะช่วยเสริมความเข้าใจในสาขาการประมวลผลภาษาด้วยปัญญาประดิษฐ์ให้ลึกซึ้งขึ้น

1 ความคิดเห็น

 
GN⁺ 2024-02-05
ความคิดเห็นจาก Hacker News
  • อย่าแปลกใจกับปรากฏการณ์ใหม่ ๆ หากไม่อ่านทฤษฎีที่มีการวางรากฐานไว้แล้ว ก็อาจสับสนกับสิ่งที่เกิดขึ้นตามธรรมชาติได้

    • การทดลองดูรอบคอบมาก และความใส่ใจในรายละเอียดก็น่าประทับใจ
    • การหาสมดุลระหว่างการเรียนรู้ทฤษฎีที่มีอยู่กับการค้นพบทฤษฎีขึ้นใหม่ตั้งแต่ต้นเป็นเรื่องสำคัญ
    • การที่โมเดลเพิ่มค่า log likelihood สูงสุดโดยอิงจากข้อมูลฝึก เป็นผลลัพธ์ที่เป็นไปตามธรรมชาติอยู่แล้ว
    • การเข้าใจพื้นฐานเป็นสิ่งสำคัญ และทฤษฎีเอนโทรปีของ Shannon ก็อาจเป็นจุดเริ่มต้นที่ดี
  • มีปฏิกิริยาเชิงบวกต่อการที่มีคนลงมือทำสิ่งที่ Google เคยชี้ไว้จริง ๆ ว่า ถ้าทำให้ ChatGPT พูดคำเดิมซ้ำ ๆ มันจะคายข้อมูลฝึกออกมาตรง ๆ

    • สิ่งนี้ทำให้เกิดคำถามเพิ่มเติม:
      1. แนวทาง 'AI ที่ไม่มี AI' มีประสิทธิภาพด้านพลังงานมากกว่าวิธีบีบอัดโมเดลแบบเดิมหรือไม่?
      2. ผลลัพธ์นี้สามารถใช้เป็นหลักฐานในคดีความต่อ OpenAI และ Stability AI ได้หรือไม่?
  • รู้สึกประหลาดใจกับปรากฏการณ์ที่เครือข่าย Attention และ FF (Feed Forward) ชี้ไปในทิศทางเดียวกัน

    • แม้ว่าเครือข่าย FF จะสามารถหมุนแบบสุ่มได้ แต่ก็ไม่คาดคิดว่ามันจะอยู่ใน latent space เดียวกันตลอดหลายชั้น
  • เมื่อลองฝึกโมเดลขนาดเล็กตามบทสอน NanoGPT ของ Andrej Karpathy ดูเหมือนว่ามันจะเข้าใจไวยากรณ์ภาษารัสเซียที่ซับซ้อนได้ในระดับหนึ่ง

    • โมเดลไม่ได้สมบูรณ์แบบ แต่ด้วยการฝึกเพียงหนึ่งในสาม ก็สามารถอนุมานกฎที่ซับซ้อนได้
  • มีคำถามว่า LLM เป็นตัวสร้างข้อความแบบมาร์คอฟเชนหรือไม่

    • ถ้าใช่ ก็เกิดข้อสงสัยว่าจะสามารถสร้างมาร์คอฟเชนที่ให้ประสิทธิภาพใกล้เคียงกันได้หรือไม่ โดยใช้ข้อมูลฝึกต้นฉบับ
  • โมเดลที่ใช้ในการวิจัยจริง ๆ แล้วเป็นเพียงโมเดลของเล่นที่เรียบง่าย และอาจประมาณได้ด้วยโมเดลที่ง่ายกว่านี้อีก

    • อย่างไรก็ตาม โมเดลนี้อาจไม่ได้เป็นตัวแทนวิธีการทำงานของ LLM ขนาดใหญ่กว่า
  • เข้าใจได้ยากว่าผู้เขียนกำลังพยายามอ้างอะไรอย่างชัดเจน

    • อ่านส่วน 'เหตุใดการประมาณจึงใช้ได้ผล' หลายรอบแล้ว แต่ก็ยังรู้สึกเหมือนเป็นแค่คำอธิบายแบบเป็นขั้นตอนของทรานส์ฟอร์เมอร์
  • การทำภาพ 3 มิติของระบบ LLM มีประโยชน์ และควรอ่านควบคู่กันเพื่อให้ได้ผลสูงสุด

  • เป็นโพสต์ที่แปลกเกี่ยวกับสิ่งที่ทรานส์ฟอร์เมอร์ทำจริง ๆ

    • ถ้าไล่ดูโค้ดตามไป ก็จะเห็นได้อย่างชัดเจนว่าทรานส์ฟอร์เมอร์ทำอะไรอยู่