1 ความคิดเห็น

 
GN⁺ 2024-12-15
ความคิดเห็นจาก Hacker News
  • ผู้ใช้รายหนึ่งรู้สึกว่าไม่พบอะไรใหม่หรือมีประโยชน์จากการบรรยาย และมองว่าเนื้อหาค่อนข้างเป็นเชิงศาสนาและว่างเปล่า

  • มองในแง่บวกที่ Ilya เริ่มการบรรยายด้วยภาพของ Quoc Le โดย Quoc Le เป็นผู้เขียนหลักของงานวิจัยว่าด้วยการขยายขนาดโครงข่ายประสาทในปี 2012 ซึ่งเป็นจุดเริ่มต้นที่ทำให้ผู้ใช้นี้สนใจ deep learning

  • ประเมินว่าคำพูดของ Ilya มีความถ่อมตนและตั้งอยู่บนงานวิจัยสาธารณะที่มีมาก่อน แต่ขณะนี้เขากำลังทำโครงการขนาดใหญ่และมีจินตนาการสูง

  • มองว่าคำพูดของ Ilya ที่ว่า "การให้เหตุผลคาดเดาได้ยากกว่า" เป็นประเด็นสำคัญ และยืนยันว่าการให้เหตุผลที่มีประโยชน์นั้นโดยเนื้อแท้แล้วคาดเดาไม่ได้

  • ตั้งคำถามว่าทำไมการประมวลผลแบบ pipeline parallelism จึงเป็นแนวคิดที่ไม่ดี

  • รู้สึกว่าการบรรยายเต็มไปด้วยเนื้อหาที่ไม่จำเป็นในหลายส่วน มีการกล่าวถึงสรุปช่วง 10 ปีที่ผ่านมา ข้อจำกัดของ scaling laws เอเจนต์ ข้อมูลสังเคราะห์ และการปรับปรุงด้านคอมพิวต์

  • เน้นว่า Sutskever กล่าวไว้ว่า "การพรีเทรนจะสิ้นสุดลง" และคาดการณ์ว่าวิธีการฝึกโมเดลจะเปลี่ยนไปเนื่องจากข้อจำกัดของข้อมูล

  • เสนอให้ใช้ชุดข้อมูลสังเคราะห์ที่ผ่านการคัดสรรเป็นข้อมูลทางเลือกสำหรับการฝึกแทนข้อมูลจากอินเทอร์เน็ต พร้อมอธิบายว่าการใช้ชุดข้อมูลกรรมสิทธิ์ขนาดใหญ่มีข้อจำกัดจากปัญหาลิขสิทธิ์ แต่หากเจ้าของนำไปใช้เอง ปัญหาทางกฎหมายอาจคลี่คลายได้

  • ประเมินว่าพอดแคสต์ของ DeepMind พูดถึงประเด็นคล้ายกับการบรรยายครั้งนี้ แต่มีความน่าสนใจกว่า

  • มองในแง่บวกต่อการเปรียบเทียบข้อมูลอินเทอร์เน็ตว่าเป็นทรัพยากรที่มีจำกัด และยืนยันว่าจำเป็นต้องตระหนักถึงข้อจำกัดของทรัพยากรและรับมือกับมัน

  • กล่าวว่าการนำ 'นิวรอน' ของทรานส์ฟอร์เมอร์ไปเทียบกับนิวรอนทางชีววิทยาจริงเป็นเรื่องน่าประหลาดใจ โดยนิวรอนจริงเกี่ยวข้องกับกระบวนการชีวเคมีที่ซับซ้อน ขณะที่ทรานส์ฟอร์เมอร์ใช้เพียงชั้นเชิงเส้นและ nonlinearity ที่เรียบง่าย

  • กล่าวถึงว่า LLM ใช้ Gemini Flash 8B เพื่อแก้ไขทรานสคริปต์ต้นฉบับจาก YouTube