1 ความคิดเห็น

 
GN⁺ 2024-06-07
ความเห็นจาก Hacker News
  • งานวิจัยที่น่าสนใจ: น่าสนใจที่เป็นงานวิจัยที่ออกมาอย่างรวดเร็วหลังจากการเผยแพร่ "Mapping the Mind of a Large Language Model" ของ Anthropic หลายคนยังคงพูดว่า "เราไม่รู้ว่า LLMs/ดีปเลิร์นนิงทำงานอย่างไร" แต่งานวิจัยลักษณะนี้โต้แย้งการเหมารวมแบบนั้น

  • ข้อสงสัยเกี่ยวกับการเลือกตัวอย่าง: ในตัวอย่างของ GPT-4 มีข้อความที่เกี่ยวข้องกับการขึ้นราคา ทั้งที่จริงแล้วสื่อถึงการลดราคา ทำให้เข้าใจได้ยาก จึงสงสัยว่าทำไมถึงเลือกตัวอย่างนี้

  • การค้นหาความหมายขั้นสูง: ชอบตัวอย่างในเอกสารที่กรองแนวคิดอย่างการขึ้นราคาออกมาได้ อาจเร็วและแม่นยำกว่าการฝึกโมเดลเสียอีก

  • ข้อผิดพลาดในการจัดหมวดหมู่: มีข้อผิดพลาดที่จัดคำอธิบายทางวิทยาศาสตร์เป็นเนื้อหาเชิงอีโรติก ซึ่งตรวจสอบได้ผ่านลิงก์

  • งานวิจัยที่คล้ายกัน: ทำให้นึกถึงงานวิจัย Claude 3 Sonnet ของ Anthropic ที่คล้ายกัน

  • การตีความโมเดล: สงสัยว่างานวิจัยนี้พัฒนาขึ้นอย่างไรเมื่อเทียบกับการใช้เครื่องมืออย่าง SHAP และคำกล่าวที่ว่า "ขณะนี้เราไม่สามารถเข้าใจกิจกรรมของเซลล์ประสาทในโมเดลภาษาได้" นั้นไม่ถูกต้อง

  • ขอคำอธิบายแบบพื้นฐาน: ขอให้ช่วยอธิบายความสำคัญของงานวิจัยนี้แบบเข้าใจง่าย

  • เครื่องมือประกอบสำหรับโอเพนโมเดล: การเปิดเผยออโตเอนโคเดอร์ที่อธิบายเอาต์พุตของโครงข่ายประสาทอาจเป็นแนวปฏิบัติที่ดี และอาจเป็นเครื่องมือประกอบที่มีประโยชน์สำหรับโอเพนโมเดลทั้งหมดบน Hugging Face

  • fMRI ของโครงข่ายประสาท: คล้ายกับ fMRI ที่ทำให้มองเห็นบริเวณที่ถูกกระตุ้นตามหัวข้อเฉพาะของโครงข่ายประสาท และสงสัยว่าจะสามารถเชื่อมโครงข่ายประเมินผลเพื่อประเมินบริเวณที่ถูกกระตุ้นโดยอัตโนมัติได้หรือไม่

  • ความเกี่ยวข้องกับ sparse embedding: อาจเกี่ยวข้องกับ sparse embedding (เช่น Splade) และสงสัยว่าจะนำไปใช้กับการค้นหาแบบไฮบริดได้หรือไม่