1 คะแนน โดย GN⁺ 2024-07-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

บทนำ

คนที่ควรอ่านบทความนี้

  • ผู้ที่ต้องการเข้าใจวิธีการทำงานของ AlphaFold3
  • ผู้ที่ต้องการทำความเข้าใจโครงสร้างที่ซับซ้อนผ่านภาพ
  • ผู้ที่คุ้นเคยกับแมชชีนเลิร์นนิง

ภาพรวมสถาปัตยกรรม

  • AlphaFold3 ทำนายโครงสร้างของโปรตีน กรดนิวคลีอิก โมเลกุลขนาดเล็ก เป็นต้น
  • ใช้วิธีการสร้างคุณลักษณะ/โทเคนไนซ์ที่ซับซ้อนมากขึ้นเพื่อรองรับชนิดข้อมูลนำเข้าที่ซับซ้อน

การเตรียมอินพุต

การโทเคนไนซ์

  • กรดอะมิโนมาตรฐาน: 1 โทเคน
  • นิวคลีโอไทด์มาตรฐาน: 1 โทเคน
  • กรดอะมิโน/นิวคลีโอไทด์ที่ไม่เป็นมาตรฐาน: 1 อะตอมต่อ 1 โทเคน
  • โมเลกุลอื่น ๆ: 1 อะตอมต่อ 1 โทเคน

การค้นหา (การสร้าง MSA และเทมเพลต)

  • ค้นหาลำดับที่คล้ายกันเพื่อสร้าง MSA และเทมเพลต
  • คำนวณระยะห่างแบบยูคลิดแล้วแปลงเป็น distogram

การสร้างตัวแทนระดับอะตอม

  • สร้าง "โครงสร้างอ้างอิง" ของกรดอะมิโน นิวคลีโอไทด์ และลิแกนด์แต่ละตัว
  • สร้างตัวแทนเดี่ยวระดับอะตอม (q) และตัวแทนแบบคู่ (p)

การอัปเดตตัวแทนระดับอะตอม (Atom Transformer)

  • อัปเดต q และ p เพื่อสร้างตัวแทนที่ดีขึ้น
  • ใช้ Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating, Conditioned Transition

การรวมระดับอะตอม -> ระดับโทเคน

  • แปลงตัวแทนระดับอะตอมเป็นระดับโทเคน
  • เพิ่ม MSA และข้อมูลที่ผู้ใช้ให้มา

การเรียนรู้ตัวแทน

โมดูลเทมเพลต

  • ใช้เทมเพลตเพื่ออัปเดต z

โมดูล MSA

  • อัปเดต MSA และ z
  • ใช้ Outer Product Mean, Row-wise Gated Self-Attention Using Only Pair Bias

โมดูล Pairformer

  • อัปเดต s และ z
  • ใช้ Triangle Updates, Triangle Attention

การทำนายโครงสร้าง

หลักการพื้นฐานของ diffusion

  • ใช้โมเดล diffusion เพื่อทำนายโครงสร้าง
  • เพิ่มและกำจัด noise เพื่อสร้างโครงสร้างสุดท้าย

สรุปของ GN⁺

  • AlphaFold3 ทำนายโครงสร้างที่ซับซ้อนของโปรตีน กรดนิวคลีอิก โมเลกุลขนาดเล็ก เป็นต้น
  • อธิบายโครงสร้างโมเดลที่ซับซ้อนพร้อมไดอะแกรมภาพเพื่อช่วยให้เข้าใจได้ง่ายขึ้น
  • เป็นโมเดลที่สร้างความก้าวหน้าสำคัญในสาขาแมชชีนเลิร์นนิงและเทคโนโลยีชีวภาพ
  • โปรเจ็กต์ที่มีความสามารถคล้ายกัน ได้แก่ RosettaFold เป็นต้น

1 ความคิดเห็น

 
GN⁺ 2024-07-14
ความคิดเห็นจาก Hacker News
  • ขอบคุณที่แปลบทความวิจัยนี้ให้คนทำงานด้านชีววิทยาโครงสร้างเข้าใจได้

  • ได้รู้ว่า AF3 ซึ่งมีจำนวน PTM ที่รองรับอย่างจำกัด จำเป็นต้องจัดการอะตอมทุกตัวเป็นโทเค็นแยกกัน

  • น่าจะเป็นเพราะ PTM ปรากฏใน PDB น้อยมาก

  • เป็นบทความที่ช่วยให้เห็นภาพว่าเทคโนโลยี neural network และ AI อาจถูกนำไปใช้งานอย่างไรในอนาคต

  • มีทั้งงานวิศวกรรมจำนวนมากและการประยุกต์ใช้เทคนิคเดิมอย่างชาญฉลาด ผสานเข้ากับโมเดลที่ทรงพลังและฝึกมาอย่างดี

  • สิ่งอย่าง ChatGPT ในตอนนี้ยังอยู่ในขั้นแรกของการสร้างโมเดลพื้นฐานสำหรับการทำให้ข้อมูลเป็นแบบทั่วไปและการประมวลผล

  • ยังไม่ได้มีงานมากนักในการประมวลผลอินพุตให้โมเดลเข้าใจได้อย่างเหมาะสมที่สุด

  • มีงานวิจัยพื้นฐานในด้านนี้อยู่บ้าง แต่ยังไม่มีอะไรซับซ้อนเทียบเท่า Alphafold

  • ผู้คนกำลังผสาน LLM เข้าด้วยกันและใช้ system prompt เพื่อช่วยจัดการอินพุต

  • เมื่อมีระบบที่ซับซ้อนกว่านี้ เราอาจได้เห็นบางสิ่งที่คล้าย AGI อย่างแท้จริง

  • ซับซ้อนมาก

  • ไม่เคยได้ยินเกี่ยวกับอัลกอริทึม MSA ที่ใช้สำหรับจัดเรียงลำดับโปรตีนมาก่อน

  • เป็นบทความที่น่าทึ่ง ขอบคุณ

  • ตั้งใจว่าจะอ่านต่อให้ละเอียดกว่านี้