- Google DeepMind เปิดตัวโมเดล AI สำหรับลำดับ DNA ใหม่ชื่อ AlphaGenome
- โมเดลนี้ช่วยเพิ่มความแม่นยำในการ ทำนายผลกระทบของความแปรผันที่ควบคุมยีน และสามารถทำนายกระบวนการควบคุมยีนได้หลากหลาย
- จุดเด่นคือรับอินพุตเป็น ลำดับ DNA ที่ยาวได้ถึง 1 ล้านคู่เบส และทำนายปรากฏการณ์ทางชีววิทยาต่าง ๆ ได้อย่างละเอียดสูง
- ต่างจากโมเดลเดิมตรงที่สามารถประเมินผลกระทบของความแปรผันต่อ เนื้อเยื่อและชนิดเซลล์ทางชีวภาพที่หลากหลาย ได้พร้อมกันในครั้งเดียว
- คาดว่า AlphaGenome จะช่วยให้นักวิจัยเข้าใจ หน้าที่ของยีนและชีววิทยาของโรค และเร่งการค้นพบวิธีการรักษาใหม่ ๆ
แนะนำ AlphaGenome
- Google DeepMind เปิดตัวโมเดล AI สำหรับลำดับ DNA ใหม่ชื่อ AlphaGenome
- โมเดลนี้ถือเป็นจุดเปลี่ยนสำคัญของการวิจัยหน้าที่ของจีโนมและความเข้าใจโรค โดยสามารถทำนายผลของ ความแปรผันเดี่ยวหรือการกลายพันธุ์ ที่ส่งผลต่อการควบคุมยีนได้อย่างแม่นยำ
- เปิดให้ใช้งานล่วงหน้าผ่าน API เพื่อการวิจัย และมีแผนจะเปิดเผยโมเดลเพิ่มเติมในอนาคต
วิธีการทำงานของ AlphaGenome
- AlphaGenome รับอินพุตเป็นลำดับ DNA ขนาดยาวได้สูงสุด 1 ล้านคู่เบส เพื่อทำนายคุณลักษณะระดับโมเลกุลที่หลากหลาย
- คุณลักษณะที่ทำนายได้มีหลายพันรายการ เช่น ตำแหน่งของยีน, ปริมาณการสร้าง RNA, ความเข้าถึงได้ของ DNA, ตำแหน่งการจับของโปรตีน
- โมเดลได้รับการฝึกด้วยข้อมูลสาธารณะขนาดใหญ่ เช่น ENCODE, GTEx, 4D Nucleome, FANTOM5
- ภายในโมเดลใช้ ชั้นคอนโวลูชัน เพื่อตรวจจับแพตเทิร์นระยะสั้นก่อน จากนั้นใช้ Transformer เพื่อรวมข้อมูลทั้งลำดับ แล้วจึงสร้างผลทำนายที่หลากหลาย
- เพิ่มประสิทธิภาพการฝึกด้วยการประมวลผลขนาดใหญ่บนสภาพแวดล้อม TPU แบบกระจาย
- พัฒนาต่อยอดจากโมเดล Enformer เดิม และต่างจาก AlphaMissense ที่เน้นเฉพาะบริเวณโปรตีนโค้ดดิ้ง โดยครอบคลุมถึงบริเวณ non-coding (98% ของจีโนมทั้งหมด) ด้วย
จุดเด่นที่แตกต่างของ AlphaGenome
- การวิเคราะห์ลำดับระยะไกลแบบความละเอียดสูงมาก : วิเคราะห์ในระดับ 1 ล้านคู่เบส และให้ผลลัพธ์ละเอียดถึงระดับเบสเดี่ยว
- มี ประสิทธิภาพในการฝึก สูงกว่าโมเดลเดิม เรียนรู้ได้เร็วขึ้นด้วยทรัพยากรที่น้อยกว่า
- การทำนายแบบมัลติโหมดรวมศูนย์ : ทำนายข้อมูลในหลายขั้นของการควบคุมยีนพร้อมกันภายในโมเดลเดียว
- การให้คะแนนความแปรผันอย่างมีประสิทธิภาพ : เปรียบเทียบลำดับที่กลายพันธุ์กับลำดับปกติได้ทันที เพื่อคำนวณผลกระทบของความแปรผันต่อปรากฏการณ์ทางชีววิทยาต่าง ๆ อย่างรวดเร็ว
- การสร้างแบบจำลองจุดเชื่อมการสไปซ์ที่ล้ำสมัย : ทำนายตำแหน่งการสไปซ์ของยีนและระดับการแสดงออกได้โดยตรง ช่วยสนับสนุนการวิจัยโรคหายาก
ประสิทธิภาพขั้นสูงและผลการทดสอบ benchmark
- AlphaGenome ทำผลงานได้เหนือกว่าหรือเทียบเท่า โมเดลชั้นนำภายนอก ใน 22 จาก 24 benchmark ด้านการทำนายจีโนม และ 24 จาก 26 benchmark ด้านการประเมินผลของความแปรผันต่อการควบคุม
- เป็นโมเดลเดียวที่สามารถทำนาย คุณลักษณะทางชีวภาพหลายรูปแบบ พร้อมกันได้ด้วยการเรียก API ครั้งเดียว แทนที่จะใช้โมเดลเฉพาะงานหลายตัว
ข้อดีของโมเดลแบบบูรณาการ
- การรองรับหลาย modality อย่างบูรณาการช่วยให้นักวิทยาศาสตร์สามารถ วนทดสอบสมมติฐานและการทดลองได้อย่างรวดเร็ว
- เรียนรู้ การแทนค่าทั่วไปของลำดับ DNA ทำให้ชุมชนสามารถนำไปฝึกต่อและปรับแต่งได้ง่าย
- มอบ ความยืดหยุ่น และ การขยายขนาดได้ เพื่อรองรับการเพิ่มข้อมูลหรือขอบเขตการใช้งานในอนาคต
ความหมายในฐานะเครื่องมือวิจัยทรงพลัง
- ความเข้าใจโรค : มีศักยภาพในการใช้ระบุสาเหตุของโรค เช่น ความแปรผันหายาก และค้นหาเป้าหมายการรักษา
- ชีววิทยาสังเคราะห์ : สามารถนำไปใช้ในการออกแบบ DNA สังเคราะห์ที่มีหน้าที่เฉพาะ
- งานวิจัยพื้นฐาน : สนับสนุนการทำแผนที่องค์ประกอบหน้าที่สำคัญของจีโนม และการค้นหาองค์ประกอบการควบคุมเฉพาะเซลล์
- ในทางปฏิบัติ AlphaGenome สามารถทำนายได้ว่าความแปรผันที่เกี่ยวข้องกับ T-ALL (มะเร็งเม็ดเลือดขาวลิมโฟบลาสติกเฉียบพลัน) ก่อให้เกิดการสร้าง MYB DNA binding motif และกระตุ้นยีน TAL1 ที่อยู่ใกล้เคียง ซึ่งสามารถจำลองกลไกผลกระทบของความแปรผันนั้นต่อยีนที่ก่อโรคได้สำเร็จ
ข้อจำกัดในปัจจุบัน
- การระบุผลของ องค์ประกอบควบคุมที่อยู่ไกลมาก ซึ่งห่างเกิน 100,000 เบส ยังเป็นความท้าทายอยู่
- การจดจำแพตเทิร์นเฉพาะของเซลล์และเนื้อเยื่อยังต้องมีการวิจัยเพิ่มเติม
- ขณะนี้ยังไม่ได้พิจารณาการใช้งานสำหรับ การทำนายจีโนมรายบุคคล (การวินิจฉัยหรือการทำนายเฉพาะบุคคล)
- ทำนายได้เฉพาะในระดับโมเลกุล และยังไม่สามารถอธิบายสาเหตุอันซับซ้อนของทุกโรคได้อย่างสมบูรณ์
- ปัจจุบันยังอยู่ในขั้นประกาศเพื่อการวิจัย จึงยังไม่สามารถประเมินความเหมาะสมทางคลินิกโดยตรงหรือประยุกต์ใช้ในการรักษาได้
การสนับสนุนชุมชนและทิศทางต่อจากนี้
- สามารถใช้งาน API ได้ทันทีเพื่อการวิจัยแบบไม่แสวงหากำไร และมีแผนเพิ่มการใช้งานของ AlphaGenome ผ่าน ความร่วมมืออย่างกว้างขวางกับชุมชนนักวิจัย
- กำลังเปิดรับ feedback และกรณีการใช้งานผ่าน community forum และช่องทางอื่น ๆ
- มีแผนพัฒนาเป็นเวอร์ชันขยายที่เพิ่มข้อมูล ชนิดสปีชีส์ และ modality มากขึ้น
- คาดว่าจะช่วยผลักดันนวัตกรรมใหม่ด้านการแพทย์และชีววิทยาศาสตร์ที่เกี่ยวข้องกับการตีความจีโนม
สรุป
- AlphaGenome คือเครื่องมือวิเคราะห์จีโนมด้วย AI แบบใหม่ที่ช่วยตีความ ความหมายของความแปรผันทางพันธุกรรม จากหลายมุมมองพร้อมกัน และเร่งงานวิจัยทั้งพื้นฐานและทางคลินิก
- มีแผนร่วมมือกับกลุ่มผู้เชี่ยวชาญภายนอกเพื่อขยาย นวัตกรรมบนฐานข้อมูลจีโนม ให้เข้าถึงผู้คนได้มากที่สุด
2 ความคิดเห็น
พอเกิดความสงสัยว่า มัลติโมดัลลิตีของโมเดล AI ที่จัดการการทำนายยีนนั้นมีโมดัลอะไรบ้าง เลยไปถาม o3 ดู ก็ได้คำตอบว่ามีสิ่งอย่างเช่น ปริมาณการถอดรหัส ตำแหน่งเริ่มต้นและสิ้นสุดของการถอดรหัส การสไปลซิง ฯลฯ ที่ถือเป็นโมดัลลิตี
ความคิดเห็นจาก Hacker News
มองว่านี่เป็นสัญญาณที่เห็นได้ว่าความกดดันจากภาคธุรกิจกำลังรุนแรงขึ้น แม้จะเป็นโมเดลที่รันได้บน A100 เพียงตัวเดียว ก็ยังไม่เปิดโค้ดหรือพารามิเตอร์ และให้ใช้งานได้แค่หลัง API เท่านั้น ขณะที่หน้า 31 ของเปเปอร์กลับคัดลอกโครงของโมเดลทั้งชุดมาใส่เป็น pseudocode เลย อยากให้ Google/Demis/Sergei อย่างน้อยเปิดพารามิเตอร์ออกมา โมเดลเล็กแค่นี้แต่ถูกขังไว้หลัง API คงไม่ได้ช่วยรักษามะเร็งได้จริง และก็ดูไม่น่าจะทำรายได้ให้ GCloud มากนักด้วย
หวังว่าจะมีจุดเปลี่ยนในงานด้านการจำลองเซลล์ จนสามารถสร้างการจำลองที่มีประโยชน์แบบ molecular dynamics และทำได้จริงบนซูเปอร์คอมพิวเตอร์ยุคปัจจุบัน มองว่าการมองไม่เห็นว่าอะไรเกิดขึ้นข้างในเป็นอุปสรรคใหญ่ของงานวิจัยชีววิทยา
ไม่ใช่ว่า DeepMind เป็นเจ้าเดียวที่ทำงานวิจัยการประยุกต์ใช้ AI ที่มีอิมแพกต์สูง แต่ก็สงสัยว่าทำไมถึงโดดเด่นเป็นพิเศษในสายนี้ เป็นเพราะทำ technical marketing เก่ง หรือมีเหตุผลอื่นกันแน่
พอลองนึกภาพการขยายขนาดอินพุตไปถึง 3.2Gbp ซึ่งเป็นขนาดจีโนมมนุษย์ ก็ดูเหมือนจะมีปฏิสัมพันธ์ที่น่าสนใจเกิดขึ้น อีกจุดที่น่าสนใจก็คือ U-net และ transformer กำลังกลายเป็นศูนย์กลางของงานวิจัย
คาดว่าในบริษัทต่าง ๆ ก็น่าจะมีไอเดียนำข้อมูลจีโนมมาใช้เพิ่มประสิทธิภาพโฆษณาด้วย เช่น ถ้าเห็นความเสี่ยงมะเร็งลำไส้ใหญ่ก็ยิงโฆษณา “อาหารเสริมสุขภาพลำไส้” หรือวิเคราะห์แนวโน้มจากข้อมูลพันธุกรรมแล้วทำการตลาดทำนอง “ยีนนี้มีความสัมพันธ์กับการชอบมุกตลกร้าย โปรโมตหนังเรื่องใหม่กับคนที่มียีนนี้”
การก้าวกระโดดครั้งใหญ่ของความแม่นยำในการทำนาย RNA น่าจะเปิดโอกาสใหญ่ให้กับห้องแล็บ mRNA
หลังเข้าทำงานที่ Google ในปี 2008 ไม่นาน ก็เคยผลักดันให้ลงทุนในสายชีววิทยาศาสตร์อย่างมาก เชื่อมั่นว่า Google จะสร้างผลลัพธ์ระดับโลกได้ด้วยความสามารถด้านการประมวลผลข้อมูลและ ML และช่วยให้ชีววิทยาคนอื่นทำซ้ำแนวทางนั้นได้จริง โดยในเวลาต่อมาก็มีผลลัพธ์น่าสนใจจากการพับ/ออกแบบโปรตีนผ่าน exacycle และยังต่อยอดไปสู่การเปิดตัว Cloud Genomics สำหรับเก็บและวิเคราะห์ชุดข้อมูลขนาดใหญ่ด้วย สุดท้าย DeepMind ก็ทำให้เป้าหมายที่ตัวเองเคยคิดไว้เกิดขึ้นได้อย่างยอดเยี่ยมยิ่งกว่าที่คาด เปเปอร์ล่าสุดมีอะไรให้ดูเยอะมากจนชุมชนคงต้องใช้เวลาพอสมควรกว่าจะย่อยเนื้อหาได้หมด
น่าผิดหวังที่เปเปอร์มองข้ามหนึ่งในปัญหาใหญ่ที่สุด นั่นคือการแยกแยะระหว่างตัวแปรพันธุกรรมที่เป็นสาเหตุจริงกับตัวแปรที่ไม่เป็นเหตุ แต่มีความเชื่อมโยงสูงกันอยู่ในช่วง DNA เดียวกัน ซึ่งในพันธุศาสตร์เรียกว่า fine mapping การตีกรอบบริเวณควบคุมหลักให้แคบและแม่นยำมีความสำคัญมากต่อการหา drug target ที่มีประสิทธิภาพ เปเปอร์ Nature ฉบับล่าสุดก็มีตัวอย่างของปัญหานี้ รวมถึงกรณีที่เชื่อมไปถึง candidate drug สำหรับควบคุมการทำงานของ macrophage ในโรคภูมิคุ้มกันทำลายตนเอง