AlphaGenome: AI เพื่อทำความเข้าใจจีโนมให้ดียิ่งขึ้น

(deepmind.google)

1 คะแนน โดย GN⁺ 2025-06-27 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Google DeepMind เปิดตัวโมเดล AI สำหรับลำดับ DNA ใหม่ชื่อ AlphaGenome
โมเดลนี้ช่วยเพิ่มความแม่นยำในการ ทำนายผลกระทบของความแปรผันที่ควบคุมยีน และสามารถทำนายกระบวนการควบคุมยีนได้หลากหลาย
จุดเด่นคือรับอินพุตเป็น ลำดับ DNA ที่ยาวได้ถึง 1 ล้านคู่เบส และทำนายปรากฏการณ์ทางชีววิทยาต่าง ๆ ได้อย่างละเอียดสูง
ต่างจากโมเดลเดิมตรงที่สามารถประเมินผลกระทบของความแปรผันต่อ เนื้อเยื่อและชนิดเซลล์ทางชีวภาพที่หลากหลาย ได้พร้อมกันในครั้งเดียว
คาดว่า AlphaGenome จะช่วยให้นักวิจัยเข้าใจ หน้าที่ของยีนและชีววิทยาของโรค และเร่งการค้นพบวิธีการรักษาใหม่ ๆ

แนะนำ AlphaGenome

Google DeepMind เปิดตัวโมเดล AI สำหรับลำดับ DNA ใหม่ชื่อ AlphaGenome
โมเดลนี้ถือเป็นจุดเปลี่ยนสำคัญของการวิจัยหน้าที่ของจีโนมและความเข้าใจโรค โดยสามารถทำนายผลของ ความแปรผันเดี่ยวหรือการกลายพันธุ์ ที่ส่งผลต่อการควบคุมยีนได้อย่างแม่นยำ
เปิดให้ใช้งานล่วงหน้าผ่าน API เพื่อการวิจัย และมีแผนจะเปิดเผยโมเดลเพิ่มเติมในอนาคต

วิธีการทำงานของ AlphaGenome

AlphaGenome รับอินพุตเป็นลำดับ DNA ขนาดยาวได้สูงสุด 1 ล้านคู่เบส เพื่อทำนายคุณลักษณะระดับโมเลกุลที่หลากหลาย
คุณลักษณะที่ทำนายได้มีหลายพันรายการ เช่น ตำแหน่งของยีน, ปริมาณการสร้าง RNA, ความเข้าถึงได้ของ DNA, ตำแหน่งการจับของโปรตีน
โมเดลได้รับการฝึกด้วยข้อมูลสาธารณะขนาดใหญ่ เช่น ENCODE, GTEx, 4D Nucleome, FANTOM5
ภายในโมเดลใช้ ชั้นคอนโวลูชัน เพื่อตรวจจับแพตเทิร์นระยะสั้นก่อน จากนั้นใช้ Transformer เพื่อรวมข้อมูลทั้งลำดับ แล้วจึงสร้างผลทำนายที่หลากหลาย
เพิ่มประสิทธิภาพการฝึกด้วยการประมวลผลขนาดใหญ่บนสภาพแวดล้อม TPU แบบกระจาย
พัฒนาต่อยอดจากโมเดล Enformer เดิม และต่างจาก AlphaMissense ที่เน้นเฉพาะบริเวณโปรตีนโค้ดดิ้ง โดยครอบคลุมถึงบริเวณ non-coding (98% ของจีโนมทั้งหมด) ด้วย

จุดเด่นที่แตกต่างของ AlphaGenome

การวิเคราะห์ลำดับระยะไกลแบบความละเอียดสูงมาก : วิเคราะห์ในระดับ 1 ล้านคู่เบส และให้ผลลัพธ์ละเอียดถึงระดับเบสเดี่ยว
มี ประสิทธิภาพในการฝึก สูงกว่าโมเดลเดิม เรียนรู้ได้เร็วขึ้นด้วยทรัพยากรที่น้อยกว่า
การทำนายแบบมัลติโหมดรวมศูนย์ : ทำนายข้อมูลในหลายขั้นของการควบคุมยีนพร้อมกันภายในโมเดลเดียว
การให้คะแนนความแปรผันอย่างมีประสิทธิภาพ : เปรียบเทียบลำดับที่กลายพันธุ์กับลำดับปกติได้ทันที เพื่อคำนวณผลกระทบของความแปรผันต่อปรากฏการณ์ทางชีววิทยาต่าง ๆ อย่างรวดเร็ว
การสร้างแบบจำลองจุดเชื่อมการสไปซ์ที่ล้ำสมัย : ทำนายตำแหน่งการสไปซ์ของยีนและระดับการแสดงออกได้โดยตรง ช่วยสนับสนุนการวิจัยโรคหายาก

ประสิทธิภาพขั้นสูงและผลการทดสอบ benchmark

AlphaGenome ทำผลงานได้เหนือกว่าหรือเทียบเท่า โมเดลชั้นนำภายนอก ใน 22 จาก 24 benchmark ด้านการทำนายจีโนม และ 24 จาก 26 benchmark ด้านการประเมินผลของความแปรผันต่อการควบคุม
เป็นโมเดลเดียวที่สามารถทำนาย คุณลักษณะทางชีวภาพหลายรูปแบบ พร้อมกันได้ด้วยการเรียก API ครั้งเดียว แทนที่จะใช้โมเดลเฉพาะงานหลายตัว

ข้อดีของโมเดลแบบบูรณาการ

การรองรับหลาย modality อย่างบูรณาการช่วยให้นักวิทยาศาสตร์สามารถ วนทดสอบสมมติฐานและการทดลองได้อย่างรวดเร็ว
เรียนรู้ การแทนค่าทั่วไปของลำดับ DNA ทำให้ชุมชนสามารถนำไปฝึกต่อและปรับแต่งได้ง่าย
มอบ ความยืดหยุ่น และ การขยายขนาดได้ เพื่อรองรับการเพิ่มข้อมูลหรือขอบเขตการใช้งานในอนาคต

ความหมายในฐานะเครื่องมือวิจัยทรงพลัง

ความเข้าใจโรค : มีศักยภาพในการใช้ระบุสาเหตุของโรค เช่น ความแปรผันหายาก และค้นหาเป้าหมายการรักษา
ชีววิทยาสังเคราะห์ : สามารถนำไปใช้ในการออกแบบ DNA สังเคราะห์ที่มีหน้าที่เฉพาะ
งานวิจัยพื้นฐาน : สนับสนุนการทำแผนที่องค์ประกอบหน้าที่สำคัญของจีโนม และการค้นหาองค์ประกอบการควบคุมเฉพาะเซลล์
ในทางปฏิบัติ AlphaGenome สามารถทำนายได้ว่าความแปรผันที่เกี่ยวข้องกับ T-ALL (มะเร็งเม็ดเลือดขาวลิมโฟบลาสติกเฉียบพลัน) ก่อให้เกิดการสร้าง MYB DNA binding motif และกระตุ้นยีน TAL1 ที่อยู่ใกล้เคียง ซึ่งสามารถจำลองกลไกผลกระทบของความแปรผันนั้นต่อยีนที่ก่อโรคได้สำเร็จ

ข้อจำกัดในปัจจุบัน

การระบุผลของ องค์ประกอบควบคุมที่อยู่ไกลมาก ซึ่งห่างเกิน 100,000 เบส ยังเป็นความท้าทายอยู่
การจดจำแพตเทิร์นเฉพาะของเซลล์และเนื้อเยื่อยังต้องมีการวิจัยเพิ่มเติม
ขณะนี้ยังไม่ได้พิจารณาการใช้งานสำหรับ การทำนายจีโนมรายบุคคล (การวินิจฉัยหรือการทำนายเฉพาะบุคคล)
ทำนายได้เฉพาะในระดับโมเลกุล และยังไม่สามารถอธิบายสาเหตุอันซับซ้อนของทุกโรคได้อย่างสมบูรณ์
ปัจจุบันยังอยู่ในขั้นประกาศเพื่อการวิจัย จึงยังไม่สามารถประเมินความเหมาะสมทางคลินิกโดยตรงหรือประยุกต์ใช้ในการรักษาได้

การสนับสนุนชุมชนและทิศทางต่อจากนี้

สามารถใช้งาน API ได้ทันทีเพื่อการวิจัยแบบไม่แสวงหากำไร และมีแผนเพิ่มการใช้งานของ AlphaGenome ผ่าน ความร่วมมืออย่างกว้างขวางกับชุมชนนักวิจัย
กำลังเปิดรับ feedback และกรณีการใช้งานผ่าน community forum และช่องทางอื่น ๆ
มีแผนพัฒนาเป็นเวอร์ชันขยายที่เพิ่มข้อมูล ชนิดสปีชีส์ และ modality มากขึ้น
คาดว่าจะช่วยผลักดันนวัตกรรมใหม่ด้านการแพทย์และชีววิทยาศาสตร์ที่เกี่ยวข้องกับการตีความจีโนม

สรุป

AlphaGenome คือเครื่องมือวิเคราะห์จีโนมด้วย AI แบบใหม่ที่ช่วยตีความ ความหมายของความแปรผันทางพันธุกรรม จากหลายมุมมองพร้อมกัน และเร่งงานวิจัยทั้งพื้นฐานและทางคลินิก
มีแผนร่วมมือกับกลุ่มผู้เชี่ยวชาญภายนอกเพื่อขยาย นวัตกรรมบนฐานข้อมูลจีโนม ให้เข้าถึงผู้คนได้มากที่สุด

2 ความคิดเห็น

galadbran 2025-06-27

พอเกิดความสงสัยว่า มัลติโมดัลลิตีของโมเดล AI ที่จัดการการทำนายยีนนั้นมีโมดัลอะไรบ้าง เลยไปถาม o3 ดู ก็ได้คำตอบว่ามีสิ่งอย่างเช่น ปริมาณการถอดรหัส ตำแหน่งเริ่มต้นและสิ้นสุดของการถอดรหัส การสไปลซิง ฯลฯ ที่ถือเป็นโมดัลลิตี

GN⁺ 2025-06-27

ความคิดเห็นจาก Hacker News

มองว่านี่เป็นสัญญาณที่เห็นได้ว่าความกดดันจากภาคธุรกิจกำลังรุนแรงขึ้น แม้จะเป็นโมเดลที่รันได้บน A100 เพียงตัวเดียว ก็ยังไม่เปิดโค้ดหรือพารามิเตอร์ และให้ใช้งานได้แค่หลัง API เท่านั้น ขณะที่หน้า 31 ของเปเปอร์กลับคัดลอกโครงของโมเดลทั้งชุดมาใส่เป็น pseudocode เลย อยากให้ Google/Demis/Sergei อย่างน้อยเปิดพารามิเตอร์ออกมา โมเดลเล็กแค่นี้แต่ถูกขังไว้หลัง API คงไม่ได้ช่วยรักษามะเร็งได้จริง และก็ดูไม่น่าจะทำรายได้ให้ GCloud มากนักด้วย
หวังว่าจะมีจุดเปลี่ยนในงานด้านการจำลองเซลล์ จนสามารถสร้างการจำลองที่มีประโยชน์แบบ molecular dynamics และทำได้จริงบนซูเปอร์คอมพิวเตอร์ยุคปัจจุบัน มองว่าการมองไม่เห็นว่าอะไรเกิดขึ้นข้างในเป็นอุปสรรคใหญ่ของงานวิจัยชีววิทยา
- ทาง Arc ก็กำลังพยายามทำเรื่องนี้อยู่จริง ดูรายละเอียดได้จากข่าวที่เกี่ยวข้องบน arcinstitute.org
- คิดว่าสุดท้าย quantum computing อาจช่วยแก้ปัญหานี้ได้ แต่คงต้องรออีกราว 10 ปี ส่วนการเร่งความก้าวหน้าด้วย AI ยังเดายาก
- อยากให้มีความพยายามสร้างการจำลองเชิงกำหนดแบบแท้จริงมากขึ้น มองว่าวิธีที่เผยให้เห็นกระบวนการภายในสำคัญกว่ากล่องดำที่แสดงแค่ผลลัพธ์
ไม่ใช่ว่า DeepMind เป็นเจ้าเดียวที่ทำงานวิจัยการประยุกต์ใช้ AI ที่มีอิมแพกต์สูง แต่ก็สงสัยว่าทำไมถึงโดดเด่นเป็นพิเศษในสายนี้ เป็นเพราะทำ technical marketing เก่ง หรือมีเหตุผลอื่นกันแน่
- เปเปอร์นี้ทำออกมาดี แต่ยังไม่ถึงขั้นนวัตกรรมพลิกวงการ และความพยายามคล้ายกันนี้ก็มีมานานแล้ว
- DeepMind ทำเรื่องนี้มานานมาก และยังมีทรัพยากรมหาศาลจาก Google หนุนหลัง ตามข้อมูลจาก perplexity การสร้างฐานข้อมูล alphafold 2 ใช้เวลา “หลายล้าน GPU ชั่วโมง”
- ในสายชีววิทยาศาสตร์ Arc Institute กำลังทำงานวิจัยที่สดใหม่น่าสนใจมาก ส่วนฝั่งบริษัทยา Genentech หรือ GSK ก็ทำผลงานได้ยอดเยี่ยมในกลุ่ม AI
- ในเมื่อเป็นองค์กรภายใต้ Google การได้รับการสนับสนุนจากบริษัทมูลค่า 2 ล้านล้านดอลลาร์ย่อมให้ข้อได้เปรียบมากกว่าแค่เรื่องการตลาด
พอลองนึกภาพการขยายขนาดอินพุตไปถึง 3.2Gbp ซึ่งเป็นขนาดจีโนมมนุษย์ ก็ดูเหมือนจะมีปฏิสัมพันธ์ที่น่าสนใจเกิดขึ้น อีกจุดที่น่าสนใจก็คือ U-net และ transformer กำลังกลายเป็นศูนย์กลางของงานวิจัย
- แต่ในทางปฏิบัติคิดว่าไม่น่าจำเป็นต้องเกิน 2 เมกะเบส เพราะจีโนมไม่ได้เป็นลำดับต่อเนื่องเส้นเดียว แต่ถูกแยกและจัดระเบียบทางกายภาพเป็นระดับโครโมโซมและ topologically associated domain โดยช่วงราว 2 เมกะเบสก็ครอบคลุมระยะปฏิสัมพันธ์หลักระหว่าง cis regulatory element กับ effector gene ได้เกือบทั้งหมดแล้ว
- กับความเห็นที่ว่า “ทุกอย่างหมุนรอบ U-net และ transformer” ก็มีการพูดถึงมุมมองแบบ ‘คนที่มีแต่ค้อน’
คาดว่าในบริษัทต่าง ๆ ก็น่าจะมีไอเดียนำข้อมูลจีโนมมาใช้เพิ่มประสิทธิภาพโฆษณาด้วย เช่น ถ้าเห็นความเสี่ยงมะเร็งลำไส้ใหญ่ก็ยิงโฆษณา “อาหารเสริมสุขภาพลำไส้” หรือวิเคราะห์แนวโน้มจากข้อมูลพันธุกรรมแล้วทำการตลาดทำนอง “ยีนนี้มีความสัมพันธ์กับการชอบมุกตลกร้าย โปรโมตหนังเรื่องใหม่กับคนที่มียีนนี้”
การก้าวกระโดดครั้งใหญ่ของความแม่นยำในการทำนาย RNA น่าจะเปิดโอกาสใหญ่ให้กับห้องแล็บ mRNA
- (มีคำตอบต่อทันทีว่า: คิดว่าประเด็นนี้อาจเห็นชัดยิ่งกว่าในพื้นที่นอกสหรัฐฯ)
หลังเข้าทำงานที่ Google ในปี 2008 ไม่นาน ก็เคยผลักดันให้ลงทุนในสายชีววิทยาศาสตร์อย่างมาก เชื่อมั่นว่า Google จะสร้างผลลัพธ์ระดับโลกได้ด้วยความสามารถด้านการประมวลผลข้อมูลและ ML และช่วยให้ชีววิทยาคนอื่นทำซ้ำแนวทางนั้นได้จริง โดยในเวลาต่อมาก็มีผลลัพธ์น่าสนใจจากการพับ/ออกแบบโปรตีนผ่าน exacycle และยังต่อยอดไปสู่การเปิดตัว Cloud Genomics สำหรับเก็บและวิเคราะห์ชุดข้อมูลขนาดใหญ่ด้วย สุดท้าย DeepMind ก็ทำให้เป้าหมายที่ตัวเองเคยคิดไว้เกิดขึ้นได้อย่างยอดเยี่ยมยิ่งกว่าที่คาด เปเปอร์ล่าสุดมีอะไรให้ดูเยอะมากจนชุมชนคงต้องใช้เวลาพอสมควรกว่าจะย่อยเนื้อหาได้หมด
- เห็นด้วยกับคำวิจารณ์ที่ว่า Sundar ไม่ใช่ผู้นำที่สร้างแรงบันดาลใจในฐานะ CEO ของ Google แต่เขาพาบริษัทเติบโตจากกำไรรายไตรมาส 3B ในปี 2015 ก่อนรับตำแหน่ง เป็น 35B ในไตรมาส 1 ปี 2025 หรือโต 10 เท่า มองว่าเขาเก่งมากเรื่องธุรกิจโฆษณาและเป็นคนสำคัญที่ทำให้บริษัทมีความสามารถทำกำไรแบบทุกวันนี้ การเปลี่ยนผ่านสู่ AI อาจช้าไปนิด แต่ก็มองว่ายังแข่งขันได้ในด้านอย่าง gemini และ DeepMind เองก็ทำผลงานได้ยอดเยี่ยม สรุปคือ “Sundar อาจไม่ค่อย hype แต่ผลงานยอดเยี่ยม”
- มีความเห็นว่า ประโยคทำนอง “ดีใจที่ความฝันอันยาวนานเป็นจริงแล้ว” ฟังดูหลงตัวเองพอสมควร เพราะถึงคนส่วนใหญ่จะมีไอเดียดี ๆ เหมือนกัน ก็ยังรู้สึกแปลกถ้าจะพูดว่า “ในที่สุด! ไอเดียของฉันได้มาสู่โลกแล้ว...”
- มีคนถามว่าเคยคุยเรื่องนี้กันบนรถรับส่ง Santa Cruz เมื่อก่อนหรือไม่ เพราะตอนนั้นบทสนทนาน่าสนใจมาก และจนถึงตอน AlphaGenome ออกมาก็ยังรู้สึกตื่นเต้นอยู่
- จากมุมมองของพนักงาน Google ปัจจุบัน ความเห็นต่อ Sundar ค่อนข้างซับซ้อน ยอมรับว่าเขาลงทุนกับโครงสร้างพื้นฐานและเครื่องมือด้าน AI มาตั้งแต่ช่วงแรก ๆ แต่คิดว่าควรยกเครดิตให้ Jeff Dean มากกว่า Demis
น่าผิดหวังที่เปเปอร์มองข้ามหนึ่งในปัญหาใหญ่ที่สุด นั่นคือการแยกแยะระหว่างตัวแปรพันธุกรรมที่เป็นสาเหตุจริงกับตัวแปรที่ไม่เป็นเหตุ แต่มีความเชื่อมโยงสูงกันอยู่ในช่วง DNA เดียวกัน ซึ่งในพันธุศาสตร์เรียกว่า fine mapping การตีกรอบบริเวณควบคุมหลักให้แคบและแม่นยำมีความสำคัญมากต่อการหา drug target ที่มีประสิทธิภาพ เปเปอร์ Nature ฉบับล่าสุดก็มีตัวอย่างของปัญหานี้ รวมถึงกรณีที่เชื่อมไปถึง candidate drug สำหรับควบคุมการทำงานของ macrophage ในโรคภูมิคุ้มกันทำลายตนเอง
- เลยสงสัยว่าผลลัพธ์ครั้งนี้พาเราเข้าใกล้ทิศทางนั้นมากขึ้นหรือยัง แม้จะไม่ได้มีความรู้เชิงลึกมาก แต่ก็ดูสมเหตุสมผลว่าถ้าการทำนายฟังก์ชันดีขึ้น ก็น่าจะแยกความต่างระหว่างตัวแปรที่สำคัญจริงกับตัวแปรที่ไม่มีความหมายได้ง่ายขึ้น และขั้นถัดไปก็น่าจะเป็นการผสานเข้ากับวิธีการทำ statistical fine mapping ที่เหมาะสม