- SimpleFold คือโมเดลทำนายการพับโปรตีนแบบ flow-matching รุ่นแรก ที่ Apple เปิดตัว และเป็น เฟรมเวิร์กโอเพนซอร์สสำหรับการทำนายโครงสร้างโปรตีน
- แทนที่จะใช้การออกแบบเฉพาะทางที่ซับซ้อนแบบเดิม ระบบนี้กลับทำผลงานได้สูงด้วยเพียง เลเยอร์ Transformer แบบทั่วไป และ การฝึกเชิงกำเนิดแบบ flow-matching
- ฝึกด้วยขนาด 3B (3 พันล้าน) พารามิเตอร์ ซึ่งนับว่าใหญ่ที่สุดเท่าที่เคยมีมา และแสดง ความสามารถแข่งขันกับโมเดล SOTA (ล้ำสมัย) บนเบนช์มาร์กสาธารณะ
- ไม่มีโมดูลเชิงโครงสร้างที่ซับซ้อน เช่น triple attention หรือ pair representation จึง มีประสิทธิภาพและเหมาะกับการขยายไปยังชุดข้อมูลขนาดใหญ่
- สามารถปรับจูนและฝึกใหม่ด้วยข้อมูลเฉพาะของผู้ใช้ได้ ทำให้ เหมาะต่อการใช้งานจริงที่หลากหลายในชีวสารสนเทศ เภสัชกรรม และสาขาอื่น ๆ
แนะนำ SimpleFold และความสำคัญ
- SimpleFold เป็นโมเดลทำนายการพับโปรตีนแบบ flow-matching รุ่นแรก ที่ Apple เปิดตัว
- แตกต่างจากโมเดลหลักก่อนหน้า โดยไม่ใช้ triangle attention ที่ซับซ้อนหรืออคติจาก pair representation แต่ใช้เพียง เลเยอร์ Transformer แบบทั่วไป เท่านั้น
- โมเดลนี้ฝึกด้วยเป้าหมายเชิงกำเนิดแบบ flow-matching จึงแสดง ประสิทธิภาพสูงทั้งในการคาดการณ์แบบเดี่ยวและแบบ ensemble
- ขยายขนาดได้สูงสุดถึง 3B พารามิเตอร์ และฝึกขนาดใหญ่โดยผสาน ข้อมูลโปรตีนมากกว่า 8.6 ล้านรายการ เข้ากับข้อมูล PDB ที่อิงจากการทดลอง
- นี่คือ โมเดลการพับโปรตีนที่มีขนาดใหญ่ที่สุด เท่าที่มีการประกาศมาจนถึงตอนนี้
ฟังก์ชันหลักและข้อดี
- ความอเนกประสงค์: สามารถนำไปใช้ได้กับหลายโดเมนและชุดข้อมูลโดยไม่มีข้อจำกัด
- ประสิทธิภาพ: เนื่องจากไม่มีคอมโพเนนต์เฉพาะทางที่ซับซ้อน จึงได้เปรียบทั้งด้านความเร็วในการฝึก/อนุมาน และขนาดโมเดล
- การขยายขนาด: มีหลายขนาดตั้งแต่ 100M~3B พารามิเตอร์ รองรับทั้ง GPU และ MLX (PyTorch/ฮาร์ดแวร์ Apple)
- การฝึกเชิงกำเนิด: รองรับการคาดการณ์แบบ ensemble ที่ให้ผลลัพธ์หลายแบบได้ในครั้งเดียว
- รองรับข้อมูลผู้ใช้: สามารถฝึกใหม่ ปรับจูน และดัดแปลงใช้งานด้วยชุดข้อมูลของตนเองได้อย่างอิสระ
ตัวอย่างการใช้งานและสิ่งที่รองรับ
- มีตัวอย่าง Jupyter Notebook (
sample.ipynb) ให้ใช้งาน และสามารถป้อนลำดับโปรตีนจริงเพื่อทำนายโครงสร้างได้ทันที
- การอนุมานประสิทธิภาพสูง: ในอินเทอร์เฟซบรรทัดคำสั่งสามารถเลือกขนาดโมเดล ระบุ backend สำหรับการอนุมาน (MLX, PyTorch) และส่งคืนไฟล์ผลลัพธ์พร้อมตัวชี้วัดความเชื่อมั่น (pLDDT) ได้
- ผลลัพธ์บนชุดข้อมูลเบนช์มาร์ก: มีการเปิดเผยผลการทำนายของ SimpleFold บนชุดประเมินมาตรฐาน (CAMEO22, CASP14 เป็นต้น)
- การประเมินผล: มีสคริปต์ประเมินที่เชื่อมกับเครื่องมือเดิมอย่าง OpenStructure และ TMscore เพื่อรองรับการประเมินการทำนายโครงสร้างในหลายรูปแบบ
การฝึกและการเตรียมข้อมูล
- สำหรับข้อมูลฝึก ใช้ โครงสร้างโปรตีนที่ผ่านการคัดกรองมากกว่า 8.6 ล้านรายการ จาก ข้อมูลทดลอง PDB และ AFDB SwissProt/AFESM/AFESM-E
- มีการเปิดเผย data list (target list) และไฟล์ตัวอย่าง เพื่อช่วยให้นักวิจัยสร้างชุดข้อมูลที่เหมาะกับงานของตนได้
- สามารถตั้งค่าสภาพแวดล้อมการทดลองได้ง่ายด้วยการพรีโปรเซสไฟล์ MMCIF, การใช้ Redis และไฟล์ตั้งค่าบนพื้นฐาน Hydra
- มีสคริปต์ฝึกตัวอย่าง (
train.py, train_fsdp.py) และค่า config ให้พร้อมใช้งาน
โอเพนซอร์สและการอ้างอิง
- เผยแพร่ภายใต้ MIT License จึงสามารถนำไปใช้เพื่อการวิจัยหรือเชิงพาณิชย์ได้อย่างอิสระ
- โค้ดและโมเดลรวมผลงานจากโอเพนซอร์สหลายโครงการและผู้ร่วมพัฒนาหลายราย โดยรายละเอียดเพิ่มเติมดูได้ใน ACKNOWLEDGEMENTS
- หากนำไปใช้งาน โปรดอ้างอิงบทความ arXiv (Arxiv:2509.18480)
บทสรุป
- SimpleFold นำเสนอ กระบวนทัศน์ใหม่ ให้กับวงการ ด้วยแนวทางที่เรียบง่ายแต่ทรงพลัง แทนโครงสร้างซับซ้อนที่โมเดลทำนายโครงสร้างโปรตีนแบบเดิมพึ่งพา
- โดยเฉพาะการผสานระหว่างสถาปัตยกรรม Transformer แบบทั่วไปและการฝึกเชิงกำเนิด ทำให้คาดหวังได้ถึง การประยุกต์ใช้อย่างสร้างสรรค์ที่หลากหลาย ในวิทยาศาสตร์ชีวภาพ การค้นคว้ายา และชีวสารสนเทศ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ประเด็นที่พลาดกันได้ง่ายตรงนี้คือ โมเดลที่ว่า "เรียบง่าย" นั้นจริง ๆ ไม่ได้เรียนรู้การพับจากโครงสร้างเชิงทดลองโดยตรง ข้อมูลฝึกส่วนใหญ่มาจากการพยากรณ์แบบ AlphaFold ซึ่งก็คือโครงสร้างโปรตีนหลายล้านรายการที่สร้างโดยโมเดลขนาดใหญ่และซับซ้อนซึ่งออกแบบบนพื้นฐานของ MSA อยู่แล้ว กล่าวคือ ไม่ใช่ว่าจะทิ้ง inductive bias และเครื่องมือ MSA ทั้งหมดได้ เพราะยังต้องมีใครสักคนสร้างและรันโมเดลเหล่านั้นเพื่อผลิตข้อมูลสำหรับการฝึก
บทเรียนที่ผมได้จากเรื่องนี้คือความเรียบง่ายและการขยายขนาด ในวงการแมชชีนเลิร์นนิง มักจะมีโมดูลที่ซับซ้อนขึ้นเรื่อย ๆ เพื่อดันประสิทธิภาพ แล้วจู่ ๆ ก็มีจุดเปลี่ยนที่โมเดลเรียบง่ายทำได้ทัดเทียมกับโมเดลซับซ้อน สถาปัตยกรรมที่ "เรียบง่าย" แบบนี้ทำงานได้ดีด้วยตัวเอง ก็หมายความว่าอาจใส่ความซับซ้อนกลับเข้าไปแล้วไปได้ไกลกว่าเดิมอีก ตอนนี้ผมเลยสงสัยว่าจะเอา MSA กลับมาใส่ได้ไหม และจะไปได้ไกลแค่ไหน เท่าที่ผมเข้าใจ โมเดลกำเนิดแบบ "คร่าว ๆ" จะเสนอคำเดาที่พอใช้ได้หลายแบบ แล้ว "ตัวตรวจสอบ" ที่เป็นทางการกว่าจะช่วยบังคับให้เป็นไปตามกฎฟิสิกส์/เรขาคณิต AI ช่วยลดพื้นที่ค้นหาที่ใหญ่เกินจินตนาการ ทำให้การจำลองราคาแพงไม่ต้องเสียไปกับจุดที่ไม่มีประโยชน์ เมื่อเครือข่ายสำหรับการเดาดีขึ้น กระบวนการทั้งหมดก็เร็วขึ้น พอมองย้อนกลับไปก็ทำให้นึกถึง recurrent network กับ transfer function ที่ซับซ้อนขึ้นเรื่อย ๆ, สายโซ่การ preprocess ที่ซับซ้อนก่อนยุค skip-forward layer, เป้าหมาย normalization ที่ซับซ้อนก่อน ReLU, เครือข่าย GAN ที่มีวัตถุประสงค์ซับซ้อนก่อน diffusion, และโมเดลหลายทางเดินที่ซับซ้อนก่อน fully convolutional network ในแง่นี้ ผมตื่นเต้นกับงานนี้มาก ไม่ใช่เพราะมันเป็นสถาปัตยกรรมที่ดีที่สุด แต่ตรงกันข้าม เพราะมันอาจยังไม่ใช่ต่างหาก
ผมไม่แน่ใจว่านี่แปลกขนาดนั้นไหม แทบทุกสิ่งที่เรียบง่าย ล้วนเคยถูกมองว่าซับซ้อนมาก่อน นั่นแหละคือ emergence และโดยทั่วไป ถ้าจะหาสูตรที่เป็นสากลและเรียบง่ายได้ ก็มักต้องผ่านความซับซ้อนทั้งหมดไปก่อน ปรากฏการณ์ในธรรมชาติก็ดูชัดเจนว่าเกิดจากกฎที่ค่อนข้างเรียบง่าย คล้ายกับการพยายามอนุมานกฎกับค่าเริ่มต้นย้อนกลับจาก Game of Life ใครที่บอกว่าง่ายก็คงมั่นใจเกินไปหน่อย แต่แทบไม่มีใครเชื่อจริง ๆ ว่า P=NP
AlphaFold เป็นโมเดลที่ผ่านการตรวจสอบโดยการสังเกตโปรตีนที่พับแล้วด้วยการทดลองแบบ X-ray
ใช่ สำหรับคนที่อาจยังไม่รู้ MSA ถูกใช้เพื่อทำให้สามารถทั่วไปจากโครงสร้าง PDB ที่มีอยู่ไปสู่ลำดับใหม่ ๆ ได้ หากฝึกด้วยผลลัพธ์จาก AlphaFold2 ความสามารถในการทำให้สามารถทั่วไปนั้นก็ถูกบรรจุรวมมาแล้ว ดังนั้นตอนนี้โมเดลจึงไม่จำเป็นต้องมีความสามารถนั้นอีกต่อไปแล้ว (แค่จำให้ได้ก็พอ) ข้อสรุปง่าย ๆ นี้ดูเหมือนผู้เขียนงานจะมองข้ามไป
ผมรู้จักการพับโปรตีนครั้งแรกจากโครงการ Folding@Home(https://foldingathome.org) สมัยที่พลังงานในหอมหาวิทยาลัยแทบฟรีและมี media server เหลือ ๆ ไม่ได้เป็นผู้เชี่ยวชาญ แต่สงสัยว่าทุกวันนี้บนฮาร์ดแวร์สมัยใหม่ การพับโปรตีนถูกทำให้ง่ายขึ้นมากแล้วหรือยัง หรือว่าใช้ได้กับปัญหาเฉพาะบางอย่างเท่านั้น ดูเหมือนโครงการ Folding@Home ก็ยังมีอยู่
เท่าที่ผมรู้ Folding@Home เป็นตัวแก้ปัญหาการจำลองบนพื้นฐานฟิสิกส์ ส่วน AlphaFold และสายต่อของมัน (รวมถึงงานนี้) เป็นวิธีเชิงสถิติ วิธีเชิงสถิติใช้การคำนวณน้อยกว่ามาก แต่เพราะอิงกับการพับโปรตีนที่มีอยู่แล้ว จึงพยากรณ์ได้ไม่ดีนักหากโปรตีนไม่คล้ายกับสิ่งในชุดฝึก กล่าวคือมี trade-off ระหว่างความเร็วกับความครอบคลุม แต่ประสิทธิภาพก็ดีขึ้นมากพอจนตอนนี้มักจะพอสร้างโครงสร้างการพับของโปรตีนที่ต้องการได้แล้ว การพยากรณ์การพับที่เมื่อก่อนแทบเป็นไปไม่ได้ ตอนนี้กลายเป็นส่วนหนึ่งของ workflow ปกติไปแล้ว
ผมก็ชอบ SETI@Home เหมือนกัน และถึงจะไม่รู้ผลลัพธ์คืออะไรแบบ 100% แต่เอฟเฟกต์ภาพก็ดึงดูดสายตาและสนุกดี
ตามโพสต์ในบล็อกของ F@H (ลิงก์) เขาบอกว่าการรู้พลวัตของการพับก็ยังสำคัญ ไม่ใช่แค่รูปทรงสุดท้ายเท่านั้น โปรตีนที่ ML พยากรณ์ได้ก็ยังเป็นเป้าหมายสำคัญสำหรับการตรวจสอบด้วยการจำลองและการทำความเข้าใจกลไกการทำงาน
Folding@Home ยังดำเนินงานอย่างคึกคักอยู่ และตลอดมาก็สร้างการค้นพบที่ยอดเยี่ยมไว้มากมาย (ลิงก์บทความ/ผลลัพธ์)
เนื้อหาของบทความคือ "วิธีของเราเรียบง่ายกว่าโมเดลระดับ state of the art" แต่กลับไม่ได้พูดเสียงดังนักว่า "มันตามหลัง state of the art อย่างมากในทุกตัวชี้วัด" คงไม่ง่ายที่จะตีพิมพ์งาน แต่พอแปะชื่อบริษัทยักษ์ใหญ่แล้วปล่อยเป็น preprint ก็ดูจะดึงความสนใจได้มากขึ้น
คลัง GitHub ที่ลิงก์ไว้ในบทความนี้น่าอ่านมากจริง ๆ (ลิงก์ arXiv)
แค่อ่านบทคัดย่อ (ถ้าผมอ่านถูกนะ) ก็ประมาณว่า "ยังต้องใช้ AI เหมือนเดิม แต่ใช้ AI น้อยกว่าวิธีอื่นมาก"
แบ่งปันลิงก์ GitHub ไว้ด้วยสำหรับคนที่สนใจ (apple/ml-simplefold)
สงสัยว่าทำไม Apple ถึงมาทำเรื่องการพับโปรตีน
Apple ก็มีทีมวิจัย ML เหมือนกัน ไม่ได้ทำแค่งานวิจัยสไตล์ Apple เท่านั้น แต่ยังทำหลายธีมทั้งการเพิ่มประสิทธิภาพทั่วไปและงานวิจัยพื้นฐานด้วย (Apple Machine Learning Research)
ผมก็ไม่รู้เหมือนกัน แต่ผมอยากสมัครงาน R&D ที่ไม่จำเป็นต้องคาดหวังรายได้ตรง ๆ บางทีโปรเจกต์แบบนี้อาจถูกใช้เป็นงานทดสอบเพื่อทดลอง/ปรับแต่งชิป AI ของบริษัทเองก็ได้
ผมคิดว่าเพราะ local inference นะ Apple น่าจะอยากทำให้โมเดลล้ำสมัยแบบนี้มีขนาดเล็กลงและรันอนุมานได้เร็วบนเดสก์ท็อป ในบทความก็มีผลการอนุมานบน M2 Max 64GB ใน Figure 1E ด้วย จริง ๆ แล้วไอเดียนี้ยอดเยี่ยมมาก บริษัทยาขนาดเล็กก็อาจข้ามข้อจำกัดหลายอย่างได้ง่ายขึ้นเพราะมีความสามารถ local inference ที่รวดเร็ว และยังเอาลำดับที่สร้างขึ้นมาไปลองกับ Bayesian optimization หรือ RL ได้อีก เมื่อเทียบกันแล้ว AlphaFold ต้องใช้ทรัพยากรค่อนข้างมาก อีกทั้งการใช้ multiple sequence alignment เองก็ดูฝืน ๆ อยู่บ้าง ถ้าไม่มีโปรตีนคล้ายกันประสิทธิภาพก็ตก และยังต้อง preprocess หนักมาก Meta's ESM (เมื่อหลายปีก่อน) ก็พิสูจน์ไปแล้วว่าถ้าไม่ต้องจัดเรียงลำดับก็ยังทำได้ดี AlphaFold ไม่ได้มีเวทมนตร์พิเศษอะไร มันก็แค่ปัญหา seq2seq ดังนั้นวิธีหลากหลายแบบจึงใช้ได้ดีทั้งหมด รวมถึง attention-free SSMs ด้วย
เพื่อขายคอมพิวเตอร์หรือเปล่า? เมื่อ 20 ปีก่อน Apple ยังมี poster session ด้านวิทยาศาสตร์ใน WWDC และพยายามพอร์ต PyMol มาลง Mac ด้วย ภาพโปรตีนในบทความทำด้วย PyMol และตลอด 15 ปีที่ผ่านมา ภาพในงานวิจัยวิทยาศาสตร์มากกว่าครึ่งก็มาจาก PyMol
ไม่รู้ว่านี่คือเหตุผลจริงไหม แต่โปรเจกต์ "ai for science" จำนวนไม่น้อยจริง ๆ แล้วเป็นงานเพื่อการตลาด ถึงแม้จะไม่ได้สร้างประโยชน์โดยตรงต่อผลิตภัณฑ์ของบริษัทหรือไม่มีผลลัพธ์เชิงปฏิบัติชัดเจน โปรเจกต์แบบนี้ก็ช่วยเสริม "สถานะของแบรนด์" ได้มาก
หลังจาก AlphaFold เปิดตัว ผมสงสัยว่าการจำลอง molecular dynamics (MD) แบบดั้งเดิมนั้นหมดประโยชน์ในวงการการพับโปรตีนไปแล้วหรือยัง งานที่ออกมาจากที่อย่าง DESRES ยังถือว่าเกี่ยวข้องโดยตรงกับการพับโปรตีน หรือว่าไปทำเรื่องอื่นกันหมดแล้ว
MD จัดการกับการเคลื่อนที่ของอะตอม ส่วน AlphaFold ให้มาแค่สแนปช็อตของผลลัพธ์ ดังนั้น AlphaFold ไม่ได้จัดการเรื่องพลวัต หัวใจของ MD ยังเป็นเรื่องการเคลื่อนไหวเหมือนเดิม
ผมไปค้นมาเพราะสงสัยว่า parameter ของ AlphaFold V3 ให้เฉพาะบางองค์กรเท่านั้น (และจำกัดไว้สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์) ไม่ได้เปิดให้ทุกคนรับได้ (V3 พารามิเตอร์) ขณะที่ AlphaFold V2 ใคร ๆ ก็ดาวน์โหลดได้ (V2 พารามิเตอร์)
เดิมที MD ก็ไม่ใช่วิธีที่ใช้พยากรณ์โครงสร้างได้ดีอยู่แล้ว ไม่ใช่ว่ามันหมดประโยชน์เพราะ AlphaFold แต่โดยพื้นฐานแล้ว MD เหมาะกว่าสำหรับศึกษาการพับโปรตีนเอง (ทั้งกระบวนการก่อนเกิดโครงสร้างสุดท้าย หรือการเคลื่อนไหวอย่างเป็นระบบหลังจากพับแล้ว)
ผมสงสัยว่าภาพโปรตีนในบทความคืออะไรเลยไปค้นมา: "Figure 1 SimpleFold prediction result… ผลจริงเป็นสีเขียวมรกตอ่อน ส่วนการพยากรณ์เป็นสีเขียวอมฟ้าเข้ม" แต่สุดท้ายกลับสงสัยมากกว่าว่าทำไมถึงเลือกคู่สีแบบนั้น
อยากให้ผู้เชี่ยวชาญช่วยประเมินว่ามุมมองนี้จะมีความหมายอย่างไรต่อการวิจัยการพับโปรตีน ดูเป็นงานที่เจ๋ง แต่ผมยังไม่ค่อยแน่ใจว่าผลกระทบจริงจะเป็นอย่างไร
โมเดลนี้มีรูปแบบที่เรียบง่ายจึงใช้แค่ transformer อย่างเดียว ทำให้สามารถใช้ทฤษฎีและเครื่องมือต่าง ๆ ที่มีอยู่สำหรับ transformer ได้ตรง ๆ และที่สำคัญที่สุดคือขยายโมเดลได้ง่าย แต่ประเด็นที่สำคัญกว่านั้นคือ AlphaFold ไม่ได้มีเวทมนตร์อะไร ความลับไม่ได้อยู่ที่รายละเอียดของสถาปัตยกรรมหรือวิธีฝึกมากนัก แต่อยู่ที่การฝึกโมเดลใหญ่บนชุดข้อมูลใหญ่ในที่สุด หลายคนที่เคยลองใช้ AlphaFold เชิงทดลองสังเกตว่ามันทำงานคล้าย LLM มาก (เข้ากับอินพุตที่คล้ายกับชุดข้อมูลฝึกได้ดี แต่แทบไม่ทำให้สามารถทั่วไป)
โมเดลในอนาคตอาจมีการเปลี่ยนแปลงก็ได้ ความเห็นของบางคนอาจพอใช้อ้างอิงได้ (SimpleFold และอนาคตของการพยากรณ์โครงสร้างโปรตีน) แต่การวิจัยต้องใช้เวลาเสมอ กว่าจะเห็นผลกระทบจริงก็ต้องรอดูอีกหลายเดือนหรือหลายปี การทำนายอนาคตมีข้อจำกัด
ไม่ใช่เรื่องใหม่เสียทีเดียว แต่การได้เห็นแนวโน้มที่โมเดลการพับโปรตีนเรียบง่ายลงเรื่อย ๆ นั้นน่าประทับใจมาก ตั้งแต่ AF2 ไป AF3 ความซับซ้อนของโมเดลก็ลดลงแล้ว และงานนี้ก็พาแนวโน้มนั้นไปอีกขั้น เป็นการนำ "bitter lesson" มาใช้จริง
เทคนิค Flow-matching ที่บทความพูดถึงน่าสนใจมาก ผมไปรู้จักมันจากการศึกษาในบริบทของ generative AI แล้วก็รู้สึกทึ่งที่เทคนิคซึ่งหยิบยืมแนวคิดจากอุณหพลศาสตร์และการเคลื่อนที่แบบบราวเนียน กลับถูกนำมาใช้แก้ปัญหาการพับโปรตีนได้อย่างลงตัว