GN⁺: 일러스트레이티드 AlphaFold
(elanapearl.github.io)소개
이 글을 읽어야 할 사람
- AlphaFold3의 작동 방식을 이해하고 싶은 사람
- 복잡한 구조를 시각적으로 이해하고 싶은 사람
- 머신러닝에 익숙한 사람
아키텍처 개요
- AlphaFold3는 단백질, 핵산, 소분자 등의 구조를 예측함
- 복잡한 입력 타입을 처리하기 위해 더 복잡한 특징화/토큰화 방식 사용
입력 준비
토큰화
- 표준 아미노산: 1 토큰
- 표준 뉴클레오타이드: 1 토큰
- 비표준 아미노산/뉴클레오타이드: 1 토큰 당 원자
- 기타 분자: 1 토큰 당 원자
검색 (MSA 및 템플릿 생성)
- 유사한 서열을 찾아 MSA와 템플릿 생성
- 유클리드 거리 계산 후 디스토그램으로 변환
원자 수준 표현 생성
- 각 아미노산, 뉴클레오타이드, 리간드의 "참조 구조" 생성
- 원자 수준의 단일 표현(q)과 쌍 표현(p) 생성
원자 수준 표현 업데이트 (Atom Transformer)
- q와 p를 업데이트하여 더 나은 표현 생성
- Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating, Conditioned Transition 사용
원자 수준 -> 토큰 수준 집계
- 원자 수준의 표현을 토큰 수준으로 변환
- MSA 및 사용자 제공 정보 추가
표현 학습
템플릿 모듈
- 템플릿을 사용하여 z 업데이트
MSA 모듈
- MSA와 z를 업데이트
- Outer Product Mean, Row-wise Gated Self-Attention Using Only Pair Bias 사용
Pairformer 모듈
- s와 z를 업데이트
- Triangle Updates, Triangle Attention 사용
구조 예측
확산의 기본 원리
- 확산 모델을 사용하여 구조 예측
- 노이즈를 추가하고 제거하여 최종 구조 생성
GN⁺의 정리
- AlphaFold3는 단백질, 핵산, 소분자 등의 복잡한 구조를 예측함
- 시각적 다이어그램과 함께 복잡한 모델 구조를 설명하여 이해를 돕음
- 머신러닝과 생명공학 분야에서 중요한 발전을 이룬 모델임
- 유사한 기능을 가진 프로젝트로는 RosettaFold 등이 있음
Hacker News 의견
-
이 글은 구조 생물학자가 이해할 수 있도록 논문을 번역해줘서 감사함
-
PTM의 수가 제한된 AF3가 모든 원자를 개별 토큰으로 처리해야 한다는 것을 알게 됨
-
이는 PTM이 PDB에서 매우 적게 나타나기 때문일 것임
-
신경망과 AI 기술이 미래에 어떻게 구현될지 엿볼 수 있는 글임
-
많은 엔지니어링과 기존 기술의 영리한 조작이 강력하고 잘 훈련된 모델과 결합됨
-
현재 ChatGPT 같은 것은 데이터 일반화와 처리의 기초 모델을 만드는 첫 단계에 있음
-
입력을 모델이 최적으로 이해할 수 있도록 처리하는 작업이 많이 이루어지지 않음
-
이 분야에 대한 기초적인 연구는 있지만 Alphafold 같은 정교한 것은 아직 없음
-
사람들은 LLM을 결합하고 시스템 프롬프트를 사용해 입력 처리를 돕고 있음
-
더 복잡한 시스템이 생기면 진정한 AGI와 유사한 것을 볼 수 있을 것임
-
매우 복잡함
-
단백질 서열을 정렬하는 데 사용되는 MSA 알고리즘에 대해 듣지 못했음
-
놀라운 글임, 감사함
-
더 자세히 읽어볼 예정임