실험을 실행하기 전에 세포가 어떻게 보일지 예측하도록 AI 교육

0
1
실험을-실행하기-전에-세포가-어떻게-보일지-예측하도록-ai-교육
실험을 실행하기 전에 세포가 어떻게 보일지 예측하도록 AI 교육

이 글은 협찬을 받아 가져온 글입니다 MBZUAI.

약물이나 유전자 편집 후 세포의 모양이 어떻게 변할지 추측해 본 적이 있다면 그것이 일부는 과학이고 일부는 예술이며 대부분 값비싼 시행착오라는 것을 알 것입니다. 수천 가지 조건을 이미징하는 것은 느립니다. 수백만 달러를 탐험하는 것은 불가능합니다.

의 새로운 논문 네이처커뮤니케이션즈 다른 경로를 제안합니다. 즉, 분자 판독값에서 직접 세포 “이후” 이미지를 시뮬레이션하므로 피펫을 집어들기 전에 형태를 미리 볼 수 있습니다. 팀은 그들의 모델을 MorphDiff라고 부르는데, 이는 전사체에 의해 유도되는 확산 모델로, 교란 후에 유전자의 패턴이 올라가거나 내려갑니다.

높은 수준에서 보면 이 아이디어는 익숙한 작업 흐름을 뒤집습니다. 높은 처리량 이미징은 화합물의 메커니즘을 발견하거나 생체 활성을 발견하는 입증된 방법이지만 모든 후보 약물 또는 CRISPR 표적을 프로파일링하는 것은 가능하지 않습니다. MorphDiff는 유전자 발현과 세포 형태가 모두 알려진 사례로부터 학습한 다음 L1000 유전자 발현 프로파일만 사용합니다. 상태 처음부터 또는 제어 이미지를 교란된 이미지로 변환하여 현실적인 섭동 후 이미지를 생성합니다. 대규모 약물 및 유전자 데이터 세트 전반에 걸쳐 지속되는(보이지 않는) 교란에 대한 경쟁력 있는 충실도와 작용 메커니즘(MOA) 검색에 대한 이득이 실제 이미지에 필적할 수 있다는 주장입니다.

종횡비Mohamed bin Zayed University of Artificial Intelligence라는 단어 옆에 검은색 점이 연결된 로고

이번 연구는 MBZUAI 연구자들은 생물학적 관찰에서 시작합니다. 유전자 발현은 궁극적으로 현미경 아래에서 세포가 어떻게 보이는지 형성하는 단백질과 경로를 유도합니다. 매핑은 일대일은 아니지만 학습을 위한 공유 신호가 충분합니다. 전사체에 대한 컨디셔닝은 실용적인 보너스도 제공합니다. 즉, 쌍을 이루는 형태보다 L1000 데이터에 훨씬 더 공개적으로 액세스할 수 있으므로 광범위한 섭동 공간을 더 쉽게 포괄할 수 있습니다. 즉, 새로운 화합물이 도착하면 MorphDiff가 활용할 수 있는 유전자 서명을 찾을 가능성이 높습니다.

내부적으로 MorphDiff는 두 조각을 혼합합니다. 첫째, MVAE(Morphology Variational Autoencoder)는 5채널 현미경 이미지를 작은 잠재 공간으로 압축하고 높은 지각 충실도로 재구성하는 방법을 학습합니다. 둘째, 잠재 확산 모델은 해당 잠재 공간에서 샘플을 노이즈 제거하는 방법을 학습하여 주의를 통해 L1000 벡터로 각 노이즈 제거 단계를 조정합니다.

데이터 세트 큐레이션 및 섭동 모델링을 포함한 세포 페인팅 분석 파이프라인을 묘사하는 다이어그램. 왕 외., 네이처커뮤니케이션즈 (2025), CC BY 4.0

확산은 여기에 잘 맞습니다. 확산은 본질적으로 노이즈에 강하고 잠재 공간 변형은 이미지 세부 사항을 보존하면서 훈련하기에 충분히 효율적입니다. 팀은 유전자-이미지(G2I) 생성(노이즈에서 시작, 전사체의 조건)과 이미지-이미지(I2I) 변환(동일한 전사체 조건을 사용하여 제어 이미지를 교란 상태로 푸시)을 모두 구현합니다. 후자는 SDEdit 스타일 절차 덕분에 재교육이 필요하지 않으며 이는 컨트롤과 관련된 변경 사항을 설명하려고 할 때 편리합니다.

포토제닉한 사진을 생성하는 것도 중요합니다. 생성하는 것은 또 다른 것입니다 생물학적으로 충실한 것들. 이 논문은 생성 측면에서 FID, Inception Score, 적용 범위, 밀도 및 CLIP 기반 CMMD와 같은 표준 측정항목을 사용하여 GAN 및 확산 기준선에 대해 MorphDiff를 벤치마킹합니다. JUMP(유전자) 및 CDRP/LINCS(약물) 테스트 분할에서 MorphDiff의 두 가지 모드는 일반적으로 첫 번째와 두 번째로 실행되며 유의성 테스트는 여러 무작위 시드 또는 독립적인 컨트롤 플레이트에서 실행됩니다. 결과는 일관됩니다. 특히 실질적인 가치가 있는 OOD 섭동에 대한 충실도와 다양성이 향상됩니다.

더 큰 그림은 생성 AI가 마침내 인실리코 현미경이 1차 실험을 대신할 수 있는 충실도 수준에 도달했다는 것입니다.

생물학자들에게 더 흥미로운 점은 저자가 이미지 미학을 넘어 형태학적 특징까지 한 단계 더 나아간 것입니다. 그들은 수백 개의 CellProfiler 기능(질감, 강도, 세분성, 채널 간 상관 관계)을 추출하고 생성된 분포가 실제와 일치하는지 묻습니다.

나란히 비교하면 MorphDiff의 기능 클라우드는 IMPA와 같은 기준보다 실제 데이터와 더 밀접하게 정렬됩니다. 통계 테스트에서는 생성된 특징 분포의 70% 이상이 실제 분포와 구별할 수 없는 것으로 나타났으며 특징별 산점도는 모델이 올바르게 캡처함을 보여줍니다. 차이점 가장 교란된 기능을 제어할 수 없습니다. 결정적으로, 이 모델은 유전자 발현과 형태학 특징 사이의 상관 구조를 보존하며 이전 방법보다 실제와 더 높은 일치도를 보여 표면 스타일보다 더 많은 모델링을 하고 있다는 증거입니다.

생물학적 데이터 분석의 다양한 계산 방법을 비교하는 그래프 및 이미지. 왕 외., 네이처커뮤니케이션즈 (2025), CC BY 4.0

약물 결과는 그 이야기를 수천 가지 치료법으로 확장합니다. DeepProfiler 임베딩을 컴팩트 형태학 지문으로 사용하여 팀은 MorphDiff에서 생성된 프로필이 차별적임을 보여줍니다. 실제 임베딩에 대해 훈련된 분류자는 교란을 통해 생성된 프로필을 분리하고 약물 효과 간의 쌍별 거리가 보존됩니다.

4개의 패널에서 이미지 합성 기술에 대한 모핑 방법 전반에 걸쳐 정확도를 비교하는 차트입니다. 왕 외., 네이처커뮤니케이션즈 (2025), CC BY 4.0

이는 모두가 관심을 갖는 다운스트림 작업인 MOA 검색에 중요합니다. 쿼리 프로필이 주어지면 동일한 메커니즘을 가진 참조 약물을 찾을 수 있습니까? MorphDiff가 생성한 형태학은 이전 이미지 생성 기준을 능가할 뿐만 아니라 유전자 발현만을 사용한 검색 성능도 뛰어넘으며 사용하는 정확도에 근접합니다. 진짜 이미지. 상위 k 검색 실험에서 가장 강력한 기준선에 대한 평균 개선은 전사체 단독에 비해 16.9% 및 8.0%이며, 평균 평균 정밀도 및 농축 배수와 같은 여러 k 값 및 측정항목에 걸쳐 견고성이 표시됩니다. 이는 시뮬레이션된 형태학이 분자 자체가 전혀 닮지 않은 경우에도 유사한 메커니즘을 찾는 데 도움이 되는 화학 구조 및 전사체학에 대한 보완적인 정보를 포함하고 있다는 강력한 신호입니다.

MorphDiff가 생성한 형태학은 이전 이미지 생성 기준을 능가할 뿐만 아니라 유전자 발현만을 사용한 검색 성능도 뛰어넘으며 실제 이미지를 사용하여 얻는 정확도에 근접합니다.

또한 이 백서는 잠재적인 향후 개선을 암시하는 몇 가지 현재 제한 사항을 나열합니다. 확산에 대한 추론은 상대적으로 느립니다. 저자는 생성 속도를 높이기 위해 최신 샘플러를 연결할 것을 제안합니다. 시간과 집중(생물학자들이 관심을 두는 두 가지 요소)은 데이터 제약으로 인해 명시적으로 인코딩되지 않습니다. 일치하는 데이터 세트를 사용할 수 있게 되면 아키텍처는 이를 추가 조건으로 사용할 수 있습니다. MorphDiff는 입력으로 교란된 유전자 발현에 의존하기 때문에 전사체 측정이 부족한 교란에 대한 형태를 생성할 수 없습니다. 자연스러운 확장은 보이지 않는 약물에 대한 유전자 발현을 예측하는 모델과 연결되는 것입니다(논문에서는 GEARS를 예로 인용함). 마지막으로, 훈련 분포에서 멀리 벗어나면 일반화는 필연적으로 약화됩니다. 구조, 텍스트 설명 또는 염색질 접근성과 같은 더 많은 양식을 조건으로 하는 것처럼 더 크고 더 잘 일치하는 다중 모드 데이터 세트가 도움이 될 것입니다.

이것이 실제로 무엇을 의미합니까? L1000 라이브러리는 크지만 이미징 예산은 더 적은 스크리닝 팀을 상상해 보십시오. MorphDiff는 표현형 부조종사가 됩니다. 새로운 화합물에 대해 예측된 형태를 생성하고, 알려진 메커니즘과의 유사성을 기준으로 클러스터링하고, 확인을 위해 이미지화할 우선순위를 지정합니다. 모델은 해석 가능한 특징 변화도 표면화하므로 연구자들은 내부를 엿볼 수 있습니다. ER 질감과 미토콘드리아 강도가 EGFR 억제제에 대해 기대하는 방식으로 움직였습니까? 구조적으로 관련이 없는 두 분자가 동일한 표현형 인근에 위치했나요? 이는 메커니즘 검색과 용도 변경을 가속화하는 일종의 가설입니다.

더 큰 그림은 생성 AI가 마침내 인실리코 현미경이 1차 실험을 대신할 수 있는 충실도 수준에 도달했다는 것입니다. 우리는 이미 소비자 영역에서 텍스트-이미지 모델이 폭발적으로 증가하는 것을 보았습니다. 여기에서 전사체-형태학 모델은 동일한 확산 기계가 미묘한 다중 채널 표현형을 포착하고 이러한 이미지를 눈요기 이상으로 만드는 관계를 보존하는 등 과학적으로 유용한 작업을 수행할 수 있음을 보여줍니다. 현미경을 대체할 수는 없습니다. 그러나 중요한 것을 찾기 위해 실행해야 하는 플레이트 수를 줄인다면, 그것은 중요한 히트를 검증하는 데 소비할 수 있는 시간과 돈입니다.