-
머신러닝으로 약물전달을 극대화하는 새로운 염기서열을 발견하다.관심/과학 2021. 8. 12. 09:23
요즘 머신러닝은 분자생물학, 화학등에서 정말 많이 사용되고 있다. 얼마 전에는 인공지능으로 단백질 구조를 99.9% 정확하게 예측하는 성과도 나왔다. 머신러닝을 이용한 새로운 연구결과가 다시 나왔다.
보통 어린 소년들에게서 진단되는 희귀 유전병인 Duchenne muscular dystrophy 듀케네 근위축증(DMD)은 심장이나 폐가 고장날 때까지 차츰 몸 전체의 근육을 약화시킨다.
당시 매사추세츠주 케임브리지에 본사를 둔 Sarepta Therapeutics가 2019년 DMD를 일으키는 돌연변이 유전자를 직접 대상으로 한 획기적인 약물을 발표했을 때 큰 화제였다. 이 치료법은 디스트로핀 유전자를 수정하기 위해 세포핵에 스며드는 대형 합성분자인 antisense phosphorodiamidate morpholino oligomers(PMO)를 사용해 DMD 환자에게는 일반적으로 없는 핵심단백질이 생성될 수 있도록 했다. MIT 화학과의 Carly Schissel 박사는 "PMO 를 사용해 세포에 침투 시키는 것은 좋은 방법이 아니다."라고 말한다.
핵으로의 전달을 촉진하기 위해, 연구원들은 세포 침투 펩타이드 (CPPs)를 약물에 부착할 수 있고, 그렇게 함으로써 그것이 세포와 핵막을 가로질러 목표에 도달하도록 도울 수 있다. 그러나 어떤 펩타이드 염기서열이 이 작업에 가장 적합한지는 여전히 미지수다.
MIT 연구진은 이제 인공 지능과 실험 화학을 결합하여 전달을 돕기 위해 PMO에 부착될 수 있는 독성이 없고 활성도가 높은 펩타이드들을 발견함으로써 이 문제를 해결하기 위한 체계적인 접근 방식을 개발했다. 이러한 새로운 염기서열을 개발함으로써, 그들은 DMD와 다른 질병에 대한 유전자 치료법의 개발을 빠르게 가속화할 수 있기를 희망한다.
이들의 연구 결과는 현재 학술지 Nature Chemistry에 주요 저자인 시셀과 MIT 재료공학과 박사과정 학생인 Somesh Mohapatra가 주도한 논문에서 발표됐다. 컴퓨터로 새로운 펩타이드를 제안하는 것은 그리 어렵지 않지만 그들이 좋은지 아닌지를 판단하는 것은 어려운 일이며 핵심 혁신은 기계 학습을 사용하여 펩타이드, 특히 비자연 아미노산을 포함하는 펩타이드의 염기서열을 실험적으로 측정된 생물학적 활성과 연결하는 것이라고 말한다.
CPP는 5~20개의 아미노산으로 구성된 비교적 짧은 사슬이다. 하나의 CPP가 약물 전달에 긍정적인 영향을 미칠 수 있는 반면, 몇몇 CPP는 함께 연결되어 약물을 운반하는 데 시너지 효과를 발휘한다. 30에서 80개의 아미노산을 포함하는 이 긴 사슬은 미니 단백질이라고 불린다.
모델이 가치 있는 예측을 하기 전에 실험 측의 연구자들은 강력한 데이터 집합을 만들어야 했다. 57가지 펩타이드의 혼합과 매칭을 통해 Schisel과 동료들은 각각 PMO에 부착된 600개의 미니단백질 라이브러리를 만들 수 있었다. 연구팀은 분석을 통해 각 미니단백질이 얼마나 잘 세포 전체에 걸쳐 약물을 운반할 수 있는지를 정량화할 수 있었다.
PMO가 이미 부착된 각 서열의 활동을 테스트하는 결정은 중요했다. 어떤 약물이든 CPP 서열의 활동에 영향을 줄 가능성이 높기 때문에 기존 데이터의 용도를 변경하기는 어렵고, 동일 인력에 의해 동일한 기계에서 단일 실험실에서 생성된 데이터는 기계 학습 데이터 집합의 일관성을 위한 기본 표준을 만족한다.
이 프로젝트의 한 가지 목표는 어떤 아미노산과도 작동할 수 있는 모델을 만드는 것이었다. 인체에는 20개의 아미노산만이 자연적으로 발생하지만, 약물 개발을 위한 아미노산 확장 팩과 같은 수백 개의 아미노산이 다른 곳에 더 존재한다. 이를 기계 학습 모델로 표현하기 위해 연구자들은 일반적으로 일련의 이진 변수에 각 구성요소를 할당하는 방법인 1-hot 인코딩을 사용한다. (예를 들어, 세 개의 아미노산은 100, 010, 001로 표시) 새로운 아미노산을 추가하기 위해서는 변수의 수가 증가해야 하는데, 이는 연구자들이 각각의 아미노산을 추가할 때마다 모델을 재구축해야 한다는 것을 의미한다.
대신 아미노산을 topological fingerprinting(분자구조를 인코딩하는 방법)으로 나타내기로 했는데, topological fingerprinting은 기본적으로 각 시퀀스에 고유한 바코드를 만들어 바코드의 각 라인에 특정 분자 하부구조의 유무 여부를 표시했다. 프로젝트에 대한 개발 노력을 주도한 Mohapatra는 "비록 모델이 서열을 보지 못했더라도 모델이 본 규칙과 일치하는 바코드로 나타낼 수 있다"고 말합니다. 이 표현 시스템을 사용하여 연구원들은 가능한 서열확인의 방법을 확장할 수 있었다.
연구팀은 미니단백질 라이브러리에서 각 600개의 미니단백질이 세포에 침투할 수 있는 능력을 나타내는 컨볼루션 신경망을 훈련시켰다. 초기에 이 모델은 세포막의 구멍을 찢는 아미노산인 아르기닌이 든 미니단백질을 제안했는데, 아르기닌은 세포를 생존시키는 데 이상적이지 않다. 이 문제를 해결하기 위해 연구자들은 최적화제를 사용하여 아르기닌을 변별시켜 모델이 부정행위를 하지 않도록 했다.
결국 모형이 제안한 예측을 해석하는 능력이 핵심이었다. Gomez-Bombarelli는 "블랙박스를 가지고 있는 것으로는 충분하지 않다"며 "모델들이 잘못된 것에 집착하거나 현상을 불완전하게 이용할 수 있기 때문"이라고 말했다.
이 경우 연구자들은 모형에 의해 생성된 예측값과 서열 구조를 나타내는 바코드를 겹칠 수 있다. Schissel은 "모델이 생각하는 특정 지역이 높은 활동에 가장 큰 역할을 한다는 점을 부각시킨다"고 말했다. "완벽하지는 않지만, 집중적인 영역을 제공한다. 이러한 정보는 미래에 새로운 서열을 경험적으로 설계하는 데 분명히 도움이 될 것이다."궁극적으로 기계 학습 모델은 이전에 알려진 어떤 변형 모델보다 더 효과적인 시퀀스를 제안했다. 특히 PMO 전달량을 50배까지 끌어올릴 수 있다. 이 컴퓨터가 제안한 염기서열을 쥐에게 주입함으로써 연구원들은 그들의 예측을 검증했고 미니 단백질이 독성이 없다는 것을 입증했다.
이 작업이 환자에게 어떤 영향을 미칠지는 아직 말하기 이르지만, PMO 전달을 개선하면 여러 가지 면에서 도움이 될 것이다. 환자가 낮은 수준의 약물에 노출되는 경우, 예를 들어 부작용을 덜 경험하거나 덜 자주 투여해야 할 수 있다(PMO는 종종 주 단위로 정맥주사로 투여된다). 치료 비용도 절감될 수 있다. 개념의 증거로, 최근 임상실험에서는 Sarrepta Therapeutics의 독점 CPP가 PMO에 대한 노출을 10배까지 줄일 수 있음을 입증했다. 또한, PMO만이 미니 단백질로 개선될 수 있는 유일한 약물은 아니다. 추가 실험에서, 모델이 생성한 미니 단백질은 다른 기능성 단백질을 세포 안으로 운반했다.
기계 학습 연구원들과 실험 화학자들의 작업이 더딘것을 알아차린 Mohapatra는 그들만의 순서와 활동 목록을 가지고 있는 실험자들을 위한 튜토리얼과 함께 GitHub에 모델을 게시했다. 지금까지 전 세계에서 12명 이상의 사람들이 이 모델을 채택했으며, 광범위한 약물에 대한 그들만의 강력한 예측을 위해 이 모델을 용도 변경했다.in vivo, in vitro 든 머신러닝은 화학, 분자생물학의 훌륭한 도구라는 것이 이제 점점 두각을 나타내기 시작한다. 2010년대에 들어서 이러한 모델에 대한 제안이 계속되었는데 현재 훌륭하게 사용되고 있다.
'관심 > 과학' 카테고리의 다른 글
영국 전체 백신접종 인구 3분의 1이 코로나 양성을 띈다. (0) 2021.08.07 외계 생명체를 찾기 위해 화성 암석을 수집하는 NASA (0) 2021.08.07