새로운 AI 모델은 단백질 과학 및 의료 분야에서 게임 체인저가 될 수 있다

연구자들은 단백질 과학에서 정확도와 발견을 크게 향상시킬 수 있는 새로운 AI 모델을 개발했습니다. 잠재적으로 이 모델은 의학 과학이 개인화된 의학, 약물 발견, 진단과 같은 현재의 과제를 극복하는 데 도움이 될 것입니다.

광범위하게 이용 가능한 AI 도구의 여파로, 대부분의 기술 및 자연 과학 분야가 빠르게 발전하고 있습니다. 이는 특히 생명공학에서 그렇습니다. 생명공학에서는 AI 모델이 약물 발견, 정밀 의학, 유전자 편집, 식량 안보 및 기타 여러 연구 분야에서 획기적인 진전을 이룹니다.

한 하위 분야는 프로테오믹스입니다. 대규모 단백질을 연구하는 분야로, 방대한 양의 단백질 데이터를 데이터베이스에 수집하여 샘플을 비교할 수 있습니다. 이러한 데이터베이스를 통해 과학자는 샘플에 어떤 단백질(그리고 미생물)이 있는지 구별할 수 있습니다. 이를 통해 의사는 질병을 진단하고, 치료 효과를 모니터링하거나, 환자 샘플에 존재하는 병원체를 식별할 수 있습니다.

이러한 도구는 매우 유용하고 효과적이지만 할 수 있는 일에는 한계가 있다고 DTU 생물공학과 준교수이자 해당 저자인 Timothy Patrick Jenkins는 말합니다.

"첫째, 모든 것을 포함하는 데이터베이스는 없으므로 특정 요구 사항과 관련된 데이터베이스가 무엇인지 알아야 합니다. 그런 다음 심층 검색은 매우 시간이 많이 걸리고 많은 컴퓨터 전력을 요구합니다. 마지막으로 아직 등록되지 않은 단백질을 식별하는 것은 거의 불가능합니다."

이러한 이유로 일부 그룹은 데이터베이스 크기가 증가함에 따라 정확도를 개선하고 계산 비용을 낮추는 소위 ' de novo 시퀀싱 알고리즘'을 연구했습니다. 그래도 네덜란드의 DTU, 델프트 대학교, 영국 AI 회사 InstaDeep의 Jenkins와 동료들에 따르면 그들의 성과는 여전히 "압도적이지 못했습니다."

최첨단을 넘어

에서 그들은 연구자, 의료 종사자 및 상업 기관이 방대한 양의 데이터에서 정확히 필요한 정보를 찾는 데 도움이 되는 두 가지 새로운 AI 모델을 제안합니다. 이는 InstaNovo와 InstaNovo+라고 하며 연구자는 InstaDeep 웹사이트를 통해 사용할 수 있습니다(사실 상자 참조).

"함께 볼 때, 우리의 모델은 최첨단을 넘어 현재 사용 가능한 도구보다 훨씬 더 정확합니다. 게다가, 논문에서 보여주듯이, 우리의 모델은 특정 연구 분야에 국한되지 않습니다. 대신, 이러한 도구는 프로테오믹스를 포함한 모든 분야에서 상당한 발전을 촉진할 수 있습니다." InstaDeep의 연구 엔지니어이자 논문의 공동 1저자인 케빈 마이클 엘로프의 말입니다.

연구자들은 모델의 유용성을 평가하기 위해 주요 관심 분야 내의 몇 가지 특정 작업에 대해 모델을 훈련하고 테스트했습니다.

정맥성 다리 궤양 환자의 상처 액체에 대한 한 가지 조사가 수행되었습니다. 정맥성 다리 궤양은 치료하기 매우 어렵고 종종 만성화되기 때문에 박테리아와 같은 미생물이 존재하는지 아는 것이 치료에 중요합니다. 이 모델은 데이터베이스 검색보다 10배 많은 시퀀스를 매핑할 수 있으며, 그 중에는 E. coli 와 Pseudomonas aeruginosa 가 있습니다. 후자는 다중 약물 내성 박테리아입니다.

또 다른 사용 사례는 세포 표면에 표시된 펩타이드라는 작은 단백질 조각에서 수행되었습니다. 이는 면역 체계가 감염과 암과 같은 질병을 인식하는 데 도움이 됩니다. InstaNovo 모델은 기존 방법을 사용하여 발견되지 않은 수천 개의 새로운 펩타이드를 식별했습니다. 면역 체계를 강화하는 개인화된 암 치료(줄여서 면역 요법)에서 이러한 펩타이드는 모두 잠재적인 공격 지점입니다.

"복잡한 사례에서 모델을 테스트한 결과, 예를 들어 알려지지 않은 단백질이 존재하거나 관련 유기체에 대한 사전 지식이 없는 경우, 이러한 모델이 우리의 이해를 크게 개선하는 데 적합하다는 것을 보여줍니다. 이것이 생물의학에 좋은 징조라는 것은 당연한 일입니다. 미생물군 식별을 직접 개선할 수 있고 개인화된 의학과 암 면역학 분야에서의 노력을 개선할 수 있기 때문입니다." DTU Bioengineering의 공동 1저자이자 조교수인 콘스탄티노스 칼로게로풀로스가 말했습니다.

이 논문은 이러한 모델이 치료 시퀀싱을 개선하고, 새로운 펩타이드를 발견하고, 보고되지 않은 유기체를 감지하고, 프로테오믹스 검색을 크게 향상시키는 방법을 보여주는 6가지 추가 사례를 제공합니다. 티모시 패트릭 젠킨스는 그 결과의 의미는 의학을 훨씬 넘어선다고 말합니다.

"순전히 기술적이고 과학적인 관점에서 볼 때, 이러한 도구를 사용하면 의료 분야뿐만 아니라 산업 및 학계에서도 생물학적 세계에 대한 이해를 전반적으로 개선할 수 있다는 것도 사실입니다. 식물 과학, 수의학, 산업 바이오 기술, 환경 모니터링 또는 고고학 등 프로테오믹스를 사용하는 모든 분야에서 지금까지 접근할 수 없었던 단백질 풍경에 대한 통찰력을 얻을 수 있습니다."

사리
InstaNovo와 InstaNovo+는 무엇인가요?

InstaNovo는 de novo 펩타이드 시퀀싱을 위해 설계된 트랜스포머 기반 모델입니다 . InstaDeep과 덴마크 공과대학(DTU)의 생명공학 및 생물의학과의 협업으로 개발되었으며, 질량 분석 데이터의 단편 이온 피크를 전례 없는 정밀도로 펩타이드 시퀀스로 변환합니다.

기존 데이터베이스에 의존하는 기존 방법과 달리 InstaNovo는 지금까지 기록된 적이 없는 펩타이드를 식별하여 프로테오믹스 발견의 영역을 확장합니다.

InstaNovo 모델의 핵심 혁신은 InstaNovo+로, 연구자들이 펩타이드 예측을 수동으로 정제하는 방식을 모방하여 시퀀스 정확도를 향상시키는 확산 기반 반복적 정제 모델입니다. InstaNovo+는 InstaNovo에서 파생되었거나 무작위로 생성된 초기 시퀀스로 시작하여 단계적으로 개선합니다.

InstaNovo와 InstaNovo+를 함께 사용하면 예측 정확도가 향상될 뿐만 아니라 잠재적인 펩타이드 시퀀스의 범위가 더 넓어져 거짓 발견율(FDR)이 크게 낮아지고 시퀀스 정확도가 향상됩니다.

한 번에 하나의 아미노산씩 펩타이드 서열을 예측하는 InstaNovo 및 기타 자기회귀 모델과 달리 InstaNovo+는 전체 서열을 종합적으로 처리하여 더 높은 정확도와 더 높은 검출률을 실현합니다.

InstaNovo와 InstaNovo+를 함께 사용하면 새로운 펩타이드 시퀀싱이 강화되어 정밀성과 탐색의 균형을 맞춰 생물학적 발견을 가속화할 수 있습니다.

출처: InstaDeep.


출처: https://www.sciencedaily.com/releases/2025/03/250331122207.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요