AI 지원 게놈 연구의 지속적인 문제
위스콘신 대학 매디슨 캠퍼스 연구원들은 유전학 및 의학 분야에서 인기를 얻고 있는 인공지능 도구가 당뇨병과 같은 질병의 위험 요소를 포함한 신체적 특성과 유전자 간의 연관성에 대해 잘못된 결론을 내릴 수 있다고 경고했습니다.
잘못된 예측은 연구자들이 AI를 사용하여 게놈 전체 연관 연구를 지원하는 것과 관련이 있습니다. 이러한 연구는 많은 사람들의 수십만 개의 유전적 변이를 스캔하여 유전자와 신체적 특성 간의 연관성을 찾습니다. 특히 흥미로운 것은 유전적 변이와 특정 질병 간의 가능한 연관성입니다.
질병과 유전학의 연관성은 항상 단순하지는 않다
유전학은 많은 건강 상태의 발달에 역할을 합니다. 일부 개별 유전자의 변화는 낭포성 섬유증과 같은 질병의 위험 증가와 직접 관련이 있지만, 유전학과 신체적 특성 간의 관계는 종종 더 복잡합니다.
게놈 전체 연관 연구는 이러한 복잡성 중 일부를 풀어내는 데 도움이 되었으며, 종종 국립보건원의 All of Us 프로젝트와 영국 바이오뱅크와 같은 개인의 유전적 프로필과 건강 특성에 대한 대규모 데이터베이스를 사용했습니다. 그러나 이러한 데이터베이스는 종종 연구자들이 연구하려는 건강 상태에 대한 데이터가 누락되어 있습니다.
"어떤 특성은 측정하는 데 비용이 많이 들거나 노동 집약적이어서 유전학과의 연관성에 대해 의미 있는 통계적 결론을 내릴 만큼 충분한 샘플이 없습니다." UW-매디슨 생물통계학 및 의료정보학과의 준교수이자 게놈 전체 연관 연구 전문가인 치옹시 루의 말입니다.
AI를 통한 데이터 격차 해소의 위험
연구자들은 점점 더 정교해지는 AI 도구를 이용해 데이터 격차를 메움으로써 이 문제를 해결하려고 노력하고 있습니다.
"최근 몇 년 동안 머신 러닝의 발전을 활용하는 것이 매우 인기를 끌었기 때문에 이제 연구자들이 제한된 데이터로도 복잡한 특성과 질병 위험을 예측하는 데 사용하는 이러한 고급 머신 러닝 AI 모델이 있습니다."라고 Lu는 말합니다.
이제 Lu와 그의 동료들은 이러한 모델에 의존하는 것이 위험하다는 것을 보여주었지만, 그들이 도입할 수 있는 편견에 대한 보호도 하지 않았습니다. 이 팀은 저널 Nature Genetics 에 최근 게재된 논문에서 이 문제를 설명합니다. 이 논문에서 Lu와 그의 동료들은 게놈 전체 연관 연구에 사용되는 일반적인 유형의 머신 러닝 알고리즘이 여러 유전적 변이를 개인의 2형 당뇨병 발병 위험과 잘못 연결할 수 있음을 보여줍니다.
루는 "문제는 머신러닝이 예측한 당뇨병 위험을 실제 위험으로 믿는다면, 유전적 변이가 모두 실제 당뇨병과 상관관계가 있다고 생각할 수 있다는 점입니다. 실제로는 그렇지 않습니다."라고 말합니다.
루는 이러한 "거짓 양성"이 이러한 특정 변화와 당뇨병 위험에 국한되지 않고 AI 지원 연구에 만연한 편향이라고 덧붙였습니다.
새로운 통계적 방법으로 거짓 양성을 줄일 수 있습니다
루와 그의 동료들은 AI 도구에 대한 과도한 의존의 문제를 식별하는 것 외에도 연구자들이 AI 지원 게놈 전체 연관 연구의 신뢰성을 보장하는 데 사용할 수 있는 통계적 방법을 제안합니다. 이 방법은 기계 학습 알고리즘이 불완전한 정보에 기반하여 추론을 할 때 발생할 수 있는 편향을 제거하는 데 도움이 됩니다.
루는 "이 새로운 전략은 통계적으로 최적입니다."라고 말하며, 연구진이 이를 사용해 개인의 뼈 미네랄 밀도와 유전적 연관성을 더 정확히 파악했다고 언급했습니다.
일부 게놈 전체 연관 연구의 유일한 문제는 AI가 아니다
연구진이 제안한 통계적 방법은 AI 지원 연구의 정확도를 높이는 데 도움이 될 수 있지만, 루와 그의 동료들은 알고리즘이 아닌 대리 정보로 데이터 격차를 메우는 유사 연구의 문제점을 최근에 발견했습니다.
Nature Genetics 에 최근 게재된 또 다른 논문에서 연구자들은 유전학과 특정 질병 간의 연관성을 확립하기 위해 대리 정보에 지나치게 의존하는 연구에 대해 경고했습니다.
예를 들어, 영국 바이오뱅크와 같은 대규모 건강 데이터베이스는 많은 인구에 대한 엄청난 양의 유전 정보를 보유하고 있지만, 대부분의 신경퇴행성 질환처럼 삶의 후반에 발생하는 질병의 발생률에 대한 데이터는 많지 않습니다.
특히 알츠하이머병의 경우, 일부 연구자들은 가족 건강력사 조사를 통해 수집한 대리 데이터를 이용해 그 차이를 메우려고 시도했습니다. 이를 통해 개인은 부모의 알츠하이머병 진단을 보고할 수 있습니다.
위스콘신 대학교 매디슨 캠퍼스 연구팀은 이러한 대리 정보 연구가 알츠하이머병 위험과 높은 인지 능력 사이에 "매우 오해의 소지가 있는 유전적 상관관계"를 만들어낼 수 있다는 사실을 발견했습니다.
"요즘 게놈 과학자들은 수십만 명의 개인이 있는 바이오뱅크 데이터세트로 일상적으로 작업하지만, 통계적 힘이 커짐에 따라 이러한 방대한 데이터세트에서 편향과 오류 가능성도 증폭됩니다."라고 루는 말합니다. "저희 그룹의 최근 연구는 겸손한 사례를 제공하고 바이오뱅크 규모의 연구에서 통계적 엄격성의 중요성을 강조합니다."
출처: https://www.sciencedaily.com/releases/2024/11/241104173419.htm
댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요