연구원들은 AI가 인간 전문가보다 연구 결과를 더 잘 예측할 수 있다고 밝혔습니다.
UCL(University College London) 연구자들이 주도한 새로운 연구에 따르면, 텍스트를 분석하는 AI의 한 유형인 대규모 언어 모델은 인간 전문가보다 제안된 신경과학 연구 결과를 더 정확하게 예측할 수 있습니다.
Nature Human Behaviour 에 게재된 연구 결과에 따르면, 방대한 텍스트 데이터 세트를 기반으로 훈련된 대규모 언어 모델(LLM)이 과학 문헌에서 패턴을 추출하여 초인적인 정확도로 과학적 결과를 예측할 수 있다는 것이 밝혀졌습니다.
연구자들은 이를 통해 단순한 지식 검색을 넘어 연구를 가속화하는 강력한 도구로서의 잠재력을 강조했다고 밝혔습니다.
주 저자인 켄 루오 박사(UCL 심리학 및 언어 과학)는 "ChatGPT와 같은 생성 AI가 등장한 이래로 많은 연구가 LLM의 질의응답 능력에 집중되어 광범위한 훈련 데이터에서 지식을 요약하는 놀라운 기술을 보여주었습니다. 그러나 과거 정보를 검색하는 과거 지향적 능력을 강조하기보다는 LLM이 지식을 종합하여 미래 결과를 예측할 수 있는지 알아보았습니다.
"과학적 진보는 종종 시행착오에 의존하지만, 각각의 꼼꼼한 실험은 시간과 자원을 요구합니다. 가장 숙련된 연구자조차도 문헌에서 중요한 통찰력을 간과할 수 있습니다. 저희의 연구는 LLM이 방대한 과학 텍스트에서 패턴을 식별하고 실험 결과를 예측할 수 있는지 조사합니다."
국제 연구팀은 대규모 언어 모델(LLM)이 신경과학적 결과를 얼마나 잘 예측할 수 있는지 평가하는 도구인 BrainBench를 개발하여 연구를 시작했습니다.
BrainBench는 수많은 쌍의 신경과학 연구 초록으로 구성되어 있습니다. 각 쌍에서 한 버전은 연구의 배경, 사용된 방법 및 연구 결과를 간략하게 설명하는 실제 연구 초록입니다. 다른 버전에서는 배경과 방법이 동일하지만 결과는 관련 신경과학 분야의 전문가가 그럴듯하지만 잘못된 결과로 수정했습니다.
연구자들은 15개의 다양한 범용 LLM과 171명의 인간 신경과학 전문가(전문성을 확인하기 위한 선별 테스트를 통과함)를 테스트하여 AI 또는 사람이 두 개의 쌍으로 된 초록 중 어느 것이 실제 연구 결과를 포함하는 진짜 초록인지 올바르게 판단할 수 있는지 확인했습니다.
모든 LLM은 신경과학자를 능가했으며, LLM의 평균 정확도는 81%이고 인간은 평균 63%였습니다. 연구팀이 인간의 반응을 주어진 신경과학 도메인에 대한 가장 높은 수준의 전문성을 가진 사람(자체 보고 전문성 기반)으로만 제한했을 때에도 신경과학자의 정확도는 여전히 66%로 LLM에 미치지 못했습니다. 또한 연구자들은 LLM이 자신의 결정에 더 자신감이 있을 때 옳을 가능성이 더 높다는 것을 발견했습니다.* 연구자들은 이 발견이 인간 전문가가 잘 교정된 모델과 협업할 수 있는 미래를 위한 길을 열었다고 말합니다.
그런 다음 연구자들은 기존 LLM(오픈소스 LLM인 Mistral의 버전)을 신경과학 문헌에 대해 특별히 훈련시켜 적용했습니다. 그들이 BrainGPT라고 명명한 신경과학을 전문으로 하는 새로운 LLM은 연구 결과를 예측하는 데 더욱 뛰어나 86%의 정확도를 달성했습니다(83%의 정확도를 보인 Mistral의 범용 버전보다 개선된 수치).
수석 저자인 브래들리 러브 교수(UCL 심리학 및 언어 과학)는 "우리의 결과를 감안할 때, 과학자들이 AI 도구를 사용하여 질문에 대한 가장 효과적인 실험을 설계하는 데 오래 걸리지 않을 것으로 생각합니다. 우리 연구는 신경 과학에 초점을 맞추었지만, 우리의 접근 방식은 보편적이었으며 모든 과학에 성공적으로 적용될 것입니다.
"놀라운 점은 LLM이 신경과학 문헌을 얼마나 잘 예측할 수 있는가입니다. 이러한 성공은 많은 과학이 진정으로 새로운 것이 아니라 문헌에 있는 기존 결과 패턴에 부합한다는 것을 시사합니다. 과학자들이 충분히 혁신적이고 탐구적인지 궁금합니다."
루오 박사는 "우리의 결과를 바탕으로 연구자를 지원하는 AI 도구를 개발하고 있습니다. 연구자가 제안한 실험 설계와 예상 결과를 입력하면 AI가 다양한 결과의 가능성에 대한 예측을 제공하는 미래를 구상합니다. 이를 통해 실험 설계에서 더 빠른 반복과 더 정보에 입각한 의사 결정이 가능해질 것입니다."라고 덧붙였습니다.
이 연구는 경제사회연구위원회(ESRC), 마이크로소프트, 영국 왕립학회 울프슨 펠로우십의 지원을 받았으며 UCL, 케임브리지 대학교, 옥스퍼드 대학교, 막스 플랑크 행동신경생물학 연구소(독일), 빌켄트 대학교(터키)와 영국, 미국, 스위스, 러시아, 독일, 벨기에, 덴마크, 캐나다, 스페인, 호주의 다른 기관의 연구자들이 참여했습니다.
메모:
* 두 개의 초록이 제시될 때 LLM은 각 초록의 가능성을 계산하고, 학습된 지식과 맥락(배경 및 방법)을 기반으로 각 초록이 얼마나 놀라운지 나타내기 위해 난해성 점수를 할당합니다. 연구자들은 모델이 발견한 실제 초록과 가짜 초록이 얼마나 놀랍고/당황스러운지의 차이를 측정하여 LLM의 신뢰도를 평가했습니다. 이 차이가 클수록 신뢰도도 높아지며 이는 LLM이 올바른 초록을 선택할 가능성이 더 높은 것과 관련이 있습니다.
출처: https://www.sciencedaily.com/releases/2024/11/241127140027.htm
댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요