인상적인 결과에도 불구하고 생성 AI는 세계를 일관되게 이해하지 못합니다.

대규모 언어 모델은 시를 쓰거나 실행 가능한 컴퓨터 프로그램을 생성하는 등 인상적인 일을 해낼 수 있지만, 이러한 모델은 텍스트에서 다음에 나올 단어를 예측하도록 훈련되었습니다.

이처럼 놀라운 능력 덕분에 모델이 세상에 대한 어떤 일반적인 진실을 암묵적으로 학습하고 있는 것처럼 보일 수도 있습니다.

하지만 새로운 연구에 따르면 반드시 그런 것은 아닙니다. 연구원들은 인기 있는 유형의 생성 AI 모델이 뉴욕시에서 거의 완벽한 정확도로 차례차례 운전 경로를 제공할 수 있다는 것을 발견했습니다. 도시의 정확한 내부 지도를 만들지 않고도 말입니다.

이 모델은 놀라울 정도로 효과적으로 탐색할 수 있는 능력을 가지고 있었지만, 연구자들이 일부 도로를 폐쇄하고 우회로를 추가하자 성능이 급격히 떨어졌습니다.

연구자들은 더 깊이 파고들면서 모델이 암묵적으로 생성한 뉴욕 지도에는 격자 사이에서 휘어져 있고 멀리 떨어진 교차로를 연결하는, 실제로 존재하지 않는 거리가 많이 있다는 것을 발견했습니다.

이는 실제 세계에 배포된 생성 AI 모델에 심각한 영향을 미칠 수 있습니다. 어떤 맥락에서 좋은 성과를 보이는 모델이라도 작업이나 환경이 약간만 바뀌면 제대로 작동하지 않을 수 있기 때문입니다.

"한 가지 희망은 LLM이 언어에서 이 모든 놀라운 일을 해낼 수 있기 때문에, 우리가 과학의 다른 부분에서도 같은 도구를 사용할 수 있다는 것입니다. 하지만 LLM이 일관된 세계 모델을 배우고 있는지에 대한 질문은 우리가 이러한 기술을 사용하여 새로운 발견을 하고 싶다면 매우 중요합니다." 경제학 조교수이자 MIT 정보 및 의사 결정 시스템 연구소(LIDS)의 수석 연구원인 Ashesh Rambachan의 말입니다.

Rambachan은 하버드 대학교의 포스트닥인 주요 저자 Keyon Vafa, MIT의 전기공학 및 컴퓨터 과학(EECS) 대학원생 Justin Y. Chen, 코넬 대학교의 컴퓨터 과학 및 정보 과학 Tisch University 교수인 Jon Kleinberg, EECS 및 경제학과 MIT 교수이자 LIDS 회원인 Sendhil Mullainathan과 함께 이 연구에 대한 논문을 썼습니다. 이 연구는 신경 정보 처리 시스템 컨퍼런스에서 발표될 예정입니다.


새로운 지표

연구자들은 GPT-4와 같은 LLM의 중추를 형성하는 트랜스포머로 알려진 생성 AI 모델 유형에 집중했습니다. 트랜스포머는 방대한 양의 언어 기반 데이터로 훈련되어 시퀀스의 다음 토큰(예: 문장의 다음 단어)을 예측합니다.

하지만 과학자들이 LLM이 세상에 대한 정확한 모델을 형성했는지 확인하고 싶다면, 예측의 정확도를 측정하는 것만으로는 충분하지 않다고 연구자들은 말합니다.

예를 들어, 그들은 변압기가 Connect 4 게임에서 규칙을 전혀 이해하지 않고도 유효한 움직임을 거의 항상 예측할 수 있다는 것을 발견했습니다.

그래서, 팀은 변압기의 세계 모델을 테스트할 수 있는 두 가지 새로운 지표를 개발했습니다. 연구자들은 결정적 유한 자동화 또는 DFA라고 하는 문제 유형에 대한 평가에 집중했습니다.

DFA는 목적지에 도달하기 위해 통과해야 하는 교차로와 같은 일련의 상태와 그 과정에서 따라야 하는 규칙을 구체적으로 설명하는 문제입니다.

그들은 두 가지 문제를 선택하여 DFA로 공식화했습니다. 뉴욕 거리 탐험과 보드 게임 오델로를 하는 것입니다.

"우리는 세계 모델이 무엇인지 아는 테스트 베드가 필요했습니다. 이제 우리는 그 세계 모델을 복구하는 것이 무엇을 의미하는지 엄격하게 생각할 수 있습니다."라고 Vafa는 설명합니다.

그들이 개발한 첫 번째 메트릭은 시퀀스 구분이라고 하며, 모델이 두 개의 다른 상태(예: 두 개의 다른 오델로 보드)를 보고 어떻게 다른지 인식하면 일관된 세계 모델을 형성했다고 말합니다. 시퀀스, 즉 데이터 포인트의 정렬된 목록은 변환기가 출력을 생성하는 데 사용하는 것입니다.

두 번째 지표는 시퀀스 압축이라고 하는데, 일관된 세계 모델을 갖춘 변환기는 두 개의 동일한 상태, 즉 두 개의 동일한 오델로 보드가 다음 단계의 동일한 시퀀스를 갖는다는 것을 알아야 합니다.

그들은 이러한 측정 항목을 사용하여 두 가지 일반적인 변환기 클래스를 테스트했습니다. 하나는 무작위로 생성된 시퀀스에서 생성된 데이터를 기반으로 훈련되고, 다른 하나는 다음 전략에 따라 생성된 데이터를 기반으로 훈련됩니다.


비일관적인 세계 모델

놀랍게도 연구자들은 무작위로 선택을 하는 변압기가 더 정확한 세계 모델을 형성한다는 것을 발견했습니다. 아마도 훈련 중에 잠재적인 다음 단계의 종류가 더 다양했기 때문일 것입니다.

"오델로에서 챔피언십 플레이어 대신 무작위로 두 대의 컴퓨터가 플레이하는 것을 본다면 이론상 가능한 모든 움직임을 볼 수 있고 챔피언십 플레이어가 하지 못하는 나쁜 움직임도 볼 수 있습니다."라고 바파는 설명합니다.

변압기가 거의 모든 인스턴스에서 정확한 방향과 유효한 오델로 움직임을 생성했지만, 두 가지 측정 기준은 하나만이 오델로 움직임에 대한 일관된 세계 모델을 생성했고, 어느 것도 길찾기 예에서 일관된 세계 모델을 형성하는 데 잘 작동하지 않았음을 보여주었습니다.

연구자들은 뉴욕시 지도에 우회로를 추가함으로써 이러한 결과가 의미하는 바를 보여주었고, 이로 인해 모든 내비게이션 모델이 실패했습니다.

"우회도로를 추가하자마자 성능이 얼마나 빨리 저하되는지 놀랐습니다. 가능한 도로의 1%만 닫으면 정확도가 즉시 100%에서 67%로 떨어집니다."라고 Vafa는 말합니다.

그들이 모델이 생성한 도시 지도를 복구했을 때, 그것은 그리드 위에 겹쳐진 수백 개의 거리가 교차하는 상상의 뉴욕시처럼 보였습니다. 지도에는 종종 다른 거리 위로 무작위로 고가도로가 있거나 방향이 불가능한 여러 거리가 포함되어 있었습니다.

이러한 결과는 변압기가 규칙을 이해하지 않고도 특정 작업에서 놀라울 정도로 잘 수행할 수 있음을 보여줍니다. 과학자들이 정확한 세계 모델을 포착할 수 있는 LLM을 구축하려면 다른 접근 방식을 취해야 한다고 연구자들은 말합니다.

"우리는 종종 이런 모델들이 인상적인 일을 하는 것을 보고, 그들이 세상에 대해 뭔가를 이해했을 것이라고 생각합니다. 저는 이것이 매우 신중하게 생각해야 할 질문이며, 우리 자신의 직감에 의존하지 않고도 답을 얻을 수 있다는 것을 사람들에게 확신시킬 수 있기를 바랍니다."라고 람바찬은 말합니다.

앞으로 연구자들은 일부 규칙이 부분적으로만 알려진 문제와 같은 더 다양한 문제를 다루고 싶어합니다. 또한 평가 지표를 실제 과학적 문제에 적용하고 싶어합니다.

이 연구는 하버드 데이터 과학 이니셔티브, 미국 국립 과학 재단 대학원 연구 펠로우십, 바네바 부시 교수 펠로우십, 사이먼스 협업 보조금, 맥아더 재단 보조금을 통해 일부 자금을 지원받았습니다.


출처: https://www.sciencedaily.com/releases/2024/11/241105191826.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요