어색하네요. 인간은 여전히 AI보다 상황을 더 잘 파악합니다.
인간은 움직이는 장면에서의 사회적 상호작용을 설명하고 해석하는 측면에서 현재의 AI 모델보다 더 뛰어난 것으로 드러났습니다. 이는 자율주행 자동차, 보조 로봇 및 실제 세계를 탐색하기 위해 AI 시스템에 의존하는 기타 기술에 필요한 기술입니다.
존스홉킨스 대학의 과학자들이 주도한 연구에 따르면, 인공지능 시스템은 사람과 상호작용하는 데 필요한 사회적 역학과 맥락을 이해하지 못하는 것으로 나타났으며, 이 문제는 AI 시스템의 인프라에 기인할 수 있다고 합니다.
"자율주행차용 AI는 예를 들어 운전자와 보행자의 의도, 목표, 행동을 인식해야 합니다. 보행자가 어느 방향으로 걸어가려고 하는지, 두 사람이 대화를 나누고 있는지, 아니면 길을 건너려고 하는지 알아야 합니다."라고 존스 홉킨스 대학교 인지과학 조교수이자 이 논문의 주저자인 레이라 이식은 말했습니다. "AI가 사람과 상호작용하려면 항상 사람의 행동을 인식할 수 있어야 합니다. 하지만 이번 연구는 현재 AI 시스템이 그렇게 할 수 없다는 사실을 보여줍니다."
연구 당시 이식 연구실에서 박사과정 학생으로 일하고 공동 제1저자인 캐시 가르시아는 4월 24일에 열리는 국제 학습 표현 컨퍼런스에서 연구 결과를 발표할 예정입니다.
AI 모델이 인간의 지각과 어떻게 비교되는지 확인하기 위해 연구진은 인간 참가자들에게 3초 분량의 비디오 클립을 시청하고 사회적 상호작용을 이해하는 데 중요한 특징들을 1점에서 5점까지의 점수로 평가하도록 요청했습니다. 이 클립에는 사람들이 서로 상호작용하거나, 나란히 활동을 하거나, 각자 독립적으로 활동을 수행하는 모습이 담겨 있었습니다.
연구진은 350개 이상의 AI 언어, 비디오, 이미지 모델을 대상으로 인간이 비디오를 어떻게 판단하고 시청에 대한 뇌 반응을 예측하도록 했습니다. 대규모 언어 모델의 경우, 연구진은 AI가 사람이 작성한 짧은 캡션을 평가하도록 했습니다.
참가자들은 대부분 모든 질문에 대해 서로 동의했지만, AI 모델은 학습된 데이터 크기나 종류에 관계없이 동의하지 않았습니다. 비디오 모델은 사람들이 비디오에서 무엇을 하고 있는지 정확하게 설명하지 못했습니다. 일련의 정지 화면을 분석할 수 있는 이미지 모델조차도 사람들이 의사소통하는지 여부를 정확하게 예측하지 못했습니다. 언어 모델은 인간의 행동을 예측하는 데 더 효과적이었고, 비디오 모델은 뇌의 신경 활동을 예측하는 데 더 효과적이었습니다.
연구자들은 이러한 결과는 AI가 정지 이미지를 읽는 데 있어서 보여준 성공과 극명한 대조를 이룬다고 말했습니다.
"이미지를 보고 사물과 얼굴을 인식하는 것만으로는 충분하지 않습니다. 그것이 AI 분야에서 큰 발전을 이룬 첫걸음이었습니다. 하지만 현실 세계는 고정되어 있지 않습니다. 장면에서 펼쳐지는 이야기를 이해하려면 AI가 필요합니다. 사회적 상호작용의 관계, 맥락, 그리고 역동성을 이해하는 것이 다음 단계이며, 이 연구는 AI 모델 개발에 사각지대가 있을 수 있음을 시사합니다."라고 가르시아는 말했습니다.
연구자들은 AI 신경망이 정적 이미지를 처리하는 뇌 영역의 인프라에서 영감을 받았기 때문에 영감을 받았다고 생각합니다. 이는 동적 사회적 장면을 처리하는 뇌 영역과 다릅니다.
"미묘한 차이가 있지만, 가장 중요한 점은 어떤 AI 모델도 정적인 장면처럼 모든 장면에 대한 인간의 뇌와 행동 반응을 따라잡을 수 없다는 것입니다."라고 이식은 말했습니다. "인간이 장면을 처리하는 방식에는 근본적인 무언가가 있는데, 이 모델들은 그것을 놓치고 있다고 생각합니다."
출처: https://www.sciencedaily.com/releases/2025/04/250424165649.htm
댓글 없음
아름다운 덧글로 인터넷문화를 선도해 주세요