인터넷에 더 쉽게 접근할 수 있도록 AI를 개발하는 연구원들

장애가 있는 사람들이 인터넷에 더 쉽게 접근할 수 있도록 하기 위해 오하이오 주립 대학의 연구원들은 간단한 언어 명령을 사용하여 모든 웹 사이트에서 복잡한 작업을 완료할 수 있는 인공 지능 에이전트를 개발하기 시작했습니다.

공개 도메인으로 처음 출시된 지 30년 동안 월드 와이드 웹은 놀라울 정도로 복잡하고 역동적인 시스템이 되었습니다. 그러나 인터넷 기능은 이제 사회 복지에 매우 중요하기 때문에 인터넷의 복잡성으로 인해 탐색이 훨씬 더 어려워집니다.

오늘날 정보에 액세스하거나 다른 사람과 통신하는 데 도움이 되는 수십억 개의 웹 사이트가 있으며, 인터넷의 많은 작업을 완료하려면 12개 이상의 단계를 거쳐야 합니다. 이것이 바로 이번 연구의 공동 저자이자 오하이오 주립대 컴퓨터 과학 및 공학 조교수인 유수(Yu Su)가 실제 사이트에서 얻은 정보를 사용하여 온라인 AI 도우미인 웹 에이전트를 만드는 그들의 연구가 다음 단계라고 말한 이유입니다. 디지털 세계를 덜 혼란스러운 곳으로 만듭니다.

Su는 “일부 사람들, 특히 장애가 있는 사람들의 경우 인터넷 검색이 쉽지 않습니다.”라고 말했습니다. “우리는 일상 생활과 업무에서 컴퓨팅 세계에 점점 더 많이 의존하고 있지만, 접근에 대한 장벽이 점점 더 많아지고 있으며, 이로 인해 어느 정도 격차가 커지고 있습니다.”

이 연구는 지난 12월 AI 및 머신러닝 연구를 위한 주요 컨퍼런스인 신경정보처리시스템(NeurIPS)에 관한 제37차 컨퍼런스에서 발표되었습니다.

Su는 대규모 언어 모델의 힘을 활용함으로써 에이전트가 인간이 웹을 탐색할 때 행동하는 방식과 유사하게 작동한다고 말했습니다. 오하이오 주립대 팀은 그들의 모델이 언어를 처리하고 예측하는 능력만을 사용하여 다양한 웹사이트의 레이아웃과 기능을 이해할 수 있음을 보여주었습니다.

연구원들은 일반 웹 에이전트를 위한 최초의 데이터 세트인 Mind2Web을 생성하여 프로세스를 시작했습니다. 장난감 시뮬레이션 웹 사이트에 초점을 맞춘 웹 에이전트를 구축하려는 이전의 노력에도 불구하고 Mind2Web은 실제 웹 사이트의 복잡하고 역동적인 특성을 완전히 수용하고 이전에 본 적이 없는 완전히 새로운 웹 사이트로 일반화하는 에이전트의 능력을 강조합니다. Su는 그들의 성공의 대부분이 끊임없이 진화하는 인터넷의 학습 곡선을 처리하는 에이전트의 능력 때문이라고 말했습니다. 팀은 137개의 다양한 실제 웹사이트에서 2,000개 이상의 개방형 작업을 해제한 다음 이를 에이전트 교육에 사용했습니다.

일부 작업에는 편도 및 왕복 국제선 예약, 트위터의 유명인 계정 팔로우, Netflix에서 스트리밍되는 1992년부터 2017년까지 코미디 영화 검색, 심지어 DMV에서 자동차 지식 테스트 예약까지 포함되었습니다. 많은 작업이 매우 복잡했습니다. 예를 들어 모델에 사용된 국제선 항공편 중 하나를 예약하려면 14개의 작업이 필요합니다. 이러한 손쉬운 다재다능함은 수많은 웹사이트에서 다양한 보도를 허용하고 미래 모델이 자율적인 방식으로 탐색하고 학습할 수 있는 새로운 환경을 열어준다고 Su는 말했습니다.

Su는 “최근 ChatGPT와 같은 대규모 언어 모델이 개발되었기 때문에 이와 같은 작업이 가능해졌습니다.”라고 말했습니다. 2022년 11월 챗봇이 공개된 이후 수백만 명의 사용자가 이를 사용하여 시와 농담부터 요리 조언, 의료 진단에 이르기까지 콘텐츠를 자동으로 생성했습니다.

그러나 하나의 웹 사이트에는 수천 개의 원시 HTML 요소가 포함될 수 있으므로 하나의 대규모 언어 모델에 너무 많은 정보를 제공하는 것은 비용이 너무 많이 듭니다. 이러한 격차를 해결하기 위해 연구에서는 이러한 작업을 수행하기 위해 크고 작은 언어 모델을 모두 사용하는 두 가지 에이전트인 MindAct라는 프레임워크도 도입했습니다. 팀은 이 전략을 사용함으로써 MindAct가 다른 일반적인 모델링 전략보다 훨씬 뛰어난 성능을 발휘하고 적절한 수준에서 다양한 개념을 이해할 수 있다는 것을 발견했습니다.

좀 더 세부적으로 조정하면 이 모델은 Flan-T5 또는 GPT-4와 같은 오픈 소스 및 폐쇄 소스 대규모 언어 모델과 함께 사용될 수 있다고 연구는 지적합니다. 그러나 그들의 작업은 유연한 인공 지능을 만드는 데 있어 점점 더 관련성이 높은 윤리적 문제를 강조하고 있다고 Su는 말했습니다. Su는 웹 서핑을 하는 인간에게 확실히 도움이 되는 에이전트 역할을 할 수 있지만 ChatGPT와 같은 시스템을 향상하고 전체 인터넷을 전례 없는 강력한 도구로 바꾸는 데에도 사용할 수 있다고 Su는 말했습니다.

“한편으로 우리는 효율성을 향상시키고 작업의 가장 창의적인 부분에 집중할 수 있는 큰 잠재력을 가지고 있습니다.”라고 그는 말했습니다. “그러나 반면에 해를 끼칠 가능성은 엄청납니다.” 예를 들어, 온라인 단계를 현실 세계로 변환할 수 있는 자율 에이전트는 금융 정보를 오용하거나 잘못된 정보를 퍼뜨리는 등 잠재적으로 위험한 행동을 취함으로써 사회에 영향을 미칠 수 있습니다.

Su는 “우리는 이러한 요인에 대해 매우 주의해야 하며 이를 완화하기 위해 공동의 노력을 기울여야 합니다.”라고 말했습니다. 그러나 AI 연구가 계속 발전함에 따라 특히 이 기술이 이미 대중의 눈에서 많은 인기를 얻었기 때문에 사회는 앞으로 수년 동안 일반 웹 에이전트의 상업적 사용과 성능에서 큰 성장을 경험할 가능성이 있다고 지적합니다.

Su는 “내 경력 전반에 걸쳐 나의 목표는 항상 인간 사용자와 컴퓨팅 세계 사이의 격차를 해소하는 것이었습니다.”라고 말했습니다. “그렇지만 이 도구의 진정한 가치는 사람들의 시간을 절약하고 불가능을 가능하게 한다는 것입니다.”

이 연구는 국립과학재단(National Science Foundation), 미 육군 연구소(US Army Research Lab), 오하이오 슈퍼컴퓨터 센터(Ohio Supercomputer Center)의 지원을 받았습니다. 다른 공동 저자로는 오하이오주 출신의 Xiang Deng, Yu Gu, Boyan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang 및 Huan Sun이 있습니다.

출처: https://www.sciencedaily.com/releases/2024/01/240109170521.htm

댓글 없음

아름다운 덧글로 인터넷문화를 선도해 주세요