Tech Trend

[IT TREND] 자율 AI 에이전트, ChatGPT 다음의 메가트렌드?

sarahkim 2023. 5. 19. 17:22

시작하며

피자를 시켜달라고 했더니 AI가 스스로 피자를 전화로 주문하고, 스스로 자신의 코드를 리뷰하고 개선하는 AI 사례까지 등장한 오늘. 이제 사람들의 관심은 ChatGPT에서 AI 모델이 스스로 외부 툴을 활용하여 보다 적은 사람의 개입으로 더 복잡한 일을 처리해주는 'Autonomous AI Agent (이하 자율 AI 에이전트)'로 이동하고 있습니다. 자율 AI 에이전트가 주목을 받기 시작한 것은 이와 같은 프레임워크를 개발자들이 사용해볼 수 있도록 한 Auto-GPT라는 오픈소스 앱이 화제가 되었기 때문인데요. Auto-GPT는 출시한지 불과 한 달여 밖에 되지 않은 ‘실험’이지만, 한 달만에 GitHub에서 30번째로 가장 star 수가 많은 프로젝트로 등재될 정도로 많은 관심을 받고 있습니다.
 
하지만 연구자 및 개발자 커뮤니티에서 받고 있는 뜨거운 관심 대비, Auto-GPT를 비롯한 자율 AI 에이전트는 아직 ChatGPT만큼 대중적인 화제가 되지는 못하였습니다. 이는 크게 일반 사용자들에게는 다소 낯선 설치 방식과 인터페이스, 기대 이하의 성능, 그리고 비용으로 인한 한계점에 봉착하였기 때문입니다. 앞서 설명드린 피자 전화 주문 사례는 재미있지만, 이를 설계하기 위한 과정은 쉽지 않습니다. 물론 도큐멘테이션을 보고 얼마든지 앱을 실행해볼 수 있지만, 일반적으로 대중들은 이를 시도해보기도 전에 쉽사리 포기를 하기 일쑤입니다.
 
이에 최근에는 별도의 설치과정 없이 웹페이지를 통해 Auto-GPT를 사용해볼 수 있게 하는 서비스들이 등장하며, Auto-GPT와 같은 자율 AI 에이전트가 더 이상 실험이 아닌 서비스로서 거듭나고 있는데요. 뿐만 아니라 일각에서는  멀티 에이전트, 멀티모달 에이전트를 구현한 실험적 사례들도 추가로 등장하면서 다른 일각에서는 자율 AI 에이전트의 다양화가 이루어지는 것을 확인할 수 있었습니다. 추가적으로 금주에는 ChatGPT Plugin과 Web Browsing 기능의 베타 버전이 출시되었는데요. OpenAI의 ChatGPT 또한 현재 Auto-GPT를 주축에 위치한 자율 AI 에이전트들이 나아가는 방향과 유사하게 나아갈 것인지 지켜볼 필요가 있습니다. 
 
그럼 출시 한 달이 지난 지금까지도 큰 관심을 받고 있는 일명 자율 AI 에이전트 Auto-GPT가 무엇이고, 어떻게 ChatGPT와 차별되는지, 그리고 Auto-GPT를 서비스화하고 다양화한 최신 주요 사례들과 ChatGPT 플러그인 및 웹브라우징 기능을 전체적으로 살펴보며 왜 자율 AI 에이전트가 ChatGPT가 이후에 올 새로운 메가트렌드로 자리 잡을 것으로 예상하는지에 대하여 다루어보겠습니다.


Autonomous AI Agent (자율 AI 에이전트) 

자율 AI 에이전트란 : GPT-4와 같은 AI 모델의 외부 툴에 대한 접근을 허용하는 제품 및 서비스를 의미합니다. 브라우저, AI 모델, 스토리지, 컴퓨팅 엔진 등과 같은 외부 툴 을 활용하게 함으로서 모델이 사람의 개입없이 완전한 자율성을 가지고 태스크를 수행하는 것을 목적으로 합니다.
 

자율 AI 에이전트의 주요 기능 

ChatGPT와 Auto-GPT는 동일한 AI 모델 (GPT-3.5, GPT-4)를 기반으로 하지만, 아래와 같이 크게 두 가지 기능을 중심으로 차별됩니다. 아래 내용 살펴보겠습니다: 
 
1. 외부 툴을 활용하는 기능:  우선적으로 자율 AI 에이전트는 외부 툴 (검색, 메모리, TTS, 생성형 AI 모델)을 활용하여 프롬프트에 대한 결과값을 내놓는 반면, ChatGPT는 그렇지 못 합니다. 따라서 거짓 정보를 마치 옳은 것과 같이 제시하는 할루시네이션의 위험도 줄고, 좀 더 다양한 도구를 사용할 수 있어 보다 복잡한 태스크 수행이 가능합니다. 뿐만 아니라 보다 메모리 접근을 통해 장기 기억 능력이 향상되어 내용을 보존하여 태스크 처리 능력이 향상되기도 합니다. 
 
2. Autonomous Iteration (자율 반복 기능) : 기존에 ChatGPT에는 명확하게 목적과 목적을 달성하기 위한 instruction (이하 지시) 사항을 명시해줘야 했는데요. Auto-GPT는 AI 에이전트가 목표에 달성할 때 까지 사용자의 프롬프트 입력 없이 하위 태스크를 설계, 검토 및 실행하는 과정을 반복, 즉 셀프 프롬프팅 (스스로 프롬프트를 주입하는 과정)을 반복할 수 있다는 것이 자율 AI 에이전트의 두 번째 주요 기능입니다. 

자율 AI 에이전트를 위한 좋은 프롬프트는? 

직접 각종 자율 AI 에이전트 앱 및 서비스들을 테스트 해보고 GitHub, Reddit, Stack Overflow 등 개발자 커뮤니티에 올라온 사용 후기들을 종합해본 결과, 자율 AI 에이전트에게 초반에 입력하는 프롬프트, 그리고 실행 중인 에이전트에게 피드백을 줄 때 아래와 같은 사항들을 참고하여 테스트 해보면 에이전트가 더 효과적으로 작동한다고 생각되어 간단하게 정리해보았습니다. 
 

"Auto-GPT is the next frontier of prompt engineering
(Auto-GPT는 프롬프트 엔지니어링의 다음 개척지이다)." - Andrej Karpathy

 Auto-GPT를 포함한 신규 자율 AI 에이전트 서비스 출시 및 업데이트가 빈번히 일어나고 있는 관계로, 좋은 프롬프트를 작성하는 방법은 현재 다들 찾아가는 과정 중에 있다고 생각됩니다. 아래 내용은 현재 글을 올리는 시점에서 제가 리서치하고 진행해본 테스트 결과들을 기반으로 주관적 입장에서 작성되었으니 가볍게 참고 정도만 부탁드리며, 최적의 프롬프트를 찾아가는 다양한 과정을 시도해보시는 것을 권장드립니다. 

 
프롬프트 안에 간결하고 명확하게 목표 서술 
자율 AI 에이전트는 목표 (주로 goal 또는 objective라고 표현합니다)를 명확하고 간결하게 해주어 자율 AI 에이전트에게 스스로 문제를 해결하기 위한 공간을 남겨두는 것이 효과적이었으며, 오히려 목표에 도달하기 위한 지시 사항을 세세하게 서술하여 입력할 경우 자율 AI 에이전트가 과도하게 많은 태스크를 생성하는 등 비효율적으로 작동하는 것을 확인할 수 있습니다. 
 

적합한 외부 툴, 레퍼런스를 지정하여 선택의 폭 좁혀주기 
자율 AI 에이전트들은 실시간으로 외부 검색, 서비스 등을 활용하여 결과물을 내놓는데요. 테스트를 해본 결과, AI 에이전트의 선택의 폭이 너무 넓기 때문에 번거롭더라도 목표에 적합하게 툴들을 미리 지정하여 선택의 폭을 좁혀주는 것이 조금 더 효과적이라고 생각되었습니다. 저 같은 경우는 최초 프롬프트는 간결하게 작성하되, 자율 AI 에이전트가 내놓는 답변을 지속 모니터링하여 앞으로 나아가지 못 하고 있다고 보여질 때 특정 사이트를 이르집어 메인 레퍼런스로 활용하라는 피드백을 넣어주어 AI의 사고 프로세스를 단축했습니다. 


자율 AI 에이전트 트렌드의 발단, Auto-GPT

Significant-Gravitas라는 스타트업에서 LangChain 라이브러리를 활용하여 개발오픈소스 파이썬 애플리케이션으로 OpenAI의 텍스트 생성 모델 GPT-3.5, GPT-4모델이 다양한 외부 소프트웨어와 서비스와 소통하여 사용자 인풋 없이도 스스로 자율적으로 반복을 거쳐 목표에 도달하는 것이 특징입니다.  Auto-GPT는 개발자 커뮤니티에서 AGI (Artificial General Intelligence)의 초기 버전이다라는 평을 받으며 출시 이후 현재까지 많이 회자되고 있으며, 오늘 날 자율 AI 에이전트 트렌드가 떠오르게 된 발단이라고 볼 수 있습니다. 

Auto-GPT 프레임워크

Auto-GPT에 목표를 입력하게 되면 하나의 에이전트가 실행되는 것 같지만, 백엔드에서는 태스크 생성, 태스크 우선 순위 선정, 그리고 태스크 수행이라는 세 개의 주요 워크로드를 담당하는 에이전트들 (GPT-4 기반)로 구성되어 있습니다. 아래 Auto-GPT가 론칭하는 자율 AI 에이전트가 어떤 프로세스로 작동하는지 개략적으로 정리해보았습니다.

Auto-GPT의 작동 프레임워크를 개략적으로 정리해보았다. Auto-GPT GitHub, https://www.leewayhertz.com/autogpt/를 주로 참고하였다. Auto-GPT와 함께 떠오른 유사 앱 BabyAGI는 메모리를 '콘텐츠 에이전트'라고 표현하여 총 네 개의 에이전트가 작동하는 프레임워크 도식을 제공하고 있다.

  1. Goal Initialization : 사용자가 목표를 입력하면, Task Queue (태스크 대기 목록)을 지나 Task Creation Agent에 전달
  2. Memory Querying: 목표를 받은 Task Creation Agent가 메모리에 이제까지 완료된 태스크가 있는지 확인
  3. Task Generation : 전달받은 목표와 이제까지 완료된 태스크 목록을 기반으로 새로운 태스크 목록을 생성하여 Task Queue에 전달
  4. Task Prioritization : Task Prioritization Agent가 목표와 마지막으로 수행된 태스크를 기반으로 Task Queue에 있는 태스크의 우선 순위를 배정하고, 목록을 정리하여 다시 Task Queue에 전달하고, 사용자에게 전달하여 정리된 태스크 목록을 계획대로 실행할 것에 대한 승인 요청. 승인 요청을 받으면 Task Queue로 보낸 후 Task Execution Agent에게 실행 요청
    • 처음 목표를 입력하면 사용자는 화면에 AI가 스스로 이름, 역할, 그리고 하위 목표, 실행 계획을 설계하여 사용자의 허락 및 피드백을 구하는 것을 확인할 수 있음
    • 이후에 한 사이클이 끝날 때 마다 새롭게 정리된 태스크 목록 및 실행 계획을 받아보고, 이를 네 가지 방법으로 승인하여 계획을 행동으로 옮길 수 있음 : 수동 승인 (y), n번 자동으로 승인 (y -N), AI 셀프 피드백 및 승인 (s), 중지 (n)
  5. Task Execution : Task Queue에서 Task Prioritization Agent가 새롭게 정리해준 태스크 목록을 Task Execution Agent에게 보내면, 해당 에이전트가 우선 순위가 가장 높은 태스크를 처리
  6. Storage : AI가 수행한 태스크 목록, 결과값, 그리고 수행한 태스크에 대한 피드백을 벡터 데이터베이스에 저장
  7. Autonomous Iteration : 1번에서 6번까지 최초 사이클이 한 번 돌았다면, 이후에는 AI 에이전트가 1번에서 사용자가 입력한 목표에 도달할 때 까지 2~6번을 자율적으로 반복

위 프레임워크를 기반으로 작동하는 자율 AI 에이전트가 사용자에게 어떤 모습으로 보여지는지 아래 실제 화면을 토대로 정리해보았습니다:

사용자에게 보여지는 화면의 예시. Auto-GPT는 위와 같이 터미널에서 실행할 수 있다.

실사용 예시 

 Auto-GPT의 소스코드는 무료로 제공되지만, GPT-3.5, GPT-4를 기반으로 하여 OpenAI의 Paid Plan 등록이 필요합니다. 또한 ChatGPT와 같이 서비스 형태로 제공되지 않아 아래 설치 과정을 거쳐야만 앱 실행이 가능합니다. Auto-GPT의 보다 상세한 설치 과정은 도큐멘테이션 참고 부탁드립니다.
 
 또한 Auto-GPT는 설치 과정이 다소 번거로운데요. 자율 AI 에이전트를 설치 없이 보다 간편하게 직접 사용해보고 싶으신 분들은 아래 '자율 AI 에이전트 서비스' 목록을 확인해보시는 것을 추천드립니다. 

천 달러 예산으로 할 수 있는 온라인 프롬프트 엔지니어링 사업 계획서를 작성해달라고 하니, 계획을 텍스트 파일로 만들어 전달해주었다. 전달받은 영어 텍스트 파일을 ChatGPT에게 번역을 요청하였다.

별도의 OpenAI외 API를 연결하지 않고 Auto-GPT에게 다양한 목표를 주고 GPT-4 ONLY Mode를 실행하여 테스트해본 결과, Auto-GPT는 컨텐츠 요약을 하거나, 브레인스토밍하는 목표에 잘 달성하는 것을 확인할 수 있었습니다. 하지만 AI 에이전트가 나 대신 식당을 예약해준다거나, 예산에 맞는 집을 알아봐주고 리스트로 정리해준다거나, AI 뉴스를 정리하여 뉴스레터 또는 팟캐스트 형태로 만들어주는 것과 같이 조금만 태스크가 더 복잡해지면 사용자가 설계하기에 복잡해지고, 설계하여 실행한다고 해도 'Logic Loop (논리 루프)'에 빠져 동일 태스크 생성하고 실행하기를 무한 반복하는 굴레에 빈번하게 갇혔습니다. 
 
문제점 : 동일 내용의 하위 태스크 생성을 반복하는 'Logic Loop'  

Logic Loop의 예시. "목표: 오픈테이블로 이번주 금요일 점심에 LA 한인타운에 위치한 한식당 2명 예약" 초기 에이전트 및 툴정의, 하위 태스크 생성까지는 좋았으나 계획이 이행되지 않고 동일한 하위 태스크를 반복하는 Logic Loop (이하 논리 루프, 또는 무한 루프)에 갇혔다.

상기 이미지를 보시면 식당 예약 플랫폼 OpenTable을 메인 레퍼런스 사이트로 지정해주어도 다시 보다 광범위한 구글 브라우저 검색을 할 것을 고집하고 있는데요.  자율적으로 동일 내용의 태스크 설립, 실행 계획 수립 등을 반복하는 문제점으로 생각보다 원하는 결과물을 받기 어려웠습니다. 이는 Auto-GPT가 추론 (reasoning)을 하는 과정에 있어 다소 성능이 떨어지기 때문이라고 하는데요. 이러한 무한 루프 현상은 에이전트가 효과적으로 태스크를 처리하지 못 할 뿐 더러 필요 이상으로 토큰을 낭비하기 때문에 발견시 추가적으로 피드백을 입력하여 태스트 수행 시 필요한 툴이나 지시 사항을 구체화 해주거나 에이전트를 종료하는 것을 추천드립니다. 

Auto-GPT 플러그인

Email 플러그인 사용 예시. 이메일을 읽고, 쓰고, 보내는 등의 작업이 가능하다고 한다. (출처: https://github.com/Significant-Gravitas/Auto-GPT-Plugins/tree/master/src/autogpt_plugins/email\)

0.3.1 버전 업데이트가 진행되며 연동 가능한 플러그인 옵션이 대거 추가되었습니다.  Auto-GPT가 지원하는 플러그인은 크게 퍼스트 파티, 그리고 서드 파티 플러그인으로 나뉘며, 퍼스트 파티의 경우 Auto-GPT v0.3.1와 함께 설치가 진행되는 반면, 서드파티 플러그인은 개별적으로 설치를 진행해야 합니다. 추가적으로, 사용자들은 플러그인 레포지토리 및 템플릿을 복제하여 커스텀 플러그인을 만들고 공유할 수 있다고 합니다. 현재 도큐멘테이션이 매우 부실한 상태인 것으로 보아, 일단 발 빠르게 출시하고 커뮤니티와 함께 점차 개선을 해나아갈 것으로 예상됩니다.


자율 AI 에이전트의 서비스화

별도 설치 없이 Auto-GPT의 기능을 사용해볼 수 있게 이를 서비스화하여 출시하는 사례가 꾸준히 증가하고, 또 주목을 받고 있습니다. 아래 사례들을 각각 가볍게 사용해보며 간단하게 어떤 서비스인지 정리해보았습니다.
 

※ 모든 서비스를 100% 신뢰할 수 없기 때문에 테스트를 마치고 해당 서비스 입력창에서 입력한 API Key를 지우거나 OpenAI 관리 페이지에서 삭제하시는 것을 추천드립니다.

Agent GPT (Beta)

목표: 오늘의 빅테크 뉴스를 위한 팟캐스트 대본 작성

Auto-GPT를 브라우저를 통해 설치 없이 사용해볼 수 있도록 한 사례입니다. 하단 이름과 목표 입력을 통해 나만의 AI 에이전트가 상위 목표 달성을 위한 하위 태스크를 자율적으로 생성하고, 하나씩 처리하기 시작합니다. 설립된 모든 목표들은 우측 'Current Tasks'란에 리스트업 되어 아이콘을 통해 현황을 보여주고 있습니다.

 현재 AgentGPT에서는 토큰이 과다하게 소비되는 문제로, 온라인에서 정보를 가져올 수 있는 Web Search 기능을 일시적으로 제한하고 있는 상태입니다.

God Mode

목표: 오늘 빅테크 뉴스에 대한 팟캐스트 대본을 한국어로 간결하게 작성

현시점 가장 많은 주목을 받고 있는 자율 AI 에이전트 서비스 중 하나입니다. 기존 Auto-GPT는 개발자가 아니면 익숙하지 않은, 비주류의 터미널 인터페이스를 기본으로 하는데요. God Mode는 이와 같은 문제점을 AgentGPT와 유사하게 인식하여 Auto-GPT를 브라우저에서 실행할 수 있도록 한 서비스입니다. 현재 AI 에이전트 비즈니스 오토메이션을 위한 Godmode V2 (버전 2)대기 명단을 받고 있습니다.

BabyAGI UI

목표: 이번 주 탑 5 AI 뉴스에 대한 팟캐스트 대본을 한국어로 작성

Auto-GPT만큼은 아니지만, 비슷한 시기에 출시되어 덩달아 큰 관심을 받은 AI 에이전트 앱 'BabyAGI' 또한 최근에 UI 버전이 출시되면서 로컬 기기에 설치 없이 앱을 사용해볼 수 있게 되었습니다. BabyAGI는 Auto-GPT와 비슷한 시기에 출시된 오픈소스 파이썬 스크립트인데요. OpenAI의 언어 모델, 그리고 Chroma와 Weaviate와 같은 벡터 데이터베이스를 활용하여 사용자가 설정한 목표를 달성하기 위한 태스크를 생성하고, 우선 순위를 매겨 처리합니다. 

Cognosys

목표: 오늘 빅테크 뉴스에 대한 팟캐스트 대본을 한국어로 간결하게 작성

사용해본 서비스 중에서 가장 빠르고 정확하게 목표에 달성하는 것을 확인할 수 있었습니다. Search mode를 활성화하면 GPT-4를 사용하게 되고, 중간 대화 창에 이름과 목표만 지정해주면 목표 달성을 위한 태스크를 자율적으로 계획하고 하나씩 우선 순위대로 실행하기 시작합니다. 한국어로 결과값을 요청한 것에 어려움을 겪은 타 서비스들의 AI 에이전트와는 다르게 별 문제 없이 요청한 목표에 원활하게 다다른 것을 확인할 수 있습니다. 

Do Anything Machine (Waitlist)

(출처: https://www.doanythingmachine.com/)

사용자가 태스크를 리스트업하면 GPT4 기반 에이전트를 생성하여 해당 태스크들을 수행해주는 서비스라고 합니다. 해당 서비스는 생산성에 초점이 맞추어져 있는 툴로, 사용자가 태스크를 추가할 때 마다 GPT-4 에이전트가 생성되어 주어진 태스크를 수행한다고 합니다. 현재는 대기명단을 받고 있는 단계인 관계로 서비스를 직접 테스트 해볼 수는 없었습니다.

(출처: https://twitter.com/thegarrettscott/status/1645918390413066240)

Aomni

리서치에 특화된 자율 AI 에이전트로, 실시간 인터넷 브라우징을 통해 찾은 정보를 기반으로 텍스트를 생성하여 실제 사람이 리서치하는 것과 같은 프로세스와 유사하게 목표에 도달합니다. 서비스의 기본 토큰 사용량을 달성한 이후 새로운 리서치를 요청하려면 Pro 플랜으로 업그레이드가 필요합니다. 질문 하나에 토큰이 다 소비될 확률이 높다는 점 테스트 전 유의 부탁드립니다. 

목표: Auto-GPT에 대한 상세한 리서치 진행
어떠한 사고 과정을 거쳐 리서치를 진행하였고, 각 단계 별 레퍼런스에 대한 링크까지 제공해준다.

Nexus GPT

NexusGPT에 로그인 하면 마켓플레이스를 통해 수 많은 자율 AI 에이전트 템플릿을 직군 별로 조회할 수 있다.

세계 최초 AI 프리랜서 플랫폼입니다. 크몽의 AI 버전 같아보이는데요. 해당 사이트는 실제 사람 프리랜서 대신에 각기 다른 role을 가지고 있는 AI 에이전트들을 마켓플레이스에서 확인해 볼 수 있는데요. 사용자가 자신의 목적에 맞는 AI 에이전트를 보다 빠르고 쉽게 찾고 활용할 수 있도록 AI 에이전트를 사전에 템플릿화 한 것이 특징입니다. 

UI/UX 디자이너, Maddie Bennett. 각 프리랜서 에이전트를 조회하면 위와 같은 화면이 뜬다. 모델 별로 사전 프롬프팅이 완료된 것을 볼 수 있다. 뿐만 아니라, 메뉴 바에서 'Finetuning' 옵션을 선택하면 추가적으로 파인튜닝을 하는 것이 가능하다. 각 에이전트와 대화를 시작하면 여타 자율 AI 에이전트를 사용하듯 목표를 명확히 하여 프롬프트를 입력해주면 되는데 에이전트가 결과값을 내놓는데 시간이 너무 오래 걸렸다.


자율 AI 에이전트의 다양화

멀티 에이전트

GPTeam

UI를 중점적으로 개선된 가장 최신 버전의 GPTeam의 모습. (출처: https://twitter.com/itstimconnors/status/1658892067161128960)

이번 주에는 다수의 자율 AI 에이전트를 동시에 실행하는 따끈한 신규 실험성 프로젝트가 공개되었는데요. 스탠포드의 Generative Agents 논문에서 영감을 받아 개발하였으며, 다수의 에이전트가 동시 다발적으로 작동하는 것이 특징입니다. Auto-GPT와 유사하게 터미널에서 작동하는 자율 AI 에이전트 파이썬 스크립트로  다수의 에이전트가 서로 소통하며 하나의 목표를 위해 각기 다른 태스크를 맡아 협업하는 것을 구현하였다고 합니다. 해당 프로젝트는 사용자의 선택에 따라 OpenAI의 GPT-4를 활용하거나 구글이 투자하여 OpenAI의 대항마로 기대를 받고 있는 스타트업 Anthropic의 Claude를 기반 모델로 사용할 수도 있습니다. 


멀티모달 에이전트

Hugging Face Transformers Agent

AI 모델 호스팅 플랫폼 Hugging Face (이하 허깅페이스)가 최근에 출시한 툴로, Transformer와 Diffusion 모델 위에 두 가지 유형의 NLP API를 올려서 허깅페이스에 호스팅된 모델 중 10만개가 넘는 오픈소스 모델들을 활용하여 멀티모달 태스크 처리가 가능한 것이 특징입니다. 사용자가 선택한 거대 언어 모델을 중심으로 다양한 Transformer, 그리고 Diffusion 모델이 붙는 것인데요. Auto-GPT와 같이 '자율 반복'적으로 태스크를 목표에 도달할 때까지 끊임없이 설립하고 수행하지는 않지만, 자동으로 많은 툴 중에 가장 적합한 툴을 선택하여 태스크를 처리할 수 있다고 합니다. 
 
Transformers Agent는 Google Colab에서 사용해볼 수 있는데요. 다른 사례들과 달리, 허깅페이스는 무료 오픈소스 모델과 유료 폐쇄형 모델 중에서 선택할 수 있도록 하였습니다: 

  • HfAgent : inference endpoint를 사용하여 허깅페이스에 호스팅된 오픈소스 모델을 AI 에이전트로서 무료로 사용할 수 있습니다. 허깅페이스에서 원하는 모델을 조회한 후, 우측에 'inference API' 활성화 여부를 확인한 후 코드를 수정하여 오픈소스 에이전트를 선택하여 가져올 수 있습니다. 
  • OpenAiAgent : OpenAI 폐쇄형 모델을 가져와서 AI 에이전트로 사용할 수 있는 옵션입니다. 물론 OpenAI의 Paid Plan에 등록되어 있어야 하며, API Key를 등록한 후 사용량 만큼의 비용을 지불해야 합니다.

모델을 선택한 후, 아래 두 가지 접근법 중 사용자가 니즈에 맞는 코드와 예제를 선택하여 테스트를 진행해볼 수 있습니다. 

agent.run 코드의 예시. 링크의 기사를 요약한 후 오디오 파일로 변환해주었다. 아래는 위 프롬프트를 좀 더 구체화 (팟캐스트 진행자 'Podcaster'라는 역할 부여 및 글을 좀 더 영혼 담아 'enthusiastic'하게읽을 것을 주문) 하여 다시 실행했을 때 받아본 음성 파일이다.
HF_agent.run_간단사용예시
0.63MB

  • Single execution API (agent.run) : AI 에이전트가 자동으로 태스크를 처리하기 위해 요구되는 툴을 선택하고 해당 툴들을 적절하게 실행하는 접근법을 택합니다. 단일 instuction으로 하나 또는 다수의 태스크를 한 번에 처리할 수 있으나, 태스크가 복잡할수록 실패 확률이 높아진다고 합니다. 

agent.chat 코드의 예시

  • Chat-based execution API (agent.chat) : 채팅 기반의 접근법으로, 단일 instruction이 아닌 다수의 instruction을 제공하였을 때 state를 유지합니다. 즉, 대화를 기억하는 기능을 통해 single execution API 보다 연속성 있고 복잡한 태스크에 적합한 instruction에 적합한 접근법입니다. 

ChatGPT Plugin (Beta), Web Browsing (Beta)

맨하탄 34번가에 2,500달러 이하의 싱글 베드룸 아파트 렌트 옵션을 나열해달라고 했을 때 Plugin을 사용하지 않고는 리소스 추천에만 그쳤는데, Zillow라는 부동산 검색 서비스 플러그인을 설치하고 동일 질문을 물어보았을 때 해당 서비스를 활용하여 질문에 대한 답변을 하는 것을 볼 수 있다.

ChatGPT도 자율 AI 에이전트를 향해 가는 것은 아닐까? 
최근 OpenAI가 ChatGPT Plugin의 베타 버전을 대기명단에 올라간 사용자들을 대상으로 출시하였습니다. 기본적으로 제공되고 있는 70여개의 Plugin 외에도 사용자가 직접 플러그인을 만들어 지정 서드파티 앱의 API를 호출할 수도 있습니다. ChatGPT에서는 '자율 반복 기능'을 제공하고 있지는 않습니다. 하지만 외부 툴을 활용한다는 점에 있어서 Auto-GPT와 절반 정도 유사하며, 성능 및 사용성이 매우 좋았습니다. ChatGPT를 중심으로 다양한 API가 호출되는 것으로 보아 ChatGPT는 이미 외부 도구를 활용하여 사람의 태스크를 대신 수행해주는, 일종의 'AI 에이전트'로 보여집니다. ChatGPT가 베타 버전 이후 더 나아가 향후 보다 적은 사람의 개입으로 Auto-GPT와 같이 AI 에이전트가 스스로 생각하며 계획을 하고 실행에 옮기는 '자율' AI 에이전트로 발전해나아갈 것인지 관심 있게 지켜볼 필요가 있다고 생각됩니다. 


이번 주의 인사이트

지난 3월, ChatGPT는 일반 대중이 누구나 쉽게 사용할 수 있는 성능 좋고 심지어는 무료인 거대 언어 모델 서비스를 제공함으로써 전세계적으로 생성형 AI 트렌드를 주도했습니다. 이후 4월에 등장한 Auto-GPT는 ChatGPT를 능가하는, AGI의 가능성을 엿볼 수 있는 프로젝트로 개발자 및 연구자 커뮤니티에서 칭송 받으며 세레브럴 밸리의 가장 핫한 AI 트렌드로 떠올랐지만 Auto-GPT와 함께 떠오른 자율 AI 에이전트 트렌드는 일반 대중에게까지 전파되지 못 했습니다. Auto-GPT가 출시된 지 한 달이 되었고 더 많은 유사 서비스 및 실험이 오픈소스 커뮤니티 뿐만 아니라 Hugging Face와 OpenAI에서도 출시되며 자율 AI 에이전트의 대중화를 향해 시장이 빠르게 움직이고 있습니다. 자율 AI 에이전트가 현시점에서 제시된 사용성, 성능, 그리고 비용의 한계점을 극복하고 대중화에 성공하게 된다면 ChatGPT 다음의 메가 트렌드로 자리매김할 수 있을 것으로 예상됩니다. 
 
Auto-GPT의 한계점
우선 Auto-GPT는 많은 업데이트를 거쳤음에도 불구하고 아직은 완성된 어플리케이션이나 제품이라고 할 수 없는, 출시한지 불과 한 달밖에 되지 않은 오픈소스 ‘실험’에 불과하다는 점을 명시하고자 합니다. 그리고 실제로 Auto-GPT를 설치해보고 약 일주일 간 사용해본 결과, 크게 세 가지 주요 한계점으로 인해 개발자, 연구자 커뮤니티 이상으로 회자가 되지 않는 것을 확인했습니다.
 
 (1) 성능 : 다양한 앱과 툴을 복합적으로 활용해야하는 복잡한 목표 달성의 경우 특정 태스크에 머물러 무한 로직 루프에 갇히는 문제점을 빈번히 보였습니다. 실생활에서 사용해볼만 한 시나리오의 목표를 달성하게 하기 위해서는 API Key 입력, 플러그인 설치 등 사용자의 사전적인 개입이 요구됩니다. 글 초반에 소개한 피자 주문 사례와 같이 다양한 API를 연동하고 인터페이스를 직접 노코드로 설계할 수도 있지만, 이는 분명 누구나 쉽게 해볼 수 있는 것은 아니라고 생각이 됩니다. 
 
(2) 비용: Auto-GPT는 OpenAI Paid Account를 기반으로 하기 때문에 사용량, 그리고 불필요한 토큰 (비용)을 반복적으로 소비하는 무한 로직 루프에 걸리는 현상을 주의해야합니다. 또한 앞서 말한 보다 복잡한 태스크 처리를 위해서는 다양한 유료 API Key 입력이 요구되는 경우가 많습니다. 
 
(3) 사용성: 터미널은 단연코 일반적인 대중에게 익숙하거나 사용하기 편리한 인터페이스는 아닙니다. Auto-GPT의 코드를 실행하기 위해서는 터미널을 활용해야 하는데요. 설치하는 것에 이어 터미널을 통해 텍스트만으로 소통하는 것은 직관성이 떨어질 뿐만 아니라, 사용자가 Auto-GPT를 사용하는 것을 포기해버리게 되는 가장 큰 요인이라고 보여집니다. 
 
자율 AI 에이전트는 빠르게 개선되고 점차 대중화되며 ChatGPT의 뒤를 잇는 새로운 메가트렌드로 자리 잡을 것으로 기대 
Auto-GPT의 컨셉은 흥미로웠지만, 앞서 설명드린 바와 같이 성능, 비용 여러 가지 장벽이 존재하여 연구자, 개발자 커뮤니티에서 회자되는 것에 그쳤습니다. Auto-GPT가 출시 된지 한 달이 된 지금, Auto-GPT와 같은 자율 AI 에이전트 앱을 별도의 설치 과정없이 누구나 브라우저에서 바로 사용해볼 수 있는 서비스 및 후속 실험들이 출시되고 있고, 이에 자율 AI 에이전트는 점차 연구자향에서 소비자향으로 이동하며 사용성이 개선되고 있습니다. 또한 오픈소스 모델의 비약적인 발전 속도로 미루어 보았을 때 빅테크, 폐쇄형 모델의 성능, 규모를 추월할 것으로 예상되고, 향후 사용자가 선택 및 조합할 수 있는 모델의 폭이 더욱 넓어져 성능과 특히 비용적 측면에서 개선이 이루어질 것으로 기대되고 있습니다. 마지막으로, 오픈소스 커뮤니티에서는 자율 AI 에이전트가 점차 더 다양하게 서비스화되어 출시되기 시작하고 있어 플러그인 부터 다수의 자율 AI 에이전트를 동시 다발적으로 실행하는 멀티 에이전트와 멀티모달 태스크 수행까지 가능해지고 있습니다. 발빠르게 발전하는 오픈소스 서비스와 모델, 그리고 OpenAI의 ChatGPT Plugin과 웹 브라우징의 베타 버전까지 출시된 소식 등을 종합하여 보았을 때, 조만간 자율 AI 에이전트는 성능, 비용, 그리고 사용성 문제를 빠르게 개선해나가며 ChatGPT 다음으로 오는 가장 큰 기술 트렌드로 자리 잡을 수 있지 않을까 기대하고 있습니다. 
 
written by Sarah

기술인사이트파트

새로운 기술과 시장 트렌드를 발굴하여 카카오엔터프라이즈 내외부로 인사이트를 공유하는 것을 목표로 합니다.

(문의: tech.insight@kakaoenterprise.com)