“AI 최고는 챗GPT도, 빙도 아니었다”..美 스타트업의 ‘반란’ [글로벌 IT슈]

by admin · 2023년 6월 12일

미 검색 전문매체 서치엔진저널의 ‘성능비교’

[파이낸셜뉴스] 미국 생성형 인공지능(AI) 스타트업 앤트로픽의 AI 챗봇 ‘클로드’가 오픈AI의 ‘챗GPT’, 마이크로소프트(MS)의 ‘빙챗’, 구글의 ‘바드’ 보다 더 정확하고 많은 텍스트를 신속하게 생성하는 것으로 나타났다.

클로드, 챗GPT, 빙챗, 바드.. 4개 엔진 비교했더니
지난 3일(현지시간) 미 검색 전문매체 서치엔진저널은 클로드와 챗GPT, 빙챗, 바드의 텍스트 생성 작업을 비교한 실험에서 클로드의 성능이 월등히 높았다고 보도했다.

앞서 앤트로픽은 지난달 클로드의 유료 버전을 출시했다. 컨텍스트 창을 9000 토큰에서 10만 토큰으로 확장한 ‘클로드-인스턴트-100k(Claude-instant-100k)’ 모델이다.

하나의 단어를 기억하기 위해 1개 이상의 토큰이 이용된다. 토큰 10만개는 약 7만5000개의 단어에 해당한다. 컨텍스트 창은 답변할 단어를 예측하기 위해 참고하는 토큰들이 담겨 있다.

컨텍스트 창이 크면 클수록 구체적인 프롬프트(명령어)를 입력했을 때 더욱 정확하고 많은 데이터를 제공받을 수 있다.

오픈AI의 표준 모델인 GPT-3.5는 컨텍스트 창에서 8000개의 토큰을 지원하는 것으로 알려졌다. 유료 버전인 GPT-4는 3만2000개(2만5000개 단어)의 토큰을 지원한다.

MS의 빙챗은 프롬프트 입력 상자에 0/4000으로 표시돼 최대 4000자까지만 허용된다. 다만, 실제 성능은 6000개 단어에 해당하는 최대 4만400자가 입력 가능한 것으로 알려졌다.

구글의 바드는 최대 1만자를 허용하고 있다.

모든 작업 가장 먼저 수행한 건 ‘클로드’

매체는 4개의 AI 챗봇에서 동일한 입력 쿼리(검색 요청 사항)에 대한 작업 결과를 비교하기 위해 1850단어(1만2500자)로 구성한 126개의 항목 리스트의 각 항목을 재작성하도록 요청했다.

이중 클로드가 가장 먼저 작업을 수행했다. 또 126개의 전 항목에서 할루시네이션(환각) 현상이 발생하지 않았다.

챗GPT는 37번째 항목에서 작업을 중지했다. 계속해서 ‘생성’을 지시하자 37번째 항목을 완료했지만 다시 중지했다. 챗GPT는 이 같은 방식으로 126번째까지 작업을 완료한 뒤 요청한 적 없었던 항목(127~142번째)까지 생성했다.

빙챗은 환각 현상은 발생하지 않았으나, 18번째 이후 항목에서 입력한 내용과 동일하게 생성했다.

바드의 경우 1만자 입력 제한이 있어 프롬프트 목록에서 99개 항목만 제출했다.

전체적으로 4개의 AI 챗봇 모두 상황에 적절한 응답을 생성해냈다. 다만, 내용이 길고 복잡한 쿼리에서는 클로드가 압도적인 성능을 자랑했다.

앤트로픽은 10만 토큰으로 확장된 ‘클로드-인스턴트-100k’를 챗GPT 유료 버전인 월 19.99달러(한화 약 2만6000원)에 제공하고 있다.

파이낸셜뉴스