글로벌 주요 인공지능(AI) 검색 모델 중 가장 정확한 답을 내놓은 AI는 구글의 'AI 모드'라는 테스트 결과가 나왔다.
워싱턴포스트(WP)는 자체적으로 미국 공공·대학 도서관과 함께 진행한 AI 검색 도구 테스트에서 구글 'AI 모드'가 가장 정확한 답변을 내놓았다고 지난 27일(현지 시각) 보도했다.
이번 테스트는 AI 모드와 AI 오버뷰(구글), GPT-5와 GPT-4 터보(오픈AI), 클로드(앤스로픽), 메타 AI(메타), 그록(xAI), 퍼플렉시티(퍼플렉시티), 빙 코파일럿(MS) 등 9개의 AI 도구를 대상으로 진행됐다.
구글의 AI 모드는 웹을 깊이 검색해 여러 출처를 종합한 뒤 답변을 제공하고, AI 오버뷰는 검색 결과를 AI가 요약해준다.
이 테스트는 30개의 까다로운 질문을 던진 뒤 AI 도구가 내놓는 답변 900건을 점수화했다.
모든 도구는 7~8월 기준 무료 기본 버전으로만 테스트했다.
질문은 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향(편견), 이미지 인식 등 5가지에 집중됐다.
테스트 결과 구글의 AI 모드가 100점 만점 가운데 60.2점을 얻어 가장 높은 점수를 받았다. GPT-5 기반의 챗GPT가 55.1점으로 2위를, 퍼플렉시티가 51.3점으로 3위를 차지했다.
일론 머스크가 운영 중인 xAI의 그록3는 40.1점에 그쳐 8위, 메타 AI는 33.7점으로 가장 낮은 점수를 얻었다.
그록 최신 모델인 그록4는 무료 버전이 없어 테스트 대상에 포함되지 않았다.
구글 AI 모드는 검색왕답게 퀴즈와 최신 사건 부문에서 가장 정확한 답을 제시했다.
전문 출처 검색에서는 빙 코파일럿이, 이미지 인식에서는 퍼플렉시티가 가장 높은 점수를 받았다.
GPT-4 터보는 가장 치우치지 않는 답을 제공했다.
GPT-5는 2위를 차지했지만 일부 영역에서는 GPT-4보다 낮은 점수를 받았다.
WP는 "테스트에서 AI의 약점을 의도적으로 공략했지만 여전히 일상 질문의 상당수에서 제대로 답하지 못했다"고 분석했다.
AI는 최신 정보의 여부, 출처 신뢰도를 판별하는데 어려움을 겪고 있고 잘못된 답을 자신 있게 내놓기도 했다.
WP는 "결국 AI 답변을 그대로 믿기보다는 사서처럼 출처 확인, 최신성 검증, 비판적 사고를 거쳐야 한다는 결론이 도출됐다"고 전했다.