[뉴스토마토 안정훈 기자] 삼성전자가 인공지능(AI)의 업무 생산성을 정확하게 측정하기 위한 벤치마크(Benchmark·성능을 확인하기 위한 지표) ‘트루벤치’를 25일 공개했습니다. 최근 많은 기업이 업무에 AI를 도입하고 있지만, 기존 벤치마크로는 AI 모델의 성능을 확인하는 데 한계가 있는 만큼 새 지표가 필요하다는 데 주목한 것입니다.
트루벤치 사이트 메인 화면. (사진=삼성전자)
트루벤치는 삼성전자 DX부문 선행 연구개발 조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 벤치마크입니다. 기존 벤치마크와 달리 업무 생산성을 집중 평가하는 게 특징으로, 평가 항목은 10개 카테고리에서 48개 업무, 2485개의 세분화된 항목으로 구성돼 있습니다. 이 항목들은 기업에서 자주 쓰이는 콘텐츠 생성과 데이터 분석, 문서 요약·번역, 연속 대화 등 실제 업무에서 활용되는 체크리스트를 기반으로 만들어졌습니다.
평가 결과도 기존 벤치마크와 차별화됐습니다. 한 번에 최대 5개 모델을 선택해 비교할 수 있어 다양한 AI 모델의 성능을 한눈에 파악할 수 있습니다. 점수는 10개 카테고리에 대한 세부 항목별 점수를 공개해 세밀한 평가 결과를 도출해냈습니다. 한국어와 영어, 일본어, 중국어 등 12개 언어를 지원하며, 여러 언어 간의 교차 번역 기능 평가도 가능해졌습니다.
교차검증에는 AI가 적용돼 효율성과 객관성을 높였습니다. 사람이 구축한 평가 기준을 AI가 검토해 오류를 찾아내며, 반복적인 교차 검증을 통해 더욱 정교한 평가를 완성하게 구성됐습니다.
전경훈 DX부문 최고기술책임자(CTO) 겸 삼성리서치장(사장)은 “삼성 리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 보유하고 있다”며 “트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 삼성전자의 기술 리더십을 더욱 공고히 할 것”이라고 했습니다.
안정훈 기자 ajh76063111@etomato.com