백서: 대규모 언어 모델(LLM) 평가를 위한 모범 사례
서울--(뉴스와이어)--Weights & Biases (웨이츠 앤드 바이어시스, 이하 W&B)는 지난 1일 ‘AI EXPO KOREA 2024’에서 백서 ‘대규모 언어 모델(LLM) 평가를 위한 모범 사례’를 공개했다. 본 백서는 W&B가 운영해 온 ‘Horangi 한국어 LLM 리더보드(http://horangi.ai)’ 그리고 ‘Nejumi 일본어 LLM 리더보드’의 개발 및 운영 경험과 글로벌 팀의 LLM 전문 엔지니어의 지식을 집약해 만들어진 59페이지 분량의 문서로, 펜타시스템과의 공동 작업을 통해 한국어로 번역됐다.
본 백서 다운로드 페이지
이 URL에서 본 백서의 PDF 버전을 안내 중이다: http://wandb.me/kr-llm-eval-wp
‘대규모 언어 모델(LLM) 평가를 위한 모범 사례’ 개요 및 목차
이 백서는 단순히 LLM 평가의 모범 사례를 제시하는 것에 그치지 않고, 더 나은 모델의 개발과 선택을 촉진함으로써 생성형 AI의 미래를 구축하기 위한 기반을 제공하는 것을 목표로 하고 있다. LLM 평가의 전체적인 모습을 제시한 후 현재의 과제를 정리하며, 현재 시점에서의 생성형 AI 평가의 베스트 프랙티스와 더 고도화되고 신뢰성 높은 평가를 제공하기 위한 로드맵을 제시한다.
· 언어 모델 평가의 전체적인 모습
· What to evaluate: 평가해야 하는 측면
- 일반 언어 성능
- 도메인 특화 성능
- AI 거버넌스
· How to evaluate: 평가 방법
· 퍼블릭 LLM 리더보드 목록
· Weights & Biases를 이용한 평가 실습
· LLM 모델 비교를 통한 고찰
향후 생성형 AI 평가의 전망
향후 생성형 AI의 평가도 모델의 급격한 발전에 발맞춰 앞으로도 계속 변화해야 할 것이다. 앞으로 모델의 성능이 더욱 향상될수록 평가하는 측에서도 많은 고민과 노력이 요구될 것이다. 현재 이미 생성 능력 평가에서 90% 이상의 결과를 내는 모델도 있어, 향후 더욱 난이도 높은 문제를 출제할 필요성을 보여주고 있다.
생성형 AI 모델의 활용 범위가 넓어지는 가운데, 특히 비즈니스 및 산업 활용에 있어서는 보다 전문적인 지식과 능력의 평가가 필요하게 된다. 이러한 전문 분야에서의 모델 성능을 일률적으로 평가할 수 있는 방법이 없기 때문에, 중요 영역에서의 평가 과제, 데이터셋의 개발이 시급하다. 그중에는 언어뿐만 아니라 이미지, 데이터 등 다양한 입력 형식이 요구되는 경우도 있어 개발의 난이도를 높이고 있다.
또한 모델 성능에는 사용자의 편의성 측면도 빼놓을 수 없는 요소이다. 예를 들어 추론 속도와 비용, API의 안정성, 보안 측면에 대한 고려 등 상용 서비스에 대한 요구가 강해짐에 따라, 로컬에 추론 환경을 구축해야 할 필요성도 나타나고 있다.
Weights & Biases 소개
Weights & Biases, Inc.는 미국 샌프란시스코에 본사를 두며 엔터프라이즈급 ML 실험 관리와 엔드투엔드 MLOps 워크플로우를 포괄하는 개발자 및 운영자를 위한 플랫폼을 제공하고 있다. WandB는 LLM 개발, 이미지 세그멘테이션, 신약 개발 등 다양한 딥러닝 유스케이스에 사용되며, 엔비디아(NVIDIA), 오픈AI(OpenAI), 토요타(Toyota) 등 국내외에서 80만 명 이상의 머신러닝 개발자에게 신뢰받고 있는 AI 개발의 새로운 베스트 프랙티스다.