본문내용 바로가기 상단메뉴 가기

기술 표준

검증용 데이터세트의 밸런스 기반 인공지능 소프트웨어 신뢰성 평가 방법 - 제2부: 이미지 타입 밸런스 데이터 설계

작성일자
2023-08-09
글쓴이
관리자
조회수
50
최근 산업별 다양한 서비스에 인공지능이 포함된 소프트웨어 도입이 확산되고 있으며, 이러한 서비스의 품질을 좌우하는 핵심 요인은 소프트웨어에 탑재된 인공지능의 정확성이다. 정확성을 검증하는 일반적인 방법으로, 학습용 데이터세트 외 별도의 검증용 데이터세트를 구성하여 인공지능 동작 결과의 출력 값과 비교하는 방식을 사용한다. 이 때 검증용 데이터의 표본 격차로 인하여 특정 영역의 데이터가 지나치게 편중되어 생산되거나 혹은 데이터 수집 과정에서의 학습 데이터가 배포된 인공지능 소프트웨어의 운영 데이터를 제대로 대표하지 못하고 특정 영역이 과대 대표되는 경우가 발생하면 이것을 데이터세트의 밸런스가 적절하지 못하여 발생된 샘플링 편향(sampling bias), 샘플링 오류(sampling error)라고 한다. 이 샘플링 편향은 인공지능 소프트웨어의 정확성 검증 결과를 왜곡시키는 주요 원인이기 때문에 현실 세계의 다양한 시나리오를 처리할 수 있는지를 평가하는 관점에서는 밸런스가 확보된 평가용 데이터세트를 활용하여 신뢰 수준을 평가하는 것이 필요하다.

이에 본 표준에서는 평가용 ‘이미지’ 밸런스 데이터세트를 구축하는 과정에서, 입력 데이터의 조건에 부합되는 데이터세트의 분포를 고르게 편성하기 위해 ‘이미지’ 데이터의 다양한 관점 특징을 반영한 밸런스 데이터 설계 방법을 정의한다.