{"type":"img","src":"https://cdn.quv.kr/bpz8u3kp9%2Fup%2F619c39460b19a_1920.png","height":80}
  • AI Model
  • 3자테스트신청
  • Request / Application
  • Notice
  • About KAIC
  • {"google":["Poppins"],"custom":["SCDream","Noto Sans KR","Nanum Barun Gothic"]}
    ×
     
     
    섹션 설정
    {"type":"img","src":"https://cdn.quv.kr/bpz8u3kp9%2Fup%2F61a4ac48ee65a_1920.png","height":36}
  • AI Model
  • Request / Application
  • Notice
  • KAIC
  • AI 모델 구성요소

    01. 매트릭 (Metric)

    오차행렬이란 학습을 통한 예측 성능을 측정하기 위해 예측 값과 실제값을 비교하기 위한 표로서 인공지능 분류 모델 매트릭 산정을 위한 기준 데이터를 말 합니다.

    to of
    Page of

    Accuracy (정확도)

    인공지능 모델의 성능을 직관적으로 나타내는 지표. 정확도는 데이터 분포에 크게 좌우되는데 99% 데이터가 True인 상황에서 인공지능이 전체를 True라고 하는 경우 성능과 무관하게 매트릭 결과가 99%가 됨 오차행렬의 대각선 부분에 해당

    정확도와 반대되는 개념은 Error Rate (오류율)

    Recall (재현율)

    인공지능이 Positive를 찾을 수 있는 능력을 나타냄. 

    실제 Positive 중 인공지능 모델이 Positive로 찾은 비율.로서, 오차행렬의 상단 행방향에 해당되며 Sensitivity(민감도). 예를 들어 질병이 있는 사람 중 질병이 있다고 판정받을 확률

    재현율과 반대되는 개념은 Specificity (특이도)

    Precision (정밀도)

    인공지능 모델의 Positive 판정에 대한 신뢰도 로서 모델이 Positive로 분류한 것 중 실제 Positive 비율

    F1 Score (정밀도와 재현율의 조화평균)

    분류대상 데이터 분포가 고르지 못한 경우 학습 데이터 분포에 따라 Accuracy(정확도) 수치가 왜곡될 수 있어 재현율과 정밀도 조화평균인 F1 Score 사용

    PR(Precision Recall), mAP (mean Average Precision)

     

    특정 알고리즘의 성능파악에 용이

    PR 그래프는 특정 알고리즘의 성능을 전반적으로 파악하기에는 좋으나 서로 다른 두 알고리즘의 성능을 정량적으로 비교하기에는 한계가 있어서,  보완개념으로 클래스 AP 평균인 mAP(mean Average Precision)으로 다수의 컴퓨터비전 분야 물체인식 알고리즘의 성능은 AP(Average Precision)로 평가

    AUROC (Area Under the ROC (receiver operating characteristic) curve)

     

    Positive Rate 기준으로 100% TPR(True Positive Rate)이고 0% FPR(False Positive Rate) 인 경우 ROC 그래프의 면적은 1이 되며, 최소값은 0.5가 됨

    02. 모델별 매트릭

    예측모델 매트릭

    - R2 Score (R-Squared) : 데이터의 분산에 비례한 에러 값 표현

    - RMSE/RMSLE (Root Mean Square(LOG) Error) : 예측값과 정답간의 표준편차

    - MAE (Mean Absolute Error) : 예측값과 정담간의 편차

    영상인식

    IOU (Intersection over union) : 두 영역의 교차 영역의 넓이를 합 영역의 넓이로 나눈 값으로, 객체 검출에서 예측된 경계 상자의 정확도를 평가하는 지표 중 하나로 예측된 경계 상자와 실제 참값(Ground Truth) 경계 상자의 IoU를 해당 경계 상자의 정확도로 간주. 일반적으로 0.5 이상이면 제대로 검출(TP)되었다고 판단하며, 0.5 미만이면 잘못 검출(FP)되었다고 판단

    음성인식

    - WER(Word Error Rate) : 단어의 오류율을 측정하는 지표로서, 잘못 식별된 단어는 삽입, 삭제, 대체 범주로 분류

     

    - CER(Character Error Rate) : 글자의 오류율을 측정하는 지표로 주로 조사를 사용하는 언어에 사용. 인식률 = 100% - CER

    기계번역

    - BLEU(Bilingual Evaluation Understudy) : 기계번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하며 n-gram(단어 개수 카운트)에 기반

    - ROUGE(Recall-Oriented Understudy for Gisting Evaluation) : 모델이 생성한 요약본 혹은 번역본을 사람이 미리 만들어 놓은 참조본과 대조해 성능 점수를 계산

    - TF-IDF : TF(단어 빈도, term frequency)-IDF(역문서 빈도, inverse document frequency) 값이 높다면 다른 문서에는 많지 않고 해당 문서에서 자주 등장하는 중요 단어를 의미

    군집 (Clustring)

    Silhouette Score : (i)에서 인접한 클러스터의 모든 점과의 거리 평균(b(i))와 동일 클러스터내 모든 점과의 거리평균(a(i))의 차이를 a(i)와 b(i) 중 큰 값으로 나눈 지표

    a(i)=0 이면 최대값 1, b(i)=0이면 최소값 –1 이며, 0.5보다 큰 값일 경우 결과가 타당한 것으로 평가됨

    - Dunn Index : 군집간 거리 최소값을 군집내 거리 최대값으로 나눈 지표로 밀집되고 군집간 거리가 멀수록 커짐

    GAN (Generative Adverdarial Network)

    IS(Inception Score) : GAN의 성능을 측정하기 위해 생성된 이미지의 Quality와 Diversity 두 가지 기준을 고려. IS가 높을수록 좋은 성능을 낸다고 해석할 수 있음

    - FID(Frechet Inception Distance) : Inception Network의 중간 레이어에서 Feature를 가져와 이를 활용. 실제 데이터의 분포를 활용하지 않는 단점을 보완해 실제 데이터와 생성된 데이터에서 얻은 Feature의 평균과 공분산을 비교하는 식으로 구성. 보다 Noise에 강하며, 낮을수록 좋은 성능을 낸다고 해석할 수 있음

    {"google":["Poppins","Barlow","agGridMaterial"],"custom":["Noto Sans KR","SCDream","Noto Serif KR","Nanum Barun Gothic"]}{"google":["Poppins","Muli"],"custom":["SCDream","Nanum Barun Gothic","Noto Sans KR"]}
    {"google":[],"custom":["Noto Sans KR"]}