{"type":"img","src":"https://cdn.quv.kr/bpz8u3kp9%2Fup%2F619c39460b19a_1920.png","height":80}
  • AI Model
  • 3자테스트신청
  • Request / Application
  • Notice
  • About KAIC
  • {"google":["Poppins"],"custom":["SCDream","Noto Sans KR","Nanum Barun Gothic"]}
    ×
     
     
    섹션 설정
    {"type":"img","src":"https://cdn.quv.kr/bpz8u3kp9%2Fup%2F61a4ac48ee65a_1920.png","height":36}
  • AI Model
  • Request / Application
  • Notice
  • KAIC
  • 01. 앙상블 (Ensemble)

    Voting

    서로 다른 알고리즘의 모델들의 결과 중

    다수의 결과를  최종 판단의 근거로 활용

    Bagging

    각 샘플을 여러번 뽑아 각 모델을 학습시켜

    결과를 집계하는 방법

    Boosting

    여러개의 약한 학습기를 순차적으로 학습,

    예측하면서 잘못예측 데이터에 가중치 부여

    Stacking

    여러 모델을 활용해서 예측결과를 도출 후 

    예측결과를 결합하여 최종 예측결과 도출

    02. Data

    Feature Engineering

    결측치, 이상치 등 데이터 품질문제 해결과 서로 다른 분포를 가지는 데이터 보정작업

     

    결측값은 데이터에 값이 없는 경우를 말하며,

    가장 간단하게는 평균(Mean), 중앙값(Median), 최빈값(Mode)으로 채울 수 있으며

    결측값이 너무 많은 경우

    해당 피처를 삭제(Drop)할 수 있음

    • 초기값(Default)이나 빈번하게 나타나는 값 또는 랜덤 값으로 채울 수 있음
    •  
    •  

     

    값이 존재할 수 있는 범위를 벗어나는 경우,

    표준편차에서 예외적으로 나타내는 값들을 삭제하거나,

    특정 Percentage외에 있는 값들을 삭제(상위 5% 또는 하위 5% 등)하여

    처리

     

     

    •  
    • Binding은 근처의 값들을 하나의 범주로 묶게 되면
    • 좀더 견고한 모델을 얻게 되는데
    • 예를 들어 40에서 50, 50에서 60, 60 이상 등
    • 구간을 정해 그룹으로 처리

     

     

     

    텍스트로 된 범주형 데이터를 학습에 이용하기 위해서는 숫자 타입으로 변형이 필요한데,

    서울(1), 부산(2), 대전(3)으로 범주화하면

    대전이 서울보다는 2보다 큰 무엇인가로 오해할 가능성이 생기기 때문에

    데이터를 하나의 컬럼으로 만들고

    해당 값이 있는지를 0과 1로 표현하는 방법

     

     

    서로 다른 범위의 데이터들을 같은 범위로 묶어 학습하기 위해

    데이터 범위를 0과 1 사이로 변환(정규화)

     

     

     

     

     

    나이와 재산의 관계를 볼 때,

    나이는 1~100까지의 범주를 갖지만, 재산은 0원에서 수 조원까지 아주 넓게 분포할 수 있어

    이런 데이터를 정규분포에 맞게 변형 시켜주는 것

     
     
     

    Cross Validation

    훈련(Train)과 시험(Test) 외에 훈련데이터 중 일부를 검증목적으로 활용하는 방법

     

    ㅇ 훈련(Train)과 시험(Test) 데이터로만 학습을 한 모델은 시험 데이터에 과대 적합할 수 있어 훈련 데이터 중 일부 데이터를 검증목적으로 활용하는 기법

    * 다양한 상황이 있기 때문에 훈련 데이터 중 검증(Validation) 데이터 비중에 대한 정답은 없으나 훈련 대 검증 데이터 비중을 8:2 내외로 하는 경우가 다수

     

    ㅇ 그림은 데이터를 5개의 부분집합으로 분할(K=5라 표현)한 후 각 분할마다 하나의 폴드를 시험용으로 사용하고 나머지 4개는 훈련용으로 사용

    * 이러한 학습과정을 반복하여 각 분할마다 정확도를 높이게 됨

     

    {"google":["Poppins","Raleway"],"custom":["SCDream","Nanum Barun Gothic","Noto Sans KR"]}{"google":["Poppins","Muli"],"custom":["SCDream","Nanum Barun Gothic","Noto Sans KR"]}
    {"google":[],"custom":["Noto Sans KR"]}