stratified K fold (1) 썸네일형 리스트형 머신러닝 - 과적합을 막기위한 교차검증(stratified K fold) 파이썬으로 구현 Stratified K 폴드는 불규현향 분포도를 가진 target 데이터 집합을 위한 k-fold 방식 이다. 만약 공장의 오작동 데이터를 예측한다고 가정해 본다. 공장의 작동 데이터 중 오작동, 작동을 구분을 1(오작동), 0(작동)로 하여 피쳐를 준다고 가정하자. 이 공장은 잘 돌아가고 있는 공장이므로 오작동 데이터는 작동 데이터보다 훨씬 작을 것이다. 만약 작동 데이터가 만건이 있다고 하면 오작동 데이터는 10건정도 있다고 가정해본다. 이렇게 작동 데이터에 비해 적은 비율로 오작동 데이터가 있다면 k-fold로 랜덤하게 데이터를 뽑을 때 0, 1의 비율이 제대로 반영되지 못한다. 이 때 예측을 하기 위해 중요한 것은 작동 데이터가 아니라 오작동 데이터이다. 그러므로 원본데이터와 유사한 오작동 레이블.. 이전 1 다음