본문 바로가기

전체 글

(45)
머신러닝 예측-파이썬 sklearn load_wine 으로 와인의 등급 분류 예측하기 파이썬 사이킷런 내장 데이터 중에 load_wine 이라는 데이터가 있다. 이 데이터는 와인의 등급을 나눈 데이터이다. 데이터를 통해 와인의 등급을 Classification 해보도록 한다. Classification(분류) 분류는 대표적인 지도학습 방법이다. 지도학습은 답이 주어진 데이터를 받아서 학습한 이후에 답이 주어지지 않은 데이터를 받았을 때 학습을 기반으로 답을 예측하는 것이다. 그러면 우선 파이썬으로 load_wine을 이용해서 와인 분류를 예측해보도록 하겠다. from sklearn.datasets import load_wine from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_t..
사이킷런 내장 데이터들 정리 사이킷런의 내장 데이터들을 정리해보고자 한다. 용도 설명 sklearn.datasets.load_boston(*, return_X_y=False) 회귀용도 보스턴에 있는 집 feature 들과 가격에 대한 데이터세트 sklearn.datasets.load_iris(*[, return_X_y, as_frame]) 분류용도 붓꽃에 대한 feature를 가짐 sklearn.datasets.load_diabetes(*[, return_X_y, as_frame]) 회귀용도 당뇨 데이터 세트 sklearn.datasets.load_digits(*[, n_class, return_X_y, as_frame]) 분류용도 0~9까지의 숫자 이미지 픽셀 데이터세트 sklearn.datasets.load_linnerud(*[..
파이썬 사이킷런으로 이해하는 군집화 Clustering 알고리즘 중 K-means K-means K-평균은 군집화를 대표하는 알고리즘이다. 군집 중심점 기반 클러스터링인데 군집화 알고리즘 이 중 가장 쉽고, 가장 많이 이용된다. 이용방법 1) 군집화의 기준인 중심점을 우선 임의로 2개 설정해 놓는다. 위치는 상관없다. 2) 임의로 2개 설정해 놓았던 중심점을 데이터들의 평균 중심으로 이동한다. 3) 중심점을 기준으로 주변의 데이터들을 탐색한다. 만약 A중심점 주위에 데이터 data1이 원래는 B중심점을 기준으로 했는데 A중심점과 더 가까이 있다면 data1과 기존 데이터의 중간으로 A중심점이 이동한다. K-means의 장점 군집화에서 가장 많이 사용된다. 알고리즘이 쉽다 적은 용량 뿐 아니라 큰 용량의 데이터에도 쉽게 쓸 수 있다. K-means의 단점 K-평균 알고리즘은 거리을 기반..