데이터를 머신러닝으로 학습시키기 위한 마지막 단계로 데이터를 train,test 모델로 데이터 나눠야 한다.
나누는 방법을 알아보자
#데이터 나누는 함수 호출
from sklearn.model_selection import train_test_split
#X,y 데이터를 train,test로 나누는데 test용 데이터는 20%로 한다.
train_test_split(X,y,test_size=0.2,random_state= 3)
>>>[array([[1. , 0. , 0. , 0.34782609, 0.28571429],
[0. , 1. , 0. , 1. , 1. ],
[0. , 0. , 1. , 0.47826087, 0.37142857],
[0. , 0. , 1. , 0. , 0. ],
[1. , 0. , 0. , 0.73913043, 0.68571429],
[0. , 1. , 0. , 0.13043478, 0.17142857]]),
array([[1. , 0. , 0. , 0.91304348, 0.88571429],
[1. , 0. , 0. , 0.43478261, 0.54285714]]),
array([1, 0, 0, 1, 0, 0]),
array([1, 1])]
# 각각 데이터를 저장
X_train, X_test, y_train, y_test=train_test_split(X,y,test_size=0.2,random_state= 3)
데이터가 각각 2개씩 나눠져서 총4개나 나온것을 볼 수 있다. 이제 머신러닝을 학습시킬 데이터가 준비가 된것이다.
반응형
'머신러닝' 카테고리의 다른 글
머신러닝(7) Linear Regression으로 데이터 예측하기 (0) | 2022.12.01 |
---|---|
머신러닝(6) 데이터 전처리 종합 (0) | 2022.12.01 |
머신러닝(3) Feature Scaling 피처 스케일링 (0) | 2022.12.01 |
머신러닝(2) Supervised 러닝 Data Preprocessing과 카테고리컬 데이터 (0) | 2022.12.01 |
머신러닝(1) 머신러닝의 개요 (0) | 2022.12.01 |