NBA 선수 Stat 데이터분석 pt3- Classification과 PCA
Category: Technology <NBA 선수 Stat 데이터 분석 - Classification> 분석에 들어가기 전에 지난번 에 이어서, 이번에는 Classification을 진행해보도록 하자. 지난번까지는 어시스트, 득점, 파울 세 가지의 특성(feature)만을 사용했었다. 그러나, 역서 모든 수치 특성 (numerical feature)를 다 사용한다면 더 정확한 모델을 만들 수 있지 않을까 하는 생각이 들었다. 그래서 이번에는 이름과 같은 텍스트 형태의 데이터와, 년도, 나이, 번호와 같이 직접적인 포지션 분류와 영향이 없다고 판단되는 특성을 제외한 나머지 모든 특성을 사용해보기로 했다. original_data = df._get_numeric_data() del original_data["Unnamed: 0"] del original_data["Year"] del original_data["Age"] original_label = df[["New_Pos"]] true_label = np.array(original_label)[:, 0] positions = list(set([i[0] for i in df[["New_Pos"]].values])) positions = sorted(positions) #order 섞이는것 방지 아예 특성들을 정리하는김에 데이터와 레이블 부분을 따로 나누어 놓았다. Classification에서는 레이블과 데이터 부분을 나누어 학습 모델을 훈련시키고, 실제 레이블과 예측된 레이블을 비교하는 작업을 거칠 것이기 때문이다. 이렇게 하니 선수 한명당 총 45개의 특성 (Attribute)이 나왔다. 목록은 다음과 같다: ['G', 'GS', 'MP', 'PER', 'TS%', '3PAr'...