6월, 2018의 게시물 표시

Kaggle competition 간단후기

이미지
Kaggle competition 간단 후기 및 관련 포스팅 예정 *** 최근 Kaggle 에서 Avito Demand prediction competition에 참여해보게 되었다. 항상 dataset을 얻거나 정보를 찾기 위해서만 이용했었고, 용기가 없어 competition은 해보지 못했었는데, 이번에는 처음이니 상위 50프로대만 진입해보자는생각으로 가볍게 시작해보았다. 커뮤니티 안에서 여러사람들과 kernal 및 discussion을 공유하며 조금씩 커널을 수정하고, 하다보니 어느새 submission도 70개를 훌쩍 넘겼고, 목표치이던 50프로대를 생각보다 일찍 달성해서 30프로대, 20프로대까지 진입할 수 있었다. 또, 커널을 열심히 올린 덕분에 (생각보다 내 커널을 많이들 좋아해주셔서...) keranl expert등급까지 올라갈 수 있었다. 이번 일을 계기로 kaggle competition에 더 활발히 참여해볼 예정이다. 사실 이미 다음 competition으로 Home credit default risk comeptition을 등록해놓았고, 40프로대까지 올려놓기는 했다. 그리고 이번 포스팅을 통해, 초보자로써 kaggle competition을 통해 느낀 점을 써보려고 한다. 그리고 다음 포스팅을 통해, 이번 competition을 하면서 알게된 데이터 분석 모델, data cleansing을 할때 사용되는 모델 등에 대해 포스팅해보려고 한다. *** 1. Kaggle 의 문화와 kernal의 공유 일단 Kaggle 은 세계에서 가장 크다고 해도 과언이 아닌 데이터 사이언스 커뮤니티이다. 최근에 알게 된 사실이지만 구글에 인수되어 현재 구글의 모회사인 Alphabet에 속해있다고 한다. (새삼 구글이 인공지능 및 빅데이터분야에 얼마나 많은 신경을 쓰고있는지가 느껴진다). 그래서 많은 회원들은 Data scientist이거나, 적어도 Data science에 많은 관심을 가지고 있는 사람들이다. 따라서