3월, 2018의 게시물 표시

Tensorflow입문기 및 선형회귀분석 (Linear regression)

이미지
Category: Technology <Tensorflow 입문기와 선형회귀분석(Linear regression)> 지난번 포스트에서 머신러닝의 지도학습/비지도학습과 간단한 Classifying/Clustering 예제를 살펴봤었다. 사실 이번에는 KNN, KMeans와 같은 Classifying, Clustering 알고리즘에 대한 포스팅을 하려고 했는데 텐서플로우를 살짝 다뤄보면서 해보게 된 '선형회귀분석' 에 대해서 먼저 포스팅해볼까 한다. 선형 회귀분석이 무엇인지, Tensorflow를 이용해서 선형회귀분석을 어떻게 하는지, 그리고 직접 데이터셋을 구해서 실행해본 회귀분석에 대해 다뤄보겠다. 선형 회귀분석 지난번 포스트에서 간단히 설명했지만, 선형 회귀분석은 수많은 데이터로 이루어진 데이터셋에 대해, 변수 간의 상관관계를 가장 잘 설명해주는 함수식을 찾는 과정이다. 예를들어, 1000명으로 이루어진 어떤 마을 사람 전체의 키와 몸무게에 대한 자료가 있다고 하자. 키를 x축으로, 몸무게를 y축으로 한 좌표평면에 이 마을사람들 1000명에 해당하는 [키, 몸무게]데이터를 1000개의 점으로 찍는다고 가정하자. 이 마을 사람들의 키와 몸무게가 양의 상관관계를 띄고 (키와 몸무게가 어느정도 비례하고), 어찌어찌해서 계산을 했더니 대부분 사람들의 키가 몸무게의 3.5배정도 됨을 알아냈다. 이 경우 이 마을사람들의 [키, 몸무게] 데이터는 '키 = 몸무게 * 3.5' 라는 함수식으로 선형회귀되며, 1001번째 새로운 마을사람의 몸무게를 알 때, 이 사람의 키를 대략적으로 유추할 수 있을것이다. 위의 예시는 어디까지나 예시일 뿐이다. 회귀분석을 직접 Tensorflow와 파이썬을 이용해 해보자. 아래의 코드는 [x, y] 로 이루어진 인위적으로 1000개의 점(Data point)가 대략적으로 y = x*0.1 + 0.3 이라는 함수 관계를 따르도록 생성하는 과정이다. 그러나 모든 점이 정확히 y=x*0....

텐서플로우, 회귀분석, 머신러닝... 그게 대체 뭔데? - 머신러닝에 대해

이미지
Category: Data Sceince <텐서플로우, 머신러닝, 회귀분석...그게 대체 뭔데?> Tensorflow(텐서플로우) 는 구글이 개발한 머신러닝 / 딥러닝 오픈소스 라이브러리이다. 사실 과거에 scikit learn 라이브러리를 이용해 몇가지 지도/비지도학습 (Supervised learning / Unsupervised learning) 알고리즘을 통해 (k-mean, Naive Bayse 등) 간단한 머신러닝을 공부해보았는데 텐서플로우에 대한 이야기는 듣기만하고 한번도 접해보지 못했다. 그러던 중 우연한 기회에 텐서플로우를 살짝 접해보게 되었고 이참에 데이터분석과 함께 머신러닝 관련 내용도 공부하며 흥미로운 내용이 있으면 포스팅해볼까 한다.  (필자도 배우는 학생 입장이고, 전문가는 아니다) 전공자/전문가가 아닌 이들에게 대체 머신러닝이 무엇이며, 텐서플로우는 대체 뭔지 아주 간단히 설명하고자 한다.  먼저  빅 데이터 기반 머신러닝의 대표적인 분석방식인 지도학습과 비지도학습에 대해 간단히 이야기하도록 하겠다. 그리고 다음 포스트에서는 이번에 텐서플로우를 처음 접하면서 공부하게된 텐서플로우 선형회귀분석 / 경사 하강법 (Gradient Descent)을 실행하는 코드를 소개하고, 마지막으로 이를 응용해서 실제 NBA 선수들의 스탯(Stat) 데이터를 가지고 몇몇 변수간 회귀분석을 진행해보겠다.  만약 이 분야에 전문가/전공자가 아니고 관심이 많지 않아 도통 무슨 소리인지 모르겠다면 괜찮다. 나도 전문가가 아니기 때문에 세세한 공식과 원리까지 꿰뚫고있지는 못하기에, 이 분야에 조금 많이 관심있는 일반인들이 '아 이런거구나'하고 이해할 정도로 설명하도록 하겠다. --- 머신러닝(기계학습) 은 대체 뭘까? 인공지능, 빅데이터에 대해 이야기할 때 가장 많이 언급되는 것이 바로 머신러닝이다. 머신러닝이 도대체 뭘까? 말 그대로 Machine Learning...

<유튜브의 뉴미디어 1위 달성의 의미, 그리고 영상 매체의 미래>

이미지
<유튜브의 뉴미디어 1위 달성의 의미 > Category: Technology 빅토르 마이어 쇤버거는 그의 책 '빅데이터가 말하는 세상'에서, Sampling은 전수조사 한계의 산출물이라고 말한다. 즉, 통계 조사에 있어서 Sampling이 정확하기 때문에 표본조사를 시행하는 것이 아닌, 전수조사가 불가능에 가까웠기 때문에 대신 표본조사를 수행했다는 것이다. 이와 유사하게 텍스트나 이미지 검색은 영상 / 4D / VR 및 AR수준 경험의 한계로부터 나온 산출물이었(던 경우가 많)다. 우리는 직접 볼 수 없으니 설명을 들어왔고(텍스트) 눈앞에서 볼 수 없으니  사진을 참고해왔다.  최근 영상 컨텐츠 플랫폼인 유튜브가 각종 기타 SNS와 뉴미디어를 제치고 1위에 올랐으며, 이것이 의미하는바는 단지 영상이 소비하는 컨텐츠로써뿐만이 아니라 소통과 정보의 검색 수단으로써도 충분한 수준을 갖추었다는 점이다.  사진출처: Pew Research Center (http://www.pewinternet.org/2018/03/01/social-media-use-in-2018/) 영상 매체의 진화 온라인 상에서, 과거에는 ‘영상’이라는 매체의 공유와 소비에 있어 많은 한계가 있었다. 영상자료를 처리하고 공유, 저장할 만큼 처리능력과 저장능력이 받쳐주지 않았고, 따라서 온라인상에서 쉽게 소비할 수 있던 영상들은 환경에 맞추어 열화된 영상들이었다. 그러나 지금은, 몇 년 사이에 모바일기기와 온라인 환경에서 소비하고 공유할 수 있는 영상컨텐츠의 차원이 바뀌었다. HD에서 FHD, 그리고 QHD로 진화하고 전문 동영상 사이트가 아닌 페이스북과 같은 플랫폼도 720P 해상도는 기본적으로 지원한다. 유튜브에서는 4K해상도의 영상을 소비할 수 있으며 1시간이 훌쩍 넘어가는 동영상도 자유롭게 소비되는 환경이 마련되었다. 과거엔 영상으로 소비했다면 더 정확하고 좋았을 정보들을 기술적 한계로 ...