2월, 2018의 게시물 표시

[Python mini projects] 텍스트 속 통계 산출 pt2 - 벤포드 법칙/두 텍스트 비교하기

이미지
Category: Python programming / Data science 지난번에 진행하던 프로젝트를 이어 진행하기 전, 몇 가지 추가적인 코드를 이용해 재미난 정보를 얻을 수 있는 작업을 수행해보고자 한다. 지난 번의 텍스트 분석에 대한 포스트는 다음을 참고하면 되겠다 :  https://thoughtschangeworld.blogspot.kr/2018/01/python-mini-projects-python-1.html *** 1. 두 텍스트를 비교하는 코드 만들기 두   문서의  txt 파일   소스를  input 으로   넣으면 ,  등장하는   단어들을   비교해   얼마나   많은   단어들이   중복되는지를   보여주는   코드를   만들어보자 .  이   코드를   만들게   된   근본적인   아이디어는   유사한   주제 ,  내용에   대해   말하고   있는   글은   자연스럽게   주로   많이   사용하는   단어들이   중복될   것이라는   점이다 .   어찌보면   너무   당연한   이야기이지만   실제로   얼마나   많은   키워드들이   중복되는지가   글의   주제와   내용을   어느정도   묶어내는   기준이   될   수도   있을거라   생각한다 .  두   텍스트   파일을  input 으로   가지는  compare_two  함수를   만든다 .  참고로 ,  단어를   필터링하는   알고리즘은   지난번에   사용한   것과   동일하지만   이번에는   더   정확히   단어를   필터링할   수   있도록   코드를   수정해보았다 . Text analysis 에서는   연구자가   원하는   정도에   따라  ' 일반적인 ' 단어들  (stopwords 라고   한다 )  을   걸러내야   하고 ,  이러한   연구를   손쉽게   할   수   있도록   만들어진  stopword 의   세트가