[Python mini projects] 텍스트 속 통계 산출 pt2 - 벤포드 법칙/두 텍스트 비교하기
Category: Python programming / Data science 지난번에 진행하던 프로젝트를 이어 진행하기 전, 몇 가지 추가적인 코드를 이용해 재미난 정보를 얻을 수 있는 작업을 수행해보고자 한다. 지난 번의 텍스트 분석에 대한 포스트는 다음을 참고하면 되겠다 : https://thoughtschangeworld.blogspot.kr/2018/01/python-mini-projects-python-1.html *** 1. 두 텍스트를 비교하는 코드 만들기 두 문서의 txt 파일 소스를 input 으로 넣으면 , 등장하는 단어들을 비교해 얼마나 많은 단어들이 중복되는지를 보여주는 코드를 만들어보자 . 이 코드를 만들게 된 근본적인 아이디어는 유사한 주제 , 내용에 대해 말하고 있는 글은 자연스럽게 주로 많이 사용하는 단어들이 중복될 것이라는 점이다 . 어찌보면 너무 당연한 이야기이지만 실제로 얼마나 많은 키워드들이 중복되는지가 글의 주제와 내용을 어느정도 묶어내는 기준이 될 수도 있을거라 생각한다 . 두 텍스트 파일을 input 으로 가지는 compare_two 함수를 만든다 . 참고로 , 단어를 필터링하는 알고리즘은 지난번에 사용한 것과 동일하지만 이번에는 더 정확히 단어를 필터링할 수 있도록 코드를 수정해보았다 . Text analysis 에서는 연구자가 원하는 정도에 따라 ' 일반적인 ' 단어들 (stopwords 라고 한다 ) 을 걸러내야 하고 , 이러한 연구를 손쉽게 할 수 있도록 만들어진 stopword 의 세트가