딥러닝
파이썬에서 텍스트 전처리하기 - 토큰화, 정제, 정규화
데이터 전처리는 재미없고 지루하다. 하지만, 데이터를 어떻게 가공하느냐에 따라 모델의 성능에 영향을 끼치기 때문에 중요한 일이다. 그래서 가급적 빠르고 쉬운 방법으로 하는 것이 필요하다. 동일한 결과를 내는 코드도 여러가지 방법으로 작성할 수 있다. 굳이 어렵고 오래 걸리는 방법으로 할 필요는 없다. 오늘은 파이썬에서 텍스트 전처리하기 - 토큰화, 정제, 정규화에 대해서 알아보도록 하겠다. 텍스트 전처리 방법을 설명할 때 위의 3가지를 주로 말하는 듯 하다. 그래서, 위 3가지를 가지고 파이썬에서 어떻게 구현하는지 알아보았다. 1. 토큰화 영어는 주로 띄어쓰기 기준으로 나누고, 한국어는 형태소를 기준으로 나눈다. 형태소는 의미를 가지는 가장 최소한의 단위라고 한다. 영어는 띄어쓰기를 기준으로 나누면 단어..