텍스트를 분석하기 위해서는 텍스트를 숫자로 바꿔주어야 한다. 텍스트를 숫자로 바꾸는 작업을 워드 임베딩이라고 한다. 워드 임베딩을 하는 방법에는 여러가지가 있다. 원핫 인코딩, TF-IDF, 그리고 워드투벡이 있다. 워드투벡은 단어를 벡터로 표현함으로써 어느 정도 의미를 내포하는 것으로 알려져 있다.
오늘은 워드투백과 예제 사이트에 대해서 알아보도록 하겠다.
워드투벡은 문장에서 단어들을 인풋과 아웃풋을 동일하게 놓고, RNN을 학습시키는 것으로 알려져 있다. 그러면 '중간 노드들의 값이 그 단어들의 특징을 나타내지 않을까'라고 생각되는 것이다. 단어들을 벡터로 변환했기 때문에 이 값을 계산해 볼 수 있다. 그리고 단어들을 계산해보면 일부는 그럴 듯한 답을 얻을 수 있다.
워드투벡은 텍스트 알고리즘을 만들 때 사용된다. 번역이나 문장들을 분류할 때 워드투벡으로 단어들을 숫자로 바꾼 후에 CNN이나 RNN등의 딥러닝 알고리즘을 학습시킨다. 텍스트 데이터를 CNN으로 학습시킬 수도 있지만 많은 경우 RNN이 더 좋은 결과를 가져오는 듯 하다.
워드투벡의 결과를 실제로 확인해 볼 수 있는 싸이트가 있다.
가장 널리(?) 알려져 있는 한국-서울+도쿄가 예제로 떠 있다. 위와 같이 입력하면 놀랍게도 결과는 '일본'이 나온다. 내친 김에 몇 개를 더 해 보았다.
∙ 아빠 - 남자 + 여자 = 엄마
∙ 은행 - 직원 + 학생 = 대학
∙ 동양화 - 동양 + 서양 = 서양화
∙ 컴퓨터부품 - 컴퓨터 + 자동차 = 차
∙ 사장님 - 남자 + 여자 = 사모님
네 번째 결과가 '차'가 나온 것이 조금 아쉽기는 하지만, 대체적으로 단어의 뜻을 내포하고 있다고 추측되는 결과가 나왔다. 위키피디아의 데이터를 학습시킨 것으로 아는데 더 많은 한글 데이터를 학습시키면 다른 단어들도 더 정확히 나오지 않을까 한다.
오늘은 워드투벡과 단어들을 계산해 볼 수 있는 예제 싸이트에 대해서 알아보았다. 워드투벡은 단어의 뜻이 벡터로 표현되어 텍스트 알고리즘에 많이 쓰인다. 누군가 만들어놓은 예제싸이트에서 확인해보면 재미있는 결과들을 확인할 수 있다.
'딥러닝' 카테고리의 다른 글
파이썬에서 텍스트 전처리하기 - 토큰화, 정제, 정규화 (0) | 2021.11.04 |
---|---|
멀티캠퍼스, 딥러닝 에스프레소 강의 후기! (0) | 2021.09.14 |
GAN 이미지 생성 알고리즘 테스트 하기 (0) | 2021.03.24 |
pytorch 오토인코더 쉽게 구현하는 방법은?! (0) | 2021.03.19 |
파이토치, colab에서 MNIST파일 dataloader로 불러오기 (0) | 2021.03.17 |