공부의 중요성은 누구나 알지만, 세상 재미없는 게 공부이기도 하다. 특히 당장 활용하지 않을 지식을 공부해야 하는 것은 정말이지 지루한 일이다. 내게는 딥러닝이 이러한 주제 중의 하나가 아닌가 싶다. 딥러닝이 많은 각광을 받는 기술이라는 건 알지만, 직접 내 삶에 적용해 볼 분야가 딱히 떠오르지 않는다. 적용해본다고 해도 성과가 얼마나 나올지도 알 수가 없다. 하지만, 지금의 대세는 확실히 딥러닝인 듯 하다. 사람이 없기 하지만, 최근에 채용공고를 보면 딥러닝과 관련된 내용을 많이 볼 수 있다.
그래서 언제가는 시도해봐야 할 숙제처럼 생각하고 있었다. 그러던 와중에 블로그 자동 포스팅을 해보면 어떨까 싶어졌다. 블로그 포스팅을 자동으로 해주면 얼마나 좋을까 하는 생각을 예전에도 한 적이 있다. 잘 안 될 가능성이 높지만 학습 차원에서 한 번 도전해보기로 하였다. 잘 안 되더라도 공부가 되고, 남는 게 있을 것이라고 생각한다.
텍스트 딥러닝과 관련된 내용들은 인터넷이나 유투브로 이미 많은 자료를 찾을 수 있었다. 그 중에서 텍스트와 관련해서, 파이썬 코드도 있고 워드투백과 LSTM 이후의 기술도 잘 설명된 블로그를 찾게 됐다. 우선 어떻게 시작하면 될지는 이 블로그를 참고 하였다.
블로그 포스팅 데이터 수집하기
시작하기 위해 블로그 포스팅 데이터가 필요하다. 지금 운영하는 블로그는 필자의 세컨 블로그이고, 다른 블로그가 하나 더 있다. 해당 블로그의 포스팅을 가지고, 진행을 해보려고 한다. 블로그의 포스팅 데이터는 티스토리 API를 이용해서 수집할 수 있다. 예전에는 API KEY로 어렵지 않게 수집할 수 있었는데, 지금은 서버에서 실행해야 한다고 한다. 아무튼 아래의 API설명문서와 PC에서 API 데이터 수집을 할 수 있는 방법을 참고하여 포스팅 데이터를 수집했다.
* 티스토리 API소개 페이지
* PC에서 access_token을 얻는 방법
텍스트 데이터를 분석하기 위해서는 전처리가 필요하다. 이에 대한 내용은 다음 포스팅에서 다뤄보도록 하겠다.
'딥러닝' 카테고리의 다른 글
딥러닝 용어(2/2) - 손실함수, 배치크기, 에포크, 학습률 (1) | 2020.12.20 |
---|---|
딥러닝 관련 용어(1/2) - 활성화 함수, 옵티마이저 (0) | 2020.12.18 |
원핫인코딩 텍스트 생성 딥러닝 학습하기 (1) | 2020.12.16 |
코랩 사용하는 방법, py파일 및 데이터 파일 업로드하기! (0) | 2020.12.14 |
텍스트 전처리 수행하기 (0) | 2020.12.13 |