티스토리 뷰

길벗 출판사의 '모두의 한국어 텍스트 분석 with 파이썬' 책의 리뷰어로서 읽고 기록해보았습니다. 한국어 텍스트 분석이라는 주제가 흥미로왔습니다. 한국어 텍스트 분석은 언어의 특성이 다르니 한국어에 맞춰 접근해야 하니 영어 기반의 분석을 바로 적용하기는 어려움이 있기 때문이죠. 거기에 챗GPT라니, 책 한권으로 기초부터 챗GPT까지라니 살펴볼 수 있는데, 출판사가 길벗이라 내용에 더욱 신뢰가 더해졌습니다. 그래서 거두절미하고 리뷰를 신청해 보았습니다. 감사히도 기회가 주어져, 이렇게 리뷰도 써보게 되었습니다.

한마디로 기본을 이해하고, 실제 사용법과 접근방법을 익힐 수 있는 좋은 책입니다. 리뷰어 분의 말이 딱 맞습니다.

내용적으로 살펴보면, 3장까지는 모두를 위해 파이썬과 코랩 사용법을 알려주고, 4장부터는 실제적인 한국어 텍스트 분석 방법을 설명합니다. 전체 목차는 다음과 같습니다.

  1. 코랩 시작하기
  2. 파이썬에서 문자열 다루기
  3. 라이브러리 다루기
  4. 단어 가방 모형과 TF-IDF
  5. 연합뉴스 타이틀 주제 분류
  6. 국민청원 데이터 시각화와 분류
  7. '120 다산콜재단' 토픽 모델링과 RNN, LSTM
  8. 인프런 이벤트 댓글 분석
  9. ChatGPT를 사용한 문장 생성 자동화

'모두' 시리즈 답게, 밑바닥 이론을 깊이 살펴보지 않습니다. 그렇지만, 5장부터 4가지 실제 예제를 다루면서, 대략적으로 이론을 이해할 수 있도록 돕고 있습니다. 구체적으로 OT, 분석, 단계별 수행과정과 평가까지 진행하면서, 넘파이, 판다스, 싸이킷런이나 텐서플로 등을 이용하여 이론을 적용할 수 있는 방법과 모델 평가까지 알려주고 있습니다. 이 과정 중에 데이터 전처리(숫자 제거, 소문자로 변경, 형태소 분석, 불용어 제거), 단어 벡터화, 워드 클라우드 같은 시각화를 비롯해서 분석, 분류, 군집화 등의 사례를 보여주며, 한국어 텍스트 분석의 과정을 쉽게 따라 해볼 수 있도록 안내합니다. 각 장의 마지막 마다 다음 단계 학습을 위해 조언해주는 것을 아끼지 않아서 더 좋았습니다.

특히 저자의 무료 텍스트 분석 유튜브 강의는 정말이지, 이 책의 백미라고 할 수 있습니다. 물론 이 리뷰를 쓰는 시점보다 훨씬 먼저 공개했던 것이지만, 실제 동작시켜본 영상이어서 좀 더 친근하게 다가갈 수 있었습니다. 또한, ChatGPT이 최신 내용임에도 불구하고, 생각의 사슬을 비롯해서 팁을 제공해 주어서 좋았습니다.

모두 시리즈로 내용 및 접근 모두 충분하다 생각합니다. 좋은 안내서를 써 주신 저자분들과 리뷰 기회를 주신 길벗 출판사에 감사드립니다.

개인적으로 조금 욕심을 내자면, 실시간 텍스트 분석에 대한 예와 모델 서빙에 대한 내용도 있었으면 얼마나 더 좋았을까 싶습니다만, 범주가 조금 벗어나고, 책이 좀 더 두꺼워지겠군요? :P

참고

댓글