노가다 없는 텍스트 분석을 위한 한국어 NLP

  • Science / Data
  • Intermediate
  • 2017-08-12 (Sat) 13:00 - 13:25
  • Korean
  • 104
  • Photography and recording is allowed

Slides

https://www.slideshare.net/kimhyunjoonglovit/pycon2017-koreannlp

Video

https://www.youtube.com/watch?v=dxkbvZmbLWc

Description

저는 한국어 텍스트 분석을 효율적으로 할 수 있는 방법들을 연구하는 대학원생입니다. 최대한 데이터기반으로 분석을 함으로써 분석가의 노동력을 최소화하는데 관심이 있습니다. 데이터 분석을 하는 사람들과 이야기를 하다보면 많은 사람들이 비슷한 부분에서 불필요한 노동력을 쓴다는 생각을 합니다. 단어를 찾아서 사전에 추가한다던지의 작업은 사람이 하지 않아도 되는 작업들을 알고리즘으로 해결하고 싶었고, 그간 고민했던 방법들을 함께 나누고 싶습니다. 여기서 이야기 하고 싶은 방법들은 다른이들의 논문들을 보고 재구현하거나, 제가 제안하여 구현한 알고리즘들입니다. 

각각의 알고리즘들은 깃헙에 올려두었습니다. (1) 띄어쓰기 교정 알고리즘은 https://github.com/lovit/soyspacing , (2) 단어추출/명사추출/토크나이징이 포함된 NLP 툴킷은 https://github.com/lovit/soynlp , (3) 단어/키워드 추출을 위한 또다른 알고리즘은 https://github.com/lovit/kr-wordrank 에 올려두었으며, 알고리즘의 기본 컨셉과 사용법, 그리고 토이데이터를 이용한 결과 등은 각각의 github의 tutorials/에 올려두었습니다.

Comments

blog comments powered by Disqus

Sponsors