Python 으로 19대 국회 뽀개기

  • 데이터와 학습
  • 2016-08-14 (일요일) 13:20 - 14:00
  • 한국어
  • 105
  • 촬영, 녹화가 금지되어 있습니다.

슬라이드

http://www.slideshare.net/hongjoo/python-19-pycon-apac-2016

발표 동영상

https://youtu.be/z2jSYTYWaU0

PDF

https://github.com/pythonkr/pyconapac-2016-files/raw/master/20160814-105-29-LeeHongju.pdf

설명

소개

머신러닝 알고리즘들을 책이나 강의 등을 통해 공부한 뒤 실제로 무언가를 해보려고 했을 때에 맞닿게 되는 답답함 같은 게 있을 겁니다. 그것은 학습한 이론이 프로그래밍 언어 또는 도구로 연결되지 않기 때문일 수도 있지만, 일상에서 얻은 데이터가 책이나 강의에서 사용된 예제들처럼 잘 가공되어 피쳐화(feature) 되어있지 않거나 레이블(label) 정보가 없기 때문일 수도 있습니다.

본 발표는 19대 국회의원들의 의안표결결과, 회의록 내용, 그리고 정치자금 사용내역 등의 RAW 데이터들을 소재로 Python 을 사용하여 데이터를 가공하고 피쳐화하는 데서부터 모델링 까지의 과정을 다룹니다. 레이블 정보가 없을 때 유용한 클러스터링 기법들로 다양한 내용과 형태의 데이터들을 다루게 됩니다.

발표에서 사용할 데이터는 국회에서 공개된 내용을 크롤링하였거나 언론사에서 공개한 객관적인 자료들입니다. 이를 바탕으로 분석 기술들을 시연할 뿐, 정치적 내용은 포함하고 있지 않습니다.

Pre-requisites 
- Python 문법에 대한 익숙한 이해. 
- Pandas 또는 Numpy 의 기초적 사용법.

Take-away items 
- 머신러닝 과정의 기초적 이해
- 머신러닝을 위한 다양한 형태의 데이터 처리 방법 in Python
- 머신러닝의 과정에서 어떤 Python 도구들이 어떻게 사용되는지 소개

사용 도구 
- 시연 : Jupyter notebook
- 분석 : Pandas, Numpy, SciPy, Sci-Kit Learn, Spark
- 시각화 : matplotlib, Lightning Viz


개요

1. 의안표결 과 결과 

1.1. 기초적인 데이터 전처리

1.2. 의원별 표결내용 군집화

1.3. 차원 축소 및 시각화


2. 정치자금 사용내역 

2.1. 다양한 도메인의 데이터 전처리

2.2.  의원별 소비성향 클러스터링 및 시각화


3. 국회 회의록 내용 

3.1. 텍스트 데이터에 대한 전처리

3.2. 텍스트 데이터의 피쳐화

3.3. 국회 회의록 클러스터링

3.4. 차원 축소 및 시각화

댓글

blog comments powered by Disqus

후원사 목록

키스톤

다이아몬드

플래티넘

골드

스타트업

실버

미디어