데이터분석2016. 5. 16. 11:36

Kaggler가 되어도 분석할 데이터, 도메인 지식이 없으면 아무 소용이 없다. 그래서 Kaggler가 되기 위한 시도로써 또 나는 분석할 대상, 도메인 지식도 쌓고 그리고 관련 데이터도 어디서 확보하면 좋을까를 목표로 또 하나의 습관을 들이기로 한다.


데이터 도메인은 부동산쪽이며 주제는 아파트가격 분석이 되겠다. 예측까지가면 좋을것 같지만 우선 과거 데이터를 가지고 분석정도를 목표로 한다. 


RAW 데이터 source는 다음이 되겠다.

국토부 실거래사이트(rt.molit.go.kr)  

 realtime은 아니지만 최대 3달 이내의 실거래가 데이터를 얻을수 있다. 동호수까지는 모르는게 단점

 한국산업단지공단( )www.kicox.or.kr) :

 인구 유입율

 부동산114(or 닥터아파트)

 매년 아파트 브랜드 선호도 발표 

 www.apt2you.com 

 청약접수 경쟁률 조회

 통계청 국가포털(http://kosis.kr) / 통계청 http://kostat.go.kr

 

 서울시 재개발/재건축 클린업시스템 cleanup.seoul.go.kr

 


아래는 데이터 분석 관련 통계청 데이터 목록 


1. 가계동향조사 : 가구의 생활수준실태와 그 변동사항을 파악하기 위해서 가계의 수입과 지출을 조사하여 - 국민소비수준 변화의 측정 및 분석 - 소비자물가지수 편제에 필요한 가중치 모집단 자료 등 각종 경제, 사회정책에 필요한 자료를 제공 - 공공사업 시행으로 인한 세입자의 주거대책비 산정 및 국민주택 공급대상의 기준설정 자료


2. 장래인구추계 : 2010년 인구주택총조사 결과를 기초로, 인구동태(출생․사망)와 국제인구이동통계를 활용, 코호트 요인법 ( Cohort components method)에 의해 2060년까지 향후 50년간의 인구규모 및 성․연령별 구조를 추계 ㅇ 2010년 인구주택총조사(11월 1일자)의 성․연령별 인구 보정 - 성․연령별 기준인구(2010년 7월 1일자) 확정 - 인구변동요인(출생․사망․국제이동) 분석 - 출산력․사망력․국제이동 모형 및 장래 변동 수준에 대한 가정설정 - 가정별 인구추계 시산 및 결과 분석


3. 국내인구이동통계 : 인구 이동 상황을 주기적으로 파악하여 인구정책 및 지역간 균형개발을 위한 기초자료로 활용


4. 한국도시통계 : - 전국 시·읍의 인구, 재정, 건설, 사회복지 및 문화 등 각 분야의 주요통계 자료를 수록하여 도시 변화양태 파악 및 도시행정을 위한 기초자료 제공 - 중앙부처, 지방자치단체, 유관기관 등에서 도시행정 수행에 활용


5. 노인(65세 이상)의 연간 총수입, 소득항목별 금액 및 구성비 

  - 일반특성별 (30개)

:전체, 지역별, 동부, 읍·면부, 성별, 남자, 여자, 연령별, 65~69세, 70~74세.....

- 소득항목별 (8개)

: 총수입, 근로소득, 사업소득, 재산소득, 사적이전소득, 공전이전소득, 기타수입, 기타소득

- 항목 (2개)

: 금액, 구성비



6.  각종 지수(통계청 발표)

    아파트 실거래가격지수(2006.1=100.0) 수록주기 월 2006.01~2016.03  아파트 실거래가격지수(2006.1=100.0) 파일 다운로드  아파트 실거래가격지수(2006.1=100.0) 구성정보

    규모별 아파트 실거래가격지수 전월대비 증감률(%) 수록주기 월 2006.02~2016.02  규모별 아파트 실거래가격지수 전월대비 증감률(%) 파일 다운로드  규모별 아파트 실거래가격지수 전월대비 증감률(%) 구성정보

    규모별 아파트 실거래가격지수(2006.1=100.0) 수록주기 월 2006.01~2016.02  규모별 아파트 실거래가격지수(2006.1=100.0) 파일 다운로드  규모별 아파트 실거래가격지수(2006.1=100.0) 구성정보

    아파트 실거래가격지수 전월대비 증감률(%) 수록주기 월 2006.02~2016.03  아파트 실거래가격지수 전월대비 증감률(%) 파일 다운로드  아파트 실거래가격지수 전월대비 증감률(%) 구성정보

 부동산시장 소비자심리  

    부동산시장 소비심리지수 수록주기 월 2011.07~2016.03  부동산시장 소비심리지수 파일 다운로드  부동산시장 소비심리지수 구성정보

    주택시장 소비심리지수 수록주기 월 2011.07~2016.03  주택시장 소비심리지수 파일 다운로드  주택시장 소비심리지수 구성정보

    주택매매시장 소비심리지수 수록주기 월 2011.07~2016.03  주택매매시장 소비심리지수 파일 다운로드  주택매매시장 소비심리지수 구성정보

    주택전세시장 소비심리지수 수록주기 월 2011.07~2016.03  주택전세시장 소비심리지수 파일 다운로드  주택전세시장 소비심리지수 구성정보





UPDATE ( 2016.05.27. "아는만큼 번다 돈이 되는 빅데이터" 책 내용 추가)


데이터를 다루는 기본 지식

비(ratio) : 분자 / 분모 독립적

비율(proportion)  : 분자가 분모에도 포함

율(rate) : 시간개념이 같이 있어 "속도"개념이 추가된 것.

기저효과(base effect) : 기준/비교 시점의 차이로 왜곡이 되는 현상.

%, %p : p가 붙으면 퍼센테이지의 차이를 얘기한다.

INDEX는 기준시점 + 가중치 + 지수식으로 결정


한국은행 경제 통계시스템

 국가별 통화량 추이(M1,M2) 가계부채상황, 부채지표등 각종 지표 파악 가능

 ※ 처분가능소득 대비 금융부채 비율, 처분가능소득 대비 원리금 상환액 비율등...

 온나라 부동산 정보종합포탈 

 행정구역별 최초 주택 거래량, 월별 매입자 거주지별(실거주자와 매입자의 일치 여부)

 월별 거래주체별 / 거래규모별 / 건물유형별 

 한국거래소

 

 금융투자협회 전자공지서비스

 

 KB부동산 알리지

 

 R-ONE 부동산통계정보시스템

 상업용 부동산 거래 정보, 미분양 정보(준공후 미분양까지), 연령별(아파트나이별)매매가격지수, 자가점유비율, 자가보유율(주택 보유 가구 / 일반가구수)












'데이터분석' 카테고리의 다른 글

Kaggler's Day #8  (0) 2016.06.10
Kaggler's Day #7  (0) 2016.06.08
Kaggler's Day #6  (0) 2016.05.31
Kaggler's Day #5  (0) 2016.05.27
Kaggler's Day #1  (0) 2016.05.12
Posted by 억사마