Kaggler가 되어도 분석할 데이터, 도메인 지식이 없으면 아무 소용이 없다. 그래서 Kaggler가 되기 위한 시도로써 또 나는 분석할 대상, 도메인 지식도 쌓고 그리고 관련 데이터도 어디서 확보하면 좋을까를 목표로 또 하나의 습관을 들이기로 한다.
데이터 도메인은 부동산쪽이며 주제는 아파트가격 분석이 되겠다. 예측까지가면 좋을것 같지만 우선 과거 데이터를 가지고 분석정도를 목표로 한다.
RAW 데이터 source는 다음이 되겠다.
국토부 실거래사이트(rt.molit.go.kr) |
realtime은 아니지만 최대 3달 이내의 실거래가 데이터를 얻을수 있다. 동호수까지는 모르는게 단점 |
한국산업단지공단( )www.kicox.or.kr) : |
인구 유입율 |
부동산114(or 닥터아파트) |
매년 아파트 브랜드 선호도 발표 |
www.apt2you.com |
청약접수 경쟁률 조회 |
통계청 국가포털(http://kosis.kr) / 통계청 http://kostat.go.kr |
|
서울시 재개발/재건축 클린업시스템 cleanup.seoul.go.kr |
|
아래는 데이터 분석 관련 통계청 데이터 목록
1. 가계동향조사 : 가구의 생활수준실태와 그 변동사항을 파악하기 위해서 가계의 수입과 지출을 조사하여 - 국민소비수준 변화의 측정 및 분석 - 소비자물가지수 편제에 필요한 가중치 모집단 자료 등 각종 경제, 사회정책에 필요한 자료를 제공 - 공공사업 시행으로 인한 세입자의 주거대책비 산정 및 국민주택 공급대상의 기준설정 자료
2. 장래인구추계 : 2010년 인구주택총조사 결과를 기초로, 인구동태(출생․사망)와 국제인구이동통계를 활용, 코호트 요인법 ( Cohort components method)에 의해 2060년까지 향후 50년간의 인구규모 및 성․연령별 구조를 추계 ㅇ 2010년 인구주택총조사(11월 1일자)의 성․연령별 인구 보정 - 성․연령별 기준인구(2010년 7월 1일자) 확정 - 인구변동요인(출생․사망․국제이동) 분석 - 출산력․사망력․국제이동 모형 및 장래 변동 수준에 대한 가정설정 - 가정별 인구추계 시산 및 결과 분석
3. 국내인구이동통계 : 인구 이동 상황을 주기적으로 파악하여 인구정책 및 지역간 균형개발을 위한 기초자료로 활용
4. 한국도시통계 : - 전국 시·읍의 인구, 재정, 건설, 사회복지 및 문화 등 각 분야의 주요통계 자료를 수록하여 도시 변화양태 파악 및 도시행정을 위한 기초자료 제공 - 중앙부처, 지방자치단체, 유관기관 등에서 도시행정 수행에 활용
5. 노인(65세 이상)의 연간 총수입, 소득항목별 금액 및 구성비
- 일반특성별 (30개)
:전체, 지역별, 동부, 읍·면부, 성별, 남자, 여자, 연령별, 65~69세, 70~74세.....
- 소득항목별 (8개)
: 총수입, 근로소득, 사업소득, 재산소득, 사적이전소득, 공전이전소득, 기타수입, 기타소득
- 항목 (2개)
: 금액, 구성비
6. 각종 지수(통계청 발표)
아파트 실거래가격지수(2006.1=100.0) 수록주기 월 2006.01~2016.03 아파트 실거래가격지수(2006.1=100.0) 파일 다운로드 아파트 실거래가격지수(2006.1=100.0) 구성정보
규모별 아파트 실거래가격지수 전월대비 증감률(%) 수록주기 월 2006.02~2016.02 규모별 아파트 실거래가격지수 전월대비 증감률(%) 파일 다운로드 규모별 아파트 실거래가격지수 전월대비 증감률(%) 구성정보
규모별 아파트 실거래가격지수(2006.1=100.0) 수록주기 월 2006.01~2016.02 규모별 아파트 실거래가격지수(2006.1=100.0) 파일 다운로드 규모별 아파트 실거래가격지수(2006.1=100.0) 구성정보
아파트 실거래가격지수 전월대비 증감률(%) 수록주기 월 2006.02~2016.03 아파트 실거래가격지수 전월대비 증감률(%) 파일 다운로드 아파트 실거래가격지수 전월대비 증감률(%) 구성정보
부동산시장 소비자심리
부동산시장 소비심리지수 수록주기 월 2011.07~2016.03 부동산시장 소비심리지수 파일 다운로드 부동산시장 소비심리지수 구성정보
주택시장 소비심리지수 수록주기 월 2011.07~2016.03 주택시장 소비심리지수 파일 다운로드 주택시장 소비심리지수 구성정보
주택매매시장 소비심리지수 수록주기 월 2011.07~2016.03 주택매매시장 소비심리지수 파일 다운로드 주택매매시장 소비심리지수 구성정보
주택전세시장 소비심리지수 수록주기 월 2011.07~2016.03 주택전세시장 소비심리지수 파일 다운로드 주택전세시장 소비심리지수 구성정보
UPDATE ( 2016.05.27. "아는만큼 번다 돈이 되는 빅데이터" 책 내용 추가)
데이터를 다루는 기본 지식
비(ratio) : 분자 / 분모 독립적
비율(proportion) : 분자가 분모에도 포함
율(rate) : 시간개념이 같이 있어 "속도"개념이 추가된 것.
기저효과(base effect) : 기준/비교 시점의 차이로 왜곡이 되는 현상.
%, %p : p가 붙으면 퍼센테이지의 차이를 얘기한다.
INDEX는 기준시점 + 가중치 + 지수식으로 결정
한국은행 경제 통계시스템 |
국가별 통화량 추이(M1,M2) 가계부채상황, 부채지표등 각종 지표 파악 가능 ※ 처분가능소득 대비 금융부채 비율, 처분가능소득 대비 원리금 상환액 비율등... |
온나라 부동산 정보종합포탈 |
행정구역별 최초 주택 거래량, 월별 매입자 거주지별(실거주자와 매입자의 일치 여부) 월별 거래주체별 / 거래규모별 / 건물유형별 |
한국거래소 |
|
|
|
|
|
R-ONE 부동산통계정보시스템 |
상업용 부동산 거래 정보, 미분양 정보(준공후 미분양까지), 연령별(아파트나이별)매매가격지수, 자가점유비율, 자가보유율(주택 보유 가구 / 일반가구수) |
'데이터분석' 카테고리의 다른 글
Kaggler's Day #8 (0) | 2016.06.10 |
---|---|
Kaggler's Day #7 (0) | 2016.06.08 |
Kaggler's Day #6 (0) | 2016.05.31 |
Kaggler's Day #5 (0) | 2016.05.27 |
Kaggler's Day #1 (0) | 2016.05.12 |