'데이터분석'에 해당되는 글 13건

  1. 2016.05.16 Kaggler's Day #3
  2. 2016.05.12 Kaggler's Day #1
  3. 2014.12.04 빅 데이터를 지배하는 통계의 힘
데이터분석2016. 5. 16. 11:36

Kaggler가 되어도 분석할 데이터, 도메인 지식이 없으면 아무 소용이 없다. 그래서 Kaggler가 되기 위한 시도로써 또 나는 분석할 대상, 도메인 지식도 쌓고 그리고 관련 데이터도 어디서 확보하면 좋을까를 목표로 또 하나의 습관을 들이기로 한다.


데이터 도메인은 부동산쪽이며 주제는 아파트가격 분석이 되겠다. 예측까지가면 좋을것 같지만 우선 과거 데이터를 가지고 분석정도를 목표로 한다. 


RAW 데이터 source는 다음이 되겠다.

국토부 실거래사이트(rt.molit.go.kr)  

 realtime은 아니지만 최대 3달 이내의 실거래가 데이터를 얻을수 있다. 동호수까지는 모르는게 단점

 한국산업단지공단( )www.kicox.or.kr) :

 인구 유입율

 부동산114(or 닥터아파트)

 매년 아파트 브랜드 선호도 발표 

 www.apt2you.com 

 청약접수 경쟁률 조회

 통계청 국가포털(http://kosis.kr) / 통계청 http://kostat.go.kr

 

 서울시 재개발/재건축 클린업시스템 cleanup.seoul.go.kr

 


아래는 데이터 분석 관련 통계청 데이터 목록 


1. 가계동향조사 : 가구의 생활수준실태와 그 변동사항을 파악하기 위해서 가계의 수입과 지출을 조사하여 - 국민소비수준 변화의 측정 및 분석 - 소비자물가지수 편제에 필요한 가중치 모집단 자료 등 각종 경제, 사회정책에 필요한 자료를 제공 - 공공사업 시행으로 인한 세입자의 주거대책비 산정 및 국민주택 공급대상의 기준설정 자료


2. 장래인구추계 : 2010년 인구주택총조사 결과를 기초로, 인구동태(출생․사망)와 국제인구이동통계를 활용, 코호트 요인법 ( Cohort components method)에 의해 2060년까지 향후 50년간의 인구규모 및 성․연령별 구조를 추계 ㅇ 2010년 인구주택총조사(11월 1일자)의 성․연령별 인구 보정 - 성․연령별 기준인구(2010년 7월 1일자) 확정 - 인구변동요인(출생․사망․국제이동) 분석 - 출산력․사망력․국제이동 모형 및 장래 변동 수준에 대한 가정설정 - 가정별 인구추계 시산 및 결과 분석


3. 국내인구이동통계 : 인구 이동 상황을 주기적으로 파악하여 인구정책 및 지역간 균형개발을 위한 기초자료로 활용


4. 한국도시통계 : - 전국 시·읍의 인구, 재정, 건설, 사회복지 및 문화 등 각 분야의 주요통계 자료를 수록하여 도시 변화양태 파악 및 도시행정을 위한 기초자료 제공 - 중앙부처, 지방자치단체, 유관기관 등에서 도시행정 수행에 활용


5. 노인(65세 이상)의 연간 총수입, 소득항목별 금액 및 구성비 

  - 일반특성별 (30개)

:전체, 지역별, 동부, 읍·면부, 성별, 남자, 여자, 연령별, 65~69세, 70~74세.....

- 소득항목별 (8개)

: 총수입, 근로소득, 사업소득, 재산소득, 사적이전소득, 공전이전소득, 기타수입, 기타소득

- 항목 (2개)

: 금액, 구성비



6.  각종 지수(통계청 발표)

    아파트 실거래가격지수(2006.1=100.0) 수록주기 월 2006.01~2016.03  아파트 실거래가격지수(2006.1=100.0) 파일 다운로드  아파트 실거래가격지수(2006.1=100.0) 구성정보

    규모별 아파트 실거래가격지수 전월대비 증감률(%) 수록주기 월 2006.02~2016.02  규모별 아파트 실거래가격지수 전월대비 증감률(%) 파일 다운로드  규모별 아파트 실거래가격지수 전월대비 증감률(%) 구성정보

    규모별 아파트 실거래가격지수(2006.1=100.0) 수록주기 월 2006.01~2016.02  규모별 아파트 실거래가격지수(2006.1=100.0) 파일 다운로드  규모별 아파트 실거래가격지수(2006.1=100.0) 구성정보

    아파트 실거래가격지수 전월대비 증감률(%) 수록주기 월 2006.02~2016.03  아파트 실거래가격지수 전월대비 증감률(%) 파일 다운로드  아파트 실거래가격지수 전월대비 증감률(%) 구성정보

 부동산시장 소비자심리  

    부동산시장 소비심리지수 수록주기 월 2011.07~2016.03  부동산시장 소비심리지수 파일 다운로드  부동산시장 소비심리지수 구성정보

    주택시장 소비심리지수 수록주기 월 2011.07~2016.03  주택시장 소비심리지수 파일 다운로드  주택시장 소비심리지수 구성정보

    주택매매시장 소비심리지수 수록주기 월 2011.07~2016.03  주택매매시장 소비심리지수 파일 다운로드  주택매매시장 소비심리지수 구성정보

    주택전세시장 소비심리지수 수록주기 월 2011.07~2016.03  주택전세시장 소비심리지수 파일 다운로드  주택전세시장 소비심리지수 구성정보





UPDATE ( 2016.05.27. "아는만큼 번다 돈이 되는 빅데이터" 책 내용 추가)


데이터를 다루는 기본 지식

비(ratio) : 분자 / 분모 독립적

비율(proportion)  : 분자가 분모에도 포함

율(rate) : 시간개념이 같이 있어 "속도"개념이 추가된 것.

기저효과(base effect) : 기준/비교 시점의 차이로 왜곡이 되는 현상.

%, %p : p가 붙으면 퍼센테이지의 차이를 얘기한다.

INDEX는 기준시점 + 가중치 + 지수식으로 결정


한국은행 경제 통계시스템

 국가별 통화량 추이(M1,M2) 가계부채상황, 부채지표등 각종 지표 파악 가능

 ※ 처분가능소득 대비 금융부채 비율, 처분가능소득 대비 원리금 상환액 비율등...

 온나라 부동산 정보종합포탈 

 행정구역별 최초 주택 거래량, 월별 매입자 거주지별(실거주자와 매입자의 일치 여부)

 월별 거래주체별 / 거래규모별 / 건물유형별 

 한국거래소

 

 금융투자협회 전자공지서비스

 

 KB부동산 알리지

 

 R-ONE 부동산통계정보시스템

 상업용 부동산 거래 정보, 미분양 정보(준공후 미분양까지), 연령별(아파트나이별)매매가격지수, 자가점유비율, 자가보유율(주택 보유 가구 / 일반가구수)












'데이터분석' 카테고리의 다른 글

Kaggler's Day #8  (0) 2016.06.10
Kaggler's Day #7  (0) 2016.06.08
Kaggler's Day #6  (0) 2016.05.31
Kaggler's Day #5  (0) 2016.05.27
Kaggler's Day #1  (0) 2016.05.12
Posted by 억사마
데이터분석2016. 5. 12. 18:49

난 일주일에 세번!!!! Kaggle에 올라온 Famous Script를 따라서 해보고 감상평과 내용요약을 하고자 한다.


1. 주제

Kaggle에서는 사용자들이 Public Dataset을 가지고 분석한 스크립트와 보고서를 보고 Voting을 한다. 그중 가장 많은 아마존의 Find Food의 리뷰 분석 실습이다.. 데이터는 스탠포드에서 제공하고 2012년 10월에 아마존 사용자들의 568,454 리뷰 데이터를 모은것이다.

데이터 구성은 csv로 아래와 같다.

  • Id
  • ProductId - unique identifier for the product
  • UserId - unqiue identifier for the user
  • ProfileName
  • HelpfulnessNumerator - number of users who found the review helpful
  • HelpfulnessDenominator - number of users who indicated whether they found the review helpful
  • Score - rating between 1 and 5
  • Time - timestamp for the review
  • Summary - brief summary of the review
  • Text - text of the review

그리고 내가 선정한 스크립트는 바로 Ben Hamner이란 분이 올린 script가 되시겠다. 참고로 8개의 voting을 받았다. 


library(RSQLite)
library(tm)
library(wordcloud)

library(RSQLite)
db <- dbConnect(dbDriver("SQLite"), "../input/database.sqlite")

reviews <- dbGetQuery(db, "
SELECT *
FROM Reviews
LIMIT 10000")

make_word_cloud <- function(documents) {
  corpus = Corpus(VectorSource(tolower(documents)))
  corpus = tm_map(corpus, removePunctuation)
  corpus = tm_map(corpus, removeWords, stopwords("english"))
  
  frequencies = DocumentTermMatrix(corpus)
  word_frequencies = as.data.frame(as.matrix(frequencies))
  
  words <- colnames(word_frequencies)
  freq <- colSums(word_frequencies)
  wordcloud(words, freq,
            min.freq=sort(freq, decreasing=TRUE)[[400]],
            colors=brewer.pal(8, "Dark2"),
            random.color=TRUE)  
}

png("wordcloud.png")
make_word_cloud(reviews$Text) 
dev.off()


분명 데이터도 sqlite에서 잘 뽑아와서 corpus를 munging하고 wordcloud함수도 잘 생성되었으나... 쉬운예제임에도불구하고 그림이 안 나옴.. 

실패되시겠습니다. 그래도 여튼 원래장소에서 가져와서붙이고 내가 한걸로.. ㅡ.ㅡ

'데이터분석' 카테고리의 다른 글

Kaggler's Day #8  (0) 2016.06.10
Kaggler's Day #7  (0) 2016.06.08
Kaggler's Day #6  (0) 2016.05.31
Kaggler's Day #5  (0) 2016.05.27
Kaggler's Day #3  (0) 2016.05.16
Posted by 억사마

빅데이터 - 해외저널과 블로거 사이에 사용

빅데이터의 정의는 - 규모, 주기, 형식등이 너무 크고 복잡해 수집과 저장,분석이 난해한 데이터

-> 효과적인 분석을 통해 각 자료마다 연결고리 -> 의미있는 데이터


미래 창조과학부 -> 각 나라와 기업들은 빅데이터 활용을 위해 사활을 걸었다.

호모다지쿠스로 진화하라!


통계학의6가지 분야

 - 생물통계, 심리통계, 사회조사법, 역학, 데이터마이닝, 텍스트 마이닝, 계량경제학


한국의 독자들에게

더 골이란  천 만 명의 독자 아직도 수많은 자극을 준다.

-> 저자 골드렛 박사가 일본은 이미 최적화의 기법이 알려져 무역 마찰 초래 해서 출판이 허가 되지 않았다.

-> 이책또한 마찬가지!


수학적 리터러시 배양!

이제 통계 리터러시가 있어야 한다.


책 내용은

통계 부터 시작하고 비고 오차와 인과관계 임의화 최강 무기 


사다리 1-8번일경우 4번이 가장 확률이 높다 양쪽끝은 확률이 가장 낮다.

소나기가 내려 우산을 사면 비가 그치거나, 토스트를 떨어뜨리면 언제나 버터를 바른쪽이 바닥에 닿거나

어쩌다 지각할 가능성이 있을 때만 지하철이 제 시간에 안온다는건 아주 인간의 착각



원인도 모르는 전염병을 막기 위한 학문 -> 역학!

ex) 존 스노 - 콜레라 데이터를 이용 예방


표준오차 산출식을 통하여 오차를 구한다.  표준오차란 표본에서 얻어진 비율에 대해 표준오차의 두배를 뺀값에서 표준오차의 두배를 더한 값까지의 범위에 참값이 포함될 신뢰성이 95%라는 값






EBM  Evidence-Based Medicine!


세이버 매트릭스 : 과학적 통계로 야구를 이해하려는 노력!


로널드  A. 피셔 Ronald Aylmer Fisher 1890~1962 : 현대 통계학의 아버지, 실험계획법(1935년)  -> 밀크티 실험 -> 임의화

모든 조건을 임의화하면 평균적으로 비교하려는 두 그룹이 동일한 조건에 놓이게 된다.



역학 연구를 통해 나타난 위험도는 '임의화 비교실험과 견줘볼 때 결과에 그다지 큰 차이가 없다.'


우상학 : 인간 지성과 그 발달 : 환경에 더 적합한 인종이나 혈통에 우선적으로 더 많은 기회를 제공해야 한다. -> 우상학 ( 기득권을 지키고 싶었던 귀족층의 명분, 나치의 대학살도 있지만, 50년 전만 해도 미국에서조차 지적장애자나 성범죄자의 유전자를 없애려는 단종법이 인정되기도 했다고함)



#회귀직선 : 데이터의 관계성을 기술, 다시 말해 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 것을 회귀분석

얻어진 회귀계수 자체에도 불규칙성이 존재


#회귀계수의 추정치 : 절편과 기울기 , 어디까지나 데이터에 근거해 '참값'을 추정한 결과

표준오차 : 추정치의 오차 크기

95% 신뢰구간 : p값이 5% 이하의 참값으로서 존재할 수 없는 값

p값 : 회귀계수가 0이었을 경우 단지 데이터의 불규칙성 때문에 이 정도의 회귀계수를 추정될 수 있는 확률, 5%를 웃돌면 '회귀계수 0으로 생각하기 어렵다'라고 판단.

절편 : 좌표 평면상의 직선이 x축과 만나는 점의 x좌표 및 y축과 만나는 점의 y좌표를 통틀어 하는 말

t검정 : 하나의 정규 모집단에서 추출된 표본 자료로부터 계산되는 표본평균이 모평균에 같은가 아닌가를 검정하는 등에 사용하는 일이 많다.?



일반화 선형모델을 정리한 한장의 도표


 

 분석축(설명변수)

 두 그룹간의 비교

 다 그룹간의 비교 

 연속값의 크기로 비교

 복수의 요인으로 동시에 비교

 연속값

 평균값의 차이를 t검정

평균값의 차이를 분산분석 

회귀분석 

다중회귀분석 

 있음/없음등의 두값

 집계표의 기술과 카이제곱 검정

 로지스틱 회귀




무한의 데이터를 얻으면 마땅히 알게 되는 진정으로 알고 싶은 결과값 -> 참값



# Logisitic Regrssion Analysis : 로지스틱 회귀분석, 심장병을 발생시키는지 여부알아내는것 -> 프레이밍험 연구 목적(최초시도), IBM社

# 카이제곱검정 : "의미있는 편중인지", "이 정도의 차이는 오차인지"를 확인하는 해석기법 : 칼 피어슨이 처음으로 사용한 것으로 실제 관찰 빈도와 통계적으로 기대할 수 있는 빈도(기대빈도) 간의 차이를 카이제곱 분포를 

# 단순집계, A/B테스트는 오차를 고려하지 않는 함정이 있어, 실제로 아닌데도 오차나 우연에 의해 데이터와 같은 차이가 생길 확률 (P-Value)과 오차를 항상 고려해야 한다.


임의화 비교실험 : 과학, 철학의 기존 상식을 뒤집고 실증실험의 영역을 폭발적으로 확대



전수조사  vs 표본조사

 10년 이상 신중한 검증 거듭후 놀라우리만치 정확한 결과라는 사실 




통계학은 계속 발전 - 사례 및 활용분야

에비던스 활용하기!!!!




ㅇ Reference

 - Cognos 社 SPSS 社  140억달러 이상 투자 

 - 오라클, 마소, NTT데이터社 마찬가지!

 - 데이터마이닝, 기계학습, 인공지능, 자연언어처리

 - BI, 경쟁분석

 - 분석,통계 : 웹분석, A/B테스트, 통계해석


어떤 요인을 변화시켜야 이익이 향상될까? (원인발굴)

그런 변화를 일으키는 행동이 실제로 가능한가? (Possible?)

그에 따르는 비용이 이익을 상회할까? (ROI)








Posted by 억사마