빅데이터 - 해외저널과 블로거 사이에 사용
빅데이터의 정의는 - 규모, 주기, 형식등이 너무 크고 복잡해 수집과 저장,분석이 난해한 데이터
-> 효과적인 분석을 통해 각 자료마다 연결고리 -> 의미있는 데이터
미래 창조과학부 -> 각 나라와 기업들은 빅데이터 활용을 위해 사활을 걸었다.
호모다지쿠스로 진화하라!
통계학의6가지 분야
- 생물통계, 심리통계, 사회조사법, 역학, 데이터마이닝, 텍스트 마이닝, 계량경제학
한국의 독자들에게
더 골이란 천 만 명의 독자 아직도 수많은 자극을 준다.
-> 저자 골드렛 박사가 일본은 이미 최적화의 기법이 알려져 무역 마찰 초래 해서 출판이 허가 되지 않았다.
-> 이책또한 마찬가지!
수학적 리터러시 배양!
이제 통계 리터러시가 있어야 한다.
책 내용은
통계 부터 시작하고 비고 오차와 인과관계 임의화 최강 무기
사다리 1-8번일경우 4번이 가장 확률이 높다 양쪽끝은 확률이 가장 낮다.
소나기가 내려 우산을 사면 비가 그치거나, 토스트를 떨어뜨리면 언제나 버터를 바른쪽이 바닥에 닿거나
어쩌다 지각할 가능성이 있을 때만 지하철이 제 시간에 안온다는건 아주 인간의 착각
원인도 모르는 전염병을 막기 위한 학문 -> 역학!
ex) 존 스노 - 콜레라 데이터를 이용 예방
표준오차 산출식을 통하여 오차를 구한다. 표준오차란 표본에서 얻어진 비율에 대해 표준오차의 두배를 뺀값에서 표준오차의 두배를 더한 값까지의 범위에 참값이 포함될 신뢰성이 95%라는 값
EBM Evidence-Based Medicine!
세이버 매트릭스 : 과학적 통계로 야구를 이해하려는 노력!
로널드 A. 피셔 Ronald Aylmer Fisher 1890~1962 : 현대 통계학의 아버지, 실험계획법(1935년) -> 밀크티 실험 -> 임의화
모든 조건을 임의화하면 평균적으로 비교하려는 두 그룹이 동일한 조건에 놓이게 된다.
역학 연구를 통해 나타난 위험도는 '임의화 비교실험과 견줘볼 때 결과에 그다지 큰 차이가 없다.'
우상학 : 인간 지성과 그 발달 : 환경에 더 적합한 인종이나 혈통에 우선적으로 더 많은 기회를 제공해야 한다. -> 우상학 ( 기득권을 지키고 싶었던 귀족층의 명분, 나치의 대학살도 있지만, 50년 전만 해도 미국에서조차 지적장애자나 성범죄자의 유전자를 없애려는 단종법이 인정되기도 했다고함)
#회귀직선 : 데이터의 관계성을 기술, 다시 말해 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 것을 회귀분석
얻어진 회귀계수 자체에도 불규칙성이 존재
#회귀계수의 추정치 : 절편과 기울기 , 어디까지나 데이터에 근거해 '참값'을 추정한 결과
표준오차 : 추정치의 오차 크기
95% 신뢰구간 : p값이 5% 이하의 참값으로서 존재할 수 없는 값
p값 : 회귀계수가 0이었을 경우 단지 데이터의 불규칙성 때문에 이 정도의 회귀계수를 추정될 수 있는 확률, 5%를 웃돌면 '회귀계수 0으로 생각하기 어렵다'라고 판단.
절편 : 좌표 평면상의 직선이 x축과 만나는 점의 x좌표 및 y축과 만나는 점의 y좌표를 통틀어 하는 말
t검정 : 하나의 정규 모집단에서 추출된 표본 자료로부터 계산되는 표본평균이 모평균에 같은가 아닌가를 검정하는 등에 사용하는 일이 많다.?
일반화 선형모델을 정리한 한장의 도표
|
분석축(설명변수) |
|||
두 그룹간의 비교 |
다 그룹간의 비교 |
연속값의 크기로 비교 |
복수의 요인으로 동시에 비교 |
|
연속값 |
평균값의 차이를 t검정 |
평균값의 차이를 분산분석 |
회귀분석 |
다중회귀분석 |
있음/없음등의 두값 | 집계표의 기술과 카이제곱 검정 | 로지스틱 회귀 |
무한의 데이터를 얻으면 마땅히 알게 되는 진정으로 알고 싶은 결과값 -> 참값
# Logisitic Regrssion Analysis : 로지스틱 회귀분석, 심장병을 발생시키는지 여부알아내는것 -> 프레이밍험 연구 목적(최초시도), IBM社
# 카이제곱검정 : "의미있는 편중인지", "이 정도의 차이는 오차인지"를 확인하는 해석기법 : 칼 피어슨이 처음으로 사용한 것으로 실제 관찰 빈도와 통계적으로 기대할 수 있는 빈도(기대빈도) 간의 차이를 카이제곱 분포를
# 단순집계, A/B테스트는 오차를 고려하지 않는 함정이 있어, 실제로 아닌데도 오차나 우연에 의해 데이터와 같은 차이가 생길 확률 (P-Value)과 오차를 항상 고려해야 한다.
임의화 비교실험 : 과학, 철학의 기존 상식을 뒤집고 실증실험의 영역을 폭발적으로 확대
전수조사 vs 표본조사
10년 이상 신중한 검증 거듭후 놀라우리만치 정확한 결과라는 사실
통계학은 계속 발전 - 사례 및 활용분야
에비던스 활용하기!!!!
ㅇ Reference
- Cognos 社 SPSS 社 140억달러 이상 투자
- 오라클, 마소, NTT데이터社 마찬가지!
- 데이터마이닝, 기계학습, 인공지능, 자연언어처리
- BI, 경쟁분석
- 분석,통계 : 웹분석, A/B테스트, 통계해석
어떤 요인을 변화시켜야 이익이 향상될까? (원인발굴)
그런 변화를 일으키는 행동이 실제로 가능한가? (Possible?)
그에 따르는 비용이 이익을 상회할까? (ROI)