빅 데이터를 지배하는 통계의 힘

데이터분석/통계,확률2014. 12. 4. 00:51

빅 데이터를 지배하는 통계의 힘

빅데이터 - 해외저널과 블로거 사이에 사용

빅데이터의 정의는 - 규모, 주기, 형식등이 너무 크고 복잡해 수집과 저장,분석이 난해한 데이터

-> 효과적인 분석을 통해 각 자료마다 연결고리 -> 의미있는 데이터

미래 창조과학부 -> 각 나라와 기업들은 빅데이터 활용을 위해 사활을 걸었다.

호모다지쿠스로 진화하라!

통계학의6가지 분야

- 생물통계, 심리통계, 사회조사법, 역학, 데이터마이닝, 텍스트 마이닝, 계량경제학

한국의 독자들에게

더 골이란 천 만 명의 독자 아직도 수많은 자극을 준다.

-> 저자 골드렛 박사가 일본은 이미 최적화의 기법이 알려져 무역 마찰 초래 해서 출판이 허가 되지 않았다.

-> 이책또한 마찬가지!

수학적 리터러시 배양!

이제 통계 리터러시가 있어야 한다.

책 내용은

통계 부터 시작하고 비고 오차와 인과관계 임의화 최강 무기

사다리 1-8번일경우 4번이 가장 확률이 높다 양쪽끝은 확률이 가장 낮다.

소나기가 내려 우산을 사면 비가 그치거나, 토스트를 떨어뜨리면 언제나 버터를 바른쪽이 바닥에 닿거나

어쩌다 지각할 가능성이 있을 때만 지하철이 제 시간에 안온다는건 아주 인간의 착각

원인도 모르는 전염병을 막기 위한 학문 -> 역학!

ex) 존 스노 - 콜레라 데이터를 이용 예방

표준오차 산출식을 통하여 오차를 구한다. 표준오차란 표본에서 얻어진 비율에 대해 표준오차의 두배를 뺀값에서 표준오차의 두배를 더한 값까지의 범위에 참값이 포함될 신뢰성이 95%라는 값

EBM Evidence-Based Medicine!

세이버 매트릭스 : 과학적 통계로 야구를 이해하려는 노력!

로널드 A. 피셔 Ronald Aylmer Fisher 1890~1962 : 현대 통계학의 아버지, 실험계획법(1935년) -> 밀크티 실험 -> 임의화

모든 조건을 임의화하면 평균적으로 비교하려는 두 그룹이 동일한 조건에 놓이게 된다.

역학 연구를 통해 나타난 위험도는 '임의화 비교실험과 견줘볼 때 결과에 그다지 큰 차이가 없다.'

우상학 : 인간 지성과 그 발달 : 환경에 더 적합한 인종이나 혈통에 우선적으로 더 많은 기회를 제공해야 한다. -> 우상학 ( 기득권을 지키고 싶었던 귀족층의 명분, 나치의 대학살도 있지만, 50년 전만 해도 미국에서조차 지적장애자나 성범죄자의 유전자를 없애려는 단종법이 인정되기도 했다고함)

#회귀직선 : 데이터의 관계성을 기술, 다시 말해 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 것을 회귀분석

얻어진 회귀계수 자체에도 불규칙성이 존재

#회귀계수의 추정치 : 절편과 기울기 , 어디까지나 데이터에 근거해 '참값'을 추정한 결과

표준오차 : 추정치의 오차 크기

95% 신뢰구간 : p값이 5% 이하의 참값으로서 존재할 수 없는 값

p값 : 회귀계수가 0이었을 경우 단지 데이터의 불규칙성 때문에 이 정도의 회귀계수를 추정될 수 있는 확률, 5%를 웃돌면 '회귀계수 0으로 생각하기 어렵다'라고 판단.

절편 : 좌표 평면상의 직선이 x축과 만나는 점의 x좌표 및 y축과 만나는 점의 y좌표를 통틀어 하는 말

t검정 : 하나의 정규 모집단에서 추출된 표본 자료로부터 계산되는 표본평균이 모평균에 같은가 아닌가를 검정하는 등에 사용하는 일이 많다.?

일반화 선형모델을 정리한 한장의 도표

	분석축(설명변수)
	두 그룹간의 비교	다 그룹간의 비교	연속값의 크기로 비교	복수의 요인으로 동시에 비교
연속값	평균값의 차이를 t검정	평균값의 차이를 분산분석	회귀분석	다중회귀분석
있음/없음등의 두값	집계표의 기술과 카이제곱 검정		로지스틱 회귀

무한의 데이터를 얻으면 마땅히 알게 되는 진정으로 알고 싶은 결과값 -> 참값

# Logisitic Regrssion Analysis : 로지스틱 회귀분석, 심장병을 발생시키는지 여부알아내는것 -> 프레이밍험 연구 목적(최초시도), IBM社

# 카이제곱검정 : "의미있는 편중인지", "이 정도의 차이는 오차인지"를 확인하는 해석기법 : 칼 피어슨이 처음으로 사용한 것으로 실제 관찰 빈도와 통계적으로 기대할 수 있는 빈도(기대빈도) 간의 차이를 카이제곱 분포를

# 단순집계, A/B테스트는 오차를 고려하지 않는 함정이 있어, 실제로 아닌데도 오차나 우연에 의해 데이터와 같은 차이가 생길 확률 (P-Value)과 오차를 항상 고려해야 한다.

임의화 비교실험 : 과학, 철학의 기존 상식을 뒤집고 실증실험의 영역을 폭발적으로 확대

전수조사 vs 표본조사

10년 이상 신중한 검증 거듭후 놀라우리만치 정확한 결과라는 사실

통계학은 계속 발전 - 사례 및 활용분야

에비던스 활용하기!!!!

ㅇ Reference

- Cognos 社 SPSS 社 140억달러 이상 투자

- 오라클, 마소, NTT데이터社 마찬가지!

- 데이터마이닝, 기계학습, 인공지능, 자연언어처리

- BI, 경쟁분석

- 분석,통계 : 웹분석, A/B테스트, 통계해석

어떤 요인을 변화시켜야 이익이 향상될까? (원인발굴)

그런 변화를 일으키는 행동이 실제로 가능한가? (Possible?)

그에 따르는 비용이 이익을 상회할까? (ROI)

저작자표시

Posted by 억사마

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Success is a long continuous journey.

빅 데이터를 지배하는 통계의 힘

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바