빅데이터 - 해외저널과 블로거 사이에 사용

빅데이터의 정의는 - 규모, 주기, 형식등이 너무 크고 복잡해 수집과 저장,분석이 난해한 데이터

-> 효과적인 분석을 통해 각 자료마다 연결고리 -> 의미있는 데이터


미래 창조과학부 -> 각 나라와 기업들은 빅데이터 활용을 위해 사활을 걸었다.

호모다지쿠스로 진화하라!


통계학의6가지 분야

 - 생물통계, 심리통계, 사회조사법, 역학, 데이터마이닝, 텍스트 마이닝, 계량경제학


한국의 독자들에게

더 골이란  천 만 명의 독자 아직도 수많은 자극을 준다.

-> 저자 골드렛 박사가 일본은 이미 최적화의 기법이 알려져 무역 마찰 초래 해서 출판이 허가 되지 않았다.

-> 이책또한 마찬가지!


수학적 리터러시 배양!

이제 통계 리터러시가 있어야 한다.


책 내용은

통계 부터 시작하고 비고 오차와 인과관계 임의화 최강 무기 


사다리 1-8번일경우 4번이 가장 확률이 높다 양쪽끝은 확률이 가장 낮다.

소나기가 내려 우산을 사면 비가 그치거나, 토스트를 떨어뜨리면 언제나 버터를 바른쪽이 바닥에 닿거나

어쩌다 지각할 가능성이 있을 때만 지하철이 제 시간에 안온다는건 아주 인간의 착각



원인도 모르는 전염병을 막기 위한 학문 -> 역학!

ex) 존 스노 - 콜레라 데이터를 이용 예방


표준오차 산출식을 통하여 오차를 구한다.  표준오차란 표본에서 얻어진 비율에 대해 표준오차의 두배를 뺀값에서 표준오차의 두배를 더한 값까지의 범위에 참값이 포함될 신뢰성이 95%라는 값






EBM  Evidence-Based Medicine!


세이버 매트릭스 : 과학적 통계로 야구를 이해하려는 노력!


로널드  A. 피셔 Ronald Aylmer Fisher 1890~1962 : 현대 통계학의 아버지, 실험계획법(1935년)  -> 밀크티 실험 -> 임의화

모든 조건을 임의화하면 평균적으로 비교하려는 두 그룹이 동일한 조건에 놓이게 된다.



역학 연구를 통해 나타난 위험도는 '임의화 비교실험과 견줘볼 때 결과에 그다지 큰 차이가 없다.'


우상학 : 인간 지성과 그 발달 : 환경에 더 적합한 인종이나 혈통에 우선적으로 더 많은 기회를 제공해야 한다. -> 우상학 ( 기득권을 지키고 싶었던 귀족층의 명분, 나치의 대학살도 있지만, 50년 전만 해도 미국에서조차 지적장애자나 성범죄자의 유전자를 없애려는 단종법이 인정되기도 했다고함)



#회귀직선 : 데이터의 관계성을 기술, 다시 말해 하나의 변수로 다른 변수의 값을 예측하거나 설명하는 것을 회귀분석

얻어진 회귀계수 자체에도 불규칙성이 존재


#회귀계수의 추정치 : 절편과 기울기 , 어디까지나 데이터에 근거해 '참값'을 추정한 결과

표준오차 : 추정치의 오차 크기

95% 신뢰구간 : p값이 5% 이하의 참값으로서 존재할 수 없는 값

p값 : 회귀계수가 0이었을 경우 단지 데이터의 불규칙성 때문에 이 정도의 회귀계수를 추정될 수 있는 확률, 5%를 웃돌면 '회귀계수 0으로 생각하기 어렵다'라고 판단.

절편 : 좌표 평면상의 직선이 x축과 만나는 점의 x좌표 및 y축과 만나는 점의 y좌표를 통틀어 하는 말

t검정 : 하나의 정규 모집단에서 추출된 표본 자료로부터 계산되는 표본평균이 모평균에 같은가 아닌가를 검정하는 등에 사용하는 일이 많다.?



일반화 선형모델을 정리한 한장의 도표


 

 분석축(설명변수)

 두 그룹간의 비교

 다 그룹간의 비교 

 연속값의 크기로 비교

 복수의 요인으로 동시에 비교

 연속값

 평균값의 차이를 t검정

평균값의 차이를 분산분석 

회귀분석 

다중회귀분석 

 있음/없음등의 두값

 집계표의 기술과 카이제곱 검정

 로지스틱 회귀




무한의 데이터를 얻으면 마땅히 알게 되는 진정으로 알고 싶은 결과값 -> 참값



# Logisitic Regrssion Analysis : 로지스틱 회귀분석, 심장병을 발생시키는지 여부알아내는것 -> 프레이밍험 연구 목적(최초시도), IBM社

# 카이제곱검정 : "의미있는 편중인지", "이 정도의 차이는 오차인지"를 확인하는 해석기법 : 칼 피어슨이 처음으로 사용한 것으로 실제 관찰 빈도와 통계적으로 기대할 수 있는 빈도(기대빈도) 간의 차이를 카이제곱 분포를 

# 단순집계, A/B테스트는 오차를 고려하지 않는 함정이 있어, 실제로 아닌데도 오차나 우연에 의해 데이터와 같은 차이가 생길 확률 (P-Value)과 오차를 항상 고려해야 한다.


임의화 비교실험 : 과학, 철학의 기존 상식을 뒤집고 실증실험의 영역을 폭발적으로 확대



전수조사  vs 표본조사

 10년 이상 신중한 검증 거듭후 놀라우리만치 정확한 결과라는 사실 




통계학은 계속 발전 - 사례 및 활용분야

에비던스 활용하기!!!!




ㅇ Reference

 - Cognos 社 SPSS 社  140억달러 이상 투자 

 - 오라클, 마소, NTT데이터社 마찬가지!

 - 데이터마이닝, 기계학습, 인공지능, 자연언어처리

 - BI, 경쟁분석

 - 분석,통계 : 웹분석, A/B테스트, 통계해석


어떤 요인을 변화시켜야 이익이 향상될까? (원인발굴)

그런 변화를 일으키는 행동이 실제로 가능한가? (Possible?)

그에 따르는 비용이 이익을 상회할까? (ROI)








Posted by 억사마
카테고리 없음2014. 10. 22. 23:21

$ git log 로그를 통해 commit id 찾는다.

$ git reset --hard 7c21ab3ea  7c21ab3ea에 해당되는 push 버젼으로 local branch reset를 한다.


$ git push origin +master 강제로 conflict를 무시하고 강제로 push 


$ git stash stack 구조로 현재 local의 working tree 보관 

$ git pop  위에 쌓은걸 꺼내오기



On branch master

Your branch is up-to-date with 'origin/master'.


Changes not staged for commit:

  (use "git add <file>..." to update what will be committed)

  (use "git checkout -- <file>..." to discard changes in working directory)


        modified:   build.gradle

        modified:   pom.xml

        modified:   target/classes/META-INF/MANIFEST.MF

        modified:   target/classes/META-INF/maven/com.sds.redca/redca-common/pom

.properties

        modified:   target/classes/META-INF/maven/com.sds.redca/redca-common/pom

.xml


Untracked files:

  (use "git add <file>..." to include in what will be committed)


        .settings/gradle/


no changes added to commit (use "git add" and/or "git commit -a")

Dropped refs/stash@{0} (138b61a50719cfd06e1d0bc93ae054de4f7afa29)


SDS@SDS-PC /d/workspace/redCAGit/redca-common (master)

$


Posted by 억사마
IT/오픈소스2013. 4. 18. 13:33

현재 JMS의 Queue기능을 사용코자 고려하여 선별한 오픈소스가 현재 테스트중인 HornetQ, ActiveMQ가 있고 AMQP를 사용한 RabbitMQ 입니다. 

타룬이 결국 Queue의 대체안이 없을 경우 사용한다는 전제하이고, 윤성종책임님과 제가 진행중인것은 큐를 적용한 버젼이므로 큐에 대한 확정을 하고자 이글을 씁니다.


우선 성능비교를 해보겠습니다. 

이 자료는 구글에서 제일 상단에 조회되는 최근 벤치마킹 자료글을 참조하였습니다. (여기 참조)

시나리오는 키정보를 담기 위함이므로 메시지 사이즈는 32byte, 그리고 worst case를 고려한 200,000건의 메시지가 동시에 enqueuing과 dequeuing이 일어나는 시나리오 C를  선택하여 성능비교를 하겠습니다.

위 시나리오로 제품 비교한 그래프는 다음과 같습니다.

참고) AMQP에 대한 얘기는  이 벤치마크 자료를 보면 RabbitMQ가 AMQP와 STOMP버젼이 두개가 있어 비교를 해보면 훨씬 빠른것처럼 보이나 아래와 같이 분명 경고글은 있습니다.


그럼 결과 확인전에 상기할 것은 여기 벤치마크는 단일큐를 가지고 성능을 비교한 것입니다. 그래서 RabbitMQ나 Hornetq같이 database persistence를 지원하지 않는 JMS도 persistent라고 표현 한 것이구요. 그래서 제가 직접 이 벤치마크를 한 분에게 질문을 드렸더니 아래와 같이 상세하게 답변을 주셨습니다.  


자, 그러면 Database Persistence가 필요하다고 하면 HornetQ, RabbitMQ도 제외가 됩니다. 그리고 대안은 ActiveMQ로 가는수밖에 없구요.

어제 Tarun이 얘기한 replicatoin을 써서 failover가 커버 가능하다고 했는데 아래는 제가 찾은 인터넷에 레퍼런스 정리입니다.  

1 ) HornetQ는 JBoss Messaging Server의 자식인데, 이 부모의 Database Persistance 기능이 없어지고  File Persistance(Journal이라고 부름)로 가면서 Failover에 대해서 100% 보장은 못한다는 의견이 많다. 그리고 현재 production system에서는 여전히 JBoss Messaing Server가 Database persistence 기능 때문에 업데이트없이 여전히 많이 사용중이라고 합니다.

2)  현재 HornetQ 최근 릴리즈된 버젼에 벤치마크 관련 얘기가 830만건의 메시지를 1초에 처리한다고 성능테스트 자료도 나와있다. 하지만 메시지 유실에 가능성은 있다고 분명히 언급이 되어 있다...   


마지막으로 RabbitMQ에 대한 얘길 적어보겠습니다.  성능이 좋은 프로토콜인  AMQP 얘기가 나오면서 대안으로 나왔는데 Database Persistence 가 지원이 안됩니다. Mnesia라는 데이터베이스( 분산형 데이터베이스 소프트웨어)에 자체 내부적으로 사용하여 RAM용량이 없을 경우에만 허용한다고 한다. (여기 참조)


그래서 제 생각은 ActiveMQ로 가는게 맞다고 봅니다. Databse Persistence가 없이 Clustered Queue의 Failover 처리가 완벽하다면 성능이 좋은 RabbitMQ (AMQP) 로 가는게 좋구요.


----

같은 레드햇에서 JBoss HornetQ와 MRG에 대해 비교하는 글이 있네요

https://community.jboss.org/thread/167032?tstart=0

Posted by 억사마
IT/Tool2013. 4. 1. 15:41

Git

아래 내용은 필자의 프로젝트 적용시에 좌충우돌 겪으면서 간단한 레퍼런스는 넘어 트러블슈팅했던 내용을 담아 Git에 대해 일기같이 기록을 담아둘려고 적는 기록이다.


1. GitHub 등록

2. http://code.google.com/p/msysgit/downloads/list 가서 window용 Git 다운

3. Reference 

Git 배우는데 최고봉 -> http://learnbranch.urigit.com/

 http://rogerdudler.github.com/git-guide/index.ko.html 

 http://gitready.com/

 http://www.dreamy.pe.kr/zbxe/CodeClip/95408

 http://blog.outsider.ne.kr/865

 http://gitref.org/index.html

 http://rocksea.tistory.com/entry/github-github-%EC%82%AC%EC%9A%A9%EB%B2%95

 http://www.dreamy.pe.kr/zbxe/CodeClip/95408



git command 

 설명

 git config --list

 config 내용 조회

 git config --global http.proxy http://168.219.61.252:8080

 git proxy를 설정하는 부분(여기참조)이며 ://와 Ip사이에 id@pw로 내용을 입력하여 설정하여 사용 가능

 git config --global color.status auto  콘솔모드에서 글자 하이라이트 설정하는 명령어
 git config --global color.branch auto
 git diff  변경사항들을 diff명령으로 확인하기 
 git log  커밋 히스토리 확인하기
 git commit --amend -m "More changes - now correct"  커밋 메세지 수정하기

 git init

 저장소 만들기

 git clone https://~

 로컬로 받아오기~
 git log 로그를 통해 commit id 찾는다.
 git reset --hard 7c21ab3ea 7c21ab3ea에 해당되는 push 버젼으로 local branch reset를 한다.
 git push origin +master 강제로 conflict를 무시하고 강제로 push 
 git stash stack 구조로 현재 local의 working tree 보관 
 git pop 위에 쌓은걸 꺼내오기


 



git ignore


.gitignore 파일 입력 규칙

- 아무것도 없는 라인이나, #로 시작하는 라인은 무시한다.

- 표준 Glob 패턴을 사용한다.

- 슬래시(/)로 시작하면 하위 디렉토리에 적용되지(Recursivity) 않는다.

- 디렉토리는 슬래시(/)를 끝에 사용하는 것으로 표현한다.

- 느낌표(!)로 시작하는 패턴의 파일은 무시하지 않는다.


#Git bash 명령어 - .gitignore 적용하기


#1. .ignore파일을 작성한다.


#2. 모든 파일을 git index에서 제거 한다.(무시대상 파일 뿐만아니라 전부 index에서 삭제)

git rm -r --cached .


#3. 다시 index에 추가 한다.(이때 무시대상 파일을 제외한 나머지 파일만 추가됨)

git add .


#4. 적절한 메세지와 함께 commit

git commit -m '.gitignore 적용'


#5. 다른 사람과 공유할 준비가 되었다면 push

git push origin [branch_name]




Reference 

http://gitready.com/beginner/2009/01/21/pushing-and-pulling.html



'IT > Tool' 카테고리의 다른 글

PowerShell 익숙해지기.  (0) 2015.03.03
캡쳐부터 자동 웹업로드되는 막강 툴! Cropper!  (0) 2013.03.25
JMeter  (0) 2013.02.26
JMeter - Java Request  (0) 2013.02.18
Posted by 억사마
IT/Tool2013. 3. 25. 11:17

최근에 기술 관련 문의가 많아서 영작에도 어려움을 겪고 그림도 올리려고 하면 일일이 캡쳐하고 그걸 다시 업로드해서 붙여서 이걸 어떻게 하면 간단하게 해결할까? 하는 고민에 stackoverflow를 찾아보니 간단히 해결되는 툴을 찾았다.

Cropper라는 툴인데 플러그인까지 같이 깔면 자동으로 캡쳐도 하고 그걸 웹으로 올려주고 링크를 따주기 때문에 뭔가 그림 첨부할때 상당히 편하다고 볼 수 있다.


우선 Cropper와 확장 플러그인을 받아야한다.

1) Cropper에 가서 Downloads에서 최신 버젼 다운로드

2) Cropper 확장플러그인 사이트 가서 최신 버젼 다운로드

3) 1)번 설치하고 설치폴더하위에 plugins에 2번에서 다운로드한 걸 압축을 풀어 dll파일 추가 (C#으로 만들어진 플러그인이라고 함 dll형식)

(위는 Cropper의 Imgur 플러그인 사용하여 캡쳐해서 Imgur에 업로드하고 링크딴 걸 첨부로 붙였다.)

4) 그다음 실행하면 시스템 트레이콘으로 생기고 실행을 해보자

5) 옵션에 가서 우선 Output을 자신이 원하는 사진업로드사이트 선택하는데 저같은 경우는 Imgur로 선택을 하기로 한다. "Send to Imgur"선택 

(imageStack의 경우는 별도의 인증절차 없이 사용가능하다)


6) Imgur같은 경우 처음에만 인증키 입력을 하라고 나오면 가서 해당 사이트에 회원가입하 인증키를 받아 넣으면 사용가능




'IT > Tool' 카테고리의 다른 글

PowerShell 익숙해지기.  (0) 2015.03.03
Git  (0) 2013.04.01
JMeter  (0) 2013.02.26
JMeter - Java Request  (0) 2013.02.18
Posted by 억사마
IT/Q&A2013. 3. 19. 15:49

I did load test using jmeter.

I used two listener. one is "Response Times Over Time", and the other is "Transaction per Second".  Comparing with two listeners, I confused whether or not i know the meaning of these data is. I thought that the more the tps is higher, the more the response time is shorter. right?

But the result of data is contrary to what i thought.. is it correct?



Posted by 억사마
IT/Tool2013. 2. 26. 19:03

제일 첫 소개는 당연히 JMeter Wiki이다.

JMeter 단축키

JMeter csv 파일 읽어 User(thread)마다 가변 파라메터 셋팅하기 (여기)



그럼 실제로 한번 해보도록 하자.

우선, 아래는 JMeter를 사용한 안전성, 신뢰성, 부하, 기능 테스트를 위한 테스트 구성이다.


그리고 각 테스트에 대한 시나리오는 다음과 같다.

 안전성 테스트

 FailOver 테스트 - Single, Multi node failure시에 데이터 유실 무 검증 

 
 Aging 테스트 - 장시간동안 서버 처리 기능 검증 
 확장성 테스트

 기존 서버 구성에서 서버가 추가될 경우 부하 Rebalancing 기능 검증

 
 부하  테스트

 최대 한계에 대한 임계치를 구하고, 로드 밸런싱 기능의 성능 검증 

 
 기능 테스트

 Infinispan의 기본 기능, 그리고 추가 확장 기능 검증

 


그리고 위 테스트를 위한 환경 셋팅을 위한 변수 인자들은 다음과 같다.

JMeter 

 

Request Paramter

 
  


테스트 결과 보고서를 제공하는 JMeter의 기능 중 사용할 것을 정리했다.

 SplineVisualizer

 데이터 전송량을 그래프로 보여준다.

 View Results Tree

 각 요청건 별로 실제 송수신 데이터 보여준다. 

 Response Time Over Time

 응답시간별로 그래프 보여준다.

 Transaction Throughput vs Threads

 동시접속 사용자수에 따른 전송데이터량 

 Response Times vs Threads

 동시접속자수에 따른 응답시간의 변화 


아래는 추가로 JMeter Plugin 설치를 하여 사용할 수 있는 확장 기능을 정리했다.

 Response Times Disributions 

 x축 - 응답시간 인터벌,  y축 - 각 인터벌간 잡혀있는 샘플의 개수

 Active Threads Over Time Listener

 시간대별 살아있는 스레드의 개수

 Reponse Codes Per Second

 시간대별 Response Code 기록 (오류 발견시 아주 유용할듯 )

 Latencies Over Time

 Load Test시 Latency를 측정하는 그래프인데 별로 안좋은듯 피드백도 없고!

 Server Hits per Second

 Servers Hits 보여주는 그래프

 Bytes Throughput Over Time

 아주 중요한 그래프 (웹소켓 적용될지는 미지수)

 Composite Graph

 여러그래프를 함께 보여주도록 설정 가능



혹시 요청 url의 경우수가 많을 경우, WorkBench의 Http Proxy Server기능을 사용하여 요청 url을 레코딩할수가 있다. 


Thread Group에서의 설정값


아래는 Config Element에 잘 쓰는 놈중의 하나인 Counter 에 대한 설명이다.




아래는 ServerAgent 를 설치하여 cilent에서 서버의 cpu, memory usage 를 표로 보고 있는 그림




마지막으로 JMeter 사용시 주의사항이다.

Threads를 늘리거나 Listener를 많이 넣을 경우 메모리에 부하를 갈 수 있다. 모니터링 시간이 늘어나면 위험부담은 기하급수적으로 늘어나며 Heap 메모리 부족에러부터 다양한 리소스 부족 현상으로 빚어지는 에러로 에이징(장시간 부하)테스트등이 매끄럽게 진행이 되지 못한다.

그래서 해결방법은

리스너를 줄이거나 아니면 memory heap size를 많이 주는 것이다.

아래는 예제

Sometime I tune Jmeter options like:
JVM_ARGS="-Xms1024m -Xmx1024m -XX:+UseParallelGC -Xss1024k -XX:TenuredGenerationSizeIncrement=1m"


또하나는 Listener에 View Results Tree를 사용하지 말자!!! 기능테스트에서 사용하되, 부하테스트에서는 리소스가 없어 클라이언트가 먼저 리소스 다 잡아먹고 다운되버린다.

아래는 메뉴얼쪽 경고사항

18.3.6 View Results Tree

View Results Tree MUST NOT BE USED during load test as it consumes a lot of resources (memory and CPU). Use it only for either functional testing or during Test Plan debugging and Validation.



> Trouble Shoointg

테스트 중간에 Thread 개수가 많게 하여 테스트를 할 경우 Thread 개수가 증가하다가 나중에 그 개수가 점점 줄어들며 0으로 바뀌고 테스트가 종료가 되어야 

정확한 집계가 되는데 다음과 같이 Thread가 종료가 안되서 정확한 테스트 수치를 획득을 못할 경우가 있다. 

Q) i am running 100 threads concurrently for 5 mins using Jmeter 2.7 on website, once the execution duration is complete, it has to close all the running threads one by one and stop the execution completely, but Jmeter is left with few more threads(around 10-20 threads) without closing..

A)  

가능성 1 : those threads are still waiting on a response from the server

가능성 2 : This issue usually occurs when the requests to the application under test got high response times. The threads will be waiting for the pending response even after the specfied duration is elapsed. This can be avoided to an extent by allowing sufficient thread ramp down time or shut down time. Use Stepping thread group or ultimate thread group( these are JMeter plugins) to give an inclined ramp down instead of sudden shutdown as in normal thread group







Reference

1 : http://www.javaworld.com/javaworld/jw-07-2005/jw-0711-jmeter.html?page=1

2.  http://nico.vahlas.eu/2010/03/30/some-thoughts-on-stress-testing-web-applications-with-jmeter-part-2/

'IT > Tool' 카테고리의 다른 글

PowerShell 익숙해지기.  (0) 2015.03.03
Git  (0) 2013.04.01
캡쳐부터 자동 웹업로드되는 막강 툴! Cropper!  (0) 2013.03.25
JMeter - Java Request  (0) 2013.02.18
Posted by 억사마
IT/후기2013. 2. 23. 17:40

참가 세션 정리

- Open Source Engineering ( 지각으로 아예 참석 못함 )

- 낙타가 PaaS로 간 까닭은? (Camel로 클라우드, SNS묶기) & Hadoop 어플리케이션 테스트하기 : RedHot에서 OpenShift 광고 얘기가 주류를 이루었다. 초반에 Camel로 해서 간단한 샘플 보여주는 정도 때문에 흥미가 갈려고 했는데,, 스킵하고 Hadoop Project 테스트하는 것, 나중에 Hadoop접할때 한번 try해보면 좋다고 추천( template-map-reduce ) ( 예제 )

- Server Side Development : 연사가 조대협이라는 분인데 유명하신분인듯, 사람이 꽤 많이 모였다. 서버 사이드 아키텍쳐에 대해 설명 해주고, 현재 클라우드 컴퓨팅, IaaS로 바뀌어지는 것에 대한 과도기 설명, 전반적인 서버 구성에 대해 설명듣기 좋은 시간이었다. 그 분 블로그에 좋은 자료가 많으니 참고하도록,,

- 클라우스 서버를 활용한 서비스 개발 실습( KT Cloud BIz에 서비스 계정 얻고 APM 환경 설치하여 WordPress 설치하는 것 까지 ) ( 실습 동영상 )  (강사분 블로그)실습 스크립트 공유하는데 구글 오피스 엑셀 공유해서 쓰는데 정말 빠르더라 50명정도의 사람이 동시에 쓰는데도 정말 실시간으로 표시됨-


'IT > 후기' 카테고리의 다른 글

PyconKR 2016 정리  (0) 2016.08.16
Polyglot Programming  (0) 2015.03.13
Posted by 억사마
IT/오픈소스2013. 2. 19. 11:07

현재 수행하고 있는 프로젝트에 임의의 테이블을 만들고 데이터를 300만건을 만들려고 한다. 물론 의미있는 데이터 필요는 없지만 구색은 맞추었으면 한다. 이걸 엑셀과 VBA 사용해서 만들어볼까하다가 구글링을 혹시나 해보았다. 그런데 Data Generate 해주는 툴이 있는게 아닌가,,

이름하여, Databene Benerator이다. 

아주 오래전에 올라온 오픈소스인데 아직 버젼이 1.0 찍지는 못하였으나 리뷰를 보면 알다시피, 아는 사람은 계속 가지고 잘 사용하고 있다는 것을- 그리고 왠만한 데이터베이스와 호환이 된다. (내가 아는 데이터베이스가 많이 없어서 그럴수도 있다.)

사용법은 메뉴얼을 보면 머리가 보면 너무 복잡해지고 알아될 그 프로그램만의 용어, 그리고 개념, 구조 등등 알아야 될게 많으니 간단히 설명을 하자.


우선, 준비는 다음과 같다.

1. 여기에서 다운로드를 받자. 참고로 최신 0.97버젼인데 독일회사인지로 바꼈다. 우선 txt로 된 파일을 받아 url의 주소를 가서 받도록 하자. (0.80 버젼은 아래에서 받자)

benerator-0.8.0.a01

benerator-0.8.0.a00

benerator-0.8.0.alz


2. 압축을 폴면 bin 폴더가 있고, demo 폴더가 있다. 두개 폴더만 보면 된다. 괜히 머리아프게 딴거 보지말자. bin은 실행, 환경설정 파일이 있는거고, demo는 이 프로그램을 쓰기 위한 예제가 있다. 셋팅할게 많으니 빠른 이해와 급적용 위해서는 예제 필수 ( 필자도 그리했슴 )

3. bin폴더는 classpath를 잡아줘서 어디서든 bin\benerator 명령이 먹히도록 하자. ( 한번 쓰고 말꺼면 몰라도)

위와 같이 shop폴더를 예제를 삼은 것은 이것만 보면 다른건 다 이해가 간다. 그리고 예제 업데이트가 안되서 다른 예제는 오류가 나는 경우가 있다. deprecated된것도 아니고 아예 기능을 뺀게 있어 xml 파싱을 하다가 나는 오류가 있으니 참고 필수임돠~

설명은 h2 database 기준으로 설명을 하겠어요.  

메인이 shop.ben.xml 파일이다. 이 xml을 가지고 실제 benerator가 작업을 다하기 때문에 이 xml 구조만 설명하면 거의 아신다고 해도 무방~

위치는  BENERATOR_HOME\demo\shop\shop.ben.xml 에 있으며, 주요 태그들의 설명은 다음과 같습니다.

 exectue

 attribute의 sql문을 직접 실행시키며, create,drop DDL문을 실행시켜 셋팅작업을 하는데 사용한다.

 setup

 root태그, xsi, xsd설정, 그대로 유지

 comment  말그대로 주석태그

 import

 domains, platforms를 import

 setting

 properties 설정

 include

 property files loading

 iterate

 file에서 data들을 읽어서 consumer에 저장 

 generate

 data 생성하는 부분

 id : column name  generator : data generation func지정

 reference : FK임을 지정 targetType(Fk 관계 있는대상 테이블)

 attribute : type별 특정 값 random 추출

 consumer : 해당 데이터를 fixed length등의 포멧지정으로 외부로 export

세부 설명은 PDF(여기)를 참조하도록 한다.


하나 예를 들면, 아래 예제에서 generate 태그 propety에 count는 생성할 데이터 건수를 3백만건으로 변경하고 싶으면 아래 소스중에 db_product를 generate하는 부분에 

count 태그의 값을 3000000으로 변경하면 3백만건의 데이터가 생성이 된다.


....

실행방법은

BENERATOR_HOME\bin\benerator.bat 해당경로의 shop.ben.xml 을 참조하면 되는데 이해를 돕기 위해서 execute.xml을 제가 따로 만들었습니다.


................

<?xml version="1.0" encoding="iso-8859-1"?>

<setup 

xmlns="http://databene.org/benerator/0.7.0"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://databene.org/benerator/0.7.0 http://databene.org/benerator-0.7.0.xsd">

 

 

<!-- 도메인 정의는 생략하기로 함 -->

<!-- <import domains   = "person,net,product" /> -->

<import platforms = "db"/>

<setting name="database" default="oracle" />

<setting name="dbCatalog"  default="" />  <!-- db catalog -->

<setting name="dbSchema"   default="" />     <!-- db schema -->

<setting name="dbPassword" default="manager" />  <!-- db password -->

<setting name="dbBatch"    default="false" />  <!-- db batch -->

<setting name="row_count"    default="3000" />   <!-- db 생성할 row 카운트  -->

<!--<setting name="stage" default="development" /> --> <!-- 생략 가능  -->


<comment>import stage and database specific properties</comment>

<include uri="{ftl:${database}/shop.${database}.properties}" /> 

<!-- ftl: is the prefix used for scripting with FreeMarker Template Language -->

<!--  <include uri="{ftl:shop.${stage}.properties}" /> -->


<!--  TODO use environment file -->

    <comment>define a database that will be referred by the id 'db' subsequently</comment>

    <database id="db" url="{dbUrl}" driver="{dbDriver}" catalog="{dbCatalog}" schema="{dbSchema}"

        user="{dbUser}" password="{dbPassword}" batch="{dbBatch}" />


<!--

<comment>drop the current tables/sequences if they exist and recreate them</comment>

<execute uri="{ftl:${database}/drop_tables.${database}.sql}"   target="db" onError="ignore" /> 

<execute uri="{ftl:${database}/create_tables.${database}.sql}" target="db" />

-->


<!-- ID GENERATOR 정의 -->

<bean id="idGen" spec="new IncrementGenerator(1000)" />

<bean id="idGen1" spec="new IncrementGenerator(1)" />

<bean id="idGen2" spec="new IncrementGenerator(1)" />



<comment>Creating a valid base data set for regression testing by importing a DbUnit file</comment>

<!--<iterate source="shop.dbunit.xml" consumer="db" />-->


<!--csv -->

<comment>Importing some more predefined products from a CSV file</comment>

<!--<iterate source="products.import.csv" type="db_product" encoding="utf-8" consumer="db" /> -->

<bean id="sg" class="SequenceTableGenerator">

<property name="database" ref="db"/>

<property name="table" value="SDM_DOCUMENT"/>

<property name="column" value="DOC_ID"/>

</bean>

 

<!-- generate -->

<generate type="SDM_DOCUMENT" count="{row_count}" consumer="db">

<id name="pjt_code" type="string" generator="new IncrementalIdGenerator(10000)" />

<id name="doc_id" type="string" generator="idGen" /> 

<attribute name="gepc_type_code" values="'1','2','3', '4'"/>

<attribute name="pbs_level1_code" values="'PM','PMO','PL'"/>

<attribute name="pbs_level2_code" values="'COM','CEE','CEB'"/>

<attribute name="doc_name" values="'Buried Telephone Cable Distribution Wire Installation Details','Standard Installation Telephone Pole Lines'" />

<id name="doc_no" generator="idGen2" />

<attribute name="doc_revision_no" values="'1','2','3', '4', '5'"/>

<attribute name="doc_status_code"  values="'1','2','3', '4', '5'" />

<attribute name="delete_yn" values="'y','n'" />

<attribute name="incharge_id" values="'byunghyun.yu', 'ds.lee', 'e.joe', 'sue.park'"/>

<attribute name="incharge_name" values="'y','n'"/>

<attribute name="security_level" values="'1','2','3', '4', '5'" />

<attribute name="doc_content" values="'aaaaa','bbbbb','cccccc'" />

<attribute name="deliverable_list_name" values="'aaa','bbbb','ccccc'" />

<attribute name="task_pjt_id" values="'13579'" />

<attribute name="task_id" values="'1','2','3','4','5','6','7','8','9','10'" />

<attribute name="create_dttm"  type="date" nullable="false" />

<attribute name="create_id" values="'byunghyun.yu', 'ds.lee', 'e.joe', 'sue.park'" />

<attribute name="update_dttm"  type="date" nullable="false" />

<attribute name="update_id" values="'byunghyun.yu', 'ds.lee', 'e.joe', 'sue.park'" /> 

</generate>

</setup>

................



이렇게 실행을 하면 자동으로 database를 connection하고 지정한 테이블들의 데이터를 자동으로 generate시킵니다.

 

 

*******************************************************************************************************************
 <comment>create order items</comment>
 <generate type="db_order_item"
   count="{customer_count * orders_per_customer * items_per_order}" consumer="db">
  <variable name="product" source="db" selector="select ean_code, price from db_product" distribution="cumulated" />
        <id name="id" generator="idGen" />
  <attribute name="number_of_items" min="1" max="27" distribution="cumulated" />
  <reference name="order_id" source="db" selector="select id from db_order where id &gt; 1" cyclic="true" />
  <reference name="product_ean_code" script="product[0]" />
  <attribute name="total_price" script="product[1] * db_order_item.number_of_items" />
 </generate>

 

*******************************************************************************************************************

 

 

'IT > 오픈소스' 카테고리의 다른 글

HornetQ vs ActiveMQ vs RabiitMQ  (0) 2013.04.18
Posted by 억사마
IT/Tool2013. 2. 18. 14:35

Java Client 를 이용한 부하테스트를 위해서 JMeter 부하테스트 툴을 사용하기로 결정

  • 설치 프로그램

 프로그램

 설명

 Eclipse SDK

 소스 편집기 (텍스트 에디터도 무관) 

 Java Client 

 실제 부하 테스트 대상 클라이언트

 JMeter

 부하 테스트 툴 다운은 여기

 Maven

 실제 Exectuable Jar를 생성하기 위해Maven Assembly Plugin  사용

  • 셋팅
  1. JMeter 설치하고 나면 lib/ext 폴더에 D:\ide\apache-jmeter-2.9\lib\ext에 ApacheJMeter_core.jar, ApacheJMeter_java.jar 2개 파일들을 Client 단의 Class Path 설정 완료
  2. 실제로 테스트 코드가 들어갈 Class파일을 하나 만든다. 그 클래스는 org.apache.jmeter.protocol.java.sampler.AbstractJavaSamplerClient의 클래스를 상속받아야 한다. ( ApacheJMeter_core.jar, ApacheJMeter_java.jar 2개 사용됨)

  3. 상속을 아래하면 아래와 같이 소스를 개발하면 되는데 각 소스에 대한 설명이다. (출처)
    1) getDefaultParameters()

    This method is where you set parameters that you would like to get in JMeter Java Reqeust GUI. You do this by instantiating aorg.apache.jmeter.config.Arguments and calling its addArgument method for each parameter. For example:

    public Arguments getDefaultParameters() {
    Arguments args = new Arguments();
    args.addArgument("Service URL", "");
    args.addArgument("User Name", "");
    args.addArgument("Password", "");
    return args;
    }

    2) setupTest()

    Where you do any initialization (only once per thread) such as reading in the parameters, creating the Hessian proxy, etc. For example:

    public void setupTest(JavaSamplerContext context) {
    url = context.getParameter("Service URL");
    try {
    mySvc = (mySvcClassName)
    proxyFactory.create(mySvcClassName.class, url);
    } catch (Exception e) {
    e.printStackTrace();
    throw new RuntimeException("Error getting hessian proxy", e);
    }
    }

    3) runTest()

    JMeter will invoke it for each iteration of the test. This is where you would put code that invokes the service's methods and evaluate its result. The method returns a "org.apache.jmeter.samplers.SampleResult" object which is what you use to communicate the results to JMeter. For example:

    public SampleResult runTest(JavaSamplerContext context) {
    SampleResult result = new SampleResult();
    result.setSampleLabel("Call Hessian SVC");
    result.setDataType(SampleResult.TEXT);
    result.sampleStart();
    try {
    String custId = mySvc.authenticate(context.getParameter("User Name"), context.getParameter("Password"));
    if (custId == null) {
    result.setSuccessful(false);
    result.setResponseMessage("user authentication failed");
    result.setResponseData("Returned customer id is null".getBytes());
    }
    else {
    result.setSuccessful(true);
    result.setResponseCodeOK();
    result.setResponseMessage("Authentication successful");
    result.setResponseData(("customer id: " + custId).getBytes());
    }
    }
    catch (Throwable e) {
    StringWriter sw = new StringWriter();
    e.printStackTrace(new PrintWriter(sw));
    result.setSuccessful(false);
    result.setResponseMessage("Unexpected exception");
    result.setResponseData(sw.toString().getBytes());
    }

    result.sampleEnd();
    return result;
    }

    In the example above, the method setSuccessful indicates if the test passed or failed. The setting of the responseData is used for displaying whatever information you want in the response data tab of JMeter's "View Results Tree" listener.

    4) teardownTest()

    Where you do cleanup. Typically there is nothing you need to do here.

  4. 3번의 설명을 숙지하고 테스트 진행을 위한 테스트 코드를 삽입한다. 아래는 예제다.
    import org.apache.jmeter.config.Arguments;
    
    import org.apache.jmeter.protocol.java.sampler.AbstractJavaSamplerClient;
    
    import org.apache.jmeter.protocol.java.sampler.JavaSamplerContext;
    
    import org.apache.jmeter.samplers.SampleResult;
    
    import org.apache.jmeter.threads.JMeterContextService;
    
    import org.apache.jmeter.threads.JMeterVariables;
    
    
    
    
    
    public class JMeterTest extends AbstractJavaSamplerClient {
    
    
    
    
    
    	@Override
    
    	public SampleResult runTest(JavaSamplerContext arg0) {
    
    
    
    		JMeterVariables vars = JMeterContextService.getContext().getVariables();
    
    	    vars.put("demo", "demoVariableContent");
    
    	    
    
    	    System.out.println( " runTest() :: " +  arg0.getParameter("Service URL") );
    
    	    
    
    	    SampleResult sampleResult = new SampleResult();
    
    	    sampleResult.setSuccessful(true);
    
    	    sampleResult.setResponseCodeOK();
    
    	    sampleResult.setResponseMessageOK();
    
    	    return sampleResult;
    
    	}
    
    	
    
    	@Override
    
    	public Arguments getDefaultParameters() {
    
    
    
    		Arguments args = new Arguments();
    
    		
    
    		args.addArgument("Service URL", "127.0.0.1");
    
    		args.addArgument("Service IP", "8080");
    
    		args.addArgument("Service PORT", "8080");
    
    		args.addArgument("Call Count", "1000");
    
    		
    
    		//return super.getDefaultParameters();
    
    		return args;
    
    		
    
    	}
    
    	
    
    	@Override
    
    	public void setupTest(JavaSamplerContext context) {
    
    		// TODO Auto-generated method stub
    
    		//super.setupTest(context);
    
    		
    
    		String url = context.getParameter("Service URL");
    
    		System.out.println(url);
    
    		if(url.equals("127.0.0.1")) System.out.println("it's right!");
    
    		else System.out.println("It's wrong!");
    
    		
    
    	}
    
    	
    
    	@Override
    
    	public void teardownTest(JavaSamplerContext context) {
    
    		
    
    		System.out.println("It's all done~~ ");
    
    
    
    		super.teardownTest(context);
    
    	}
    
    	
    
    
    
    }
    

  5.  Exectuable Jar로 생성 (Maven Assembly Plugin 설명을 따라서 진행하면 간단히 생성 가능)
  6. 1)번 과정에서 생성된 jar를 jmeter의 lib하위 폴더에 넣고 bin\jmeter.bat를 실행시킨다.
  7. 아래 그림을 보면 Name하고 Comment는 원하는 테스트명을 넣고 ClassName이 중요하다 여기에서 내가 실행가능한 ClassName이 뜨면 된다.  

  8. 그러면 Thread Group 하위의 각종 보고 싶은 유형의 결과 리포트( Summary Report View Results in Tables등)의 유형을 선택하여 Run으로 돌리고 나서 결과 확인
  • 테스트 그럼 완ㄹ.


뱀다리) m2clipse와 cmd창에서 직접 실행시킨 maven하고 차이가 발생한다. 이유는 모르겠다. 

cmd창에서는 timeout이 계속 발생해서 dependency 라이브러리를 가져오지 못하고 

m2clipse는 문제가 없다. 이거 왜 이러지??!    다만.. 오류가 왕창 떨어질뿐..

아직도 메이븐 초보에서 벗어나긴 힘든가봐.










'IT > Tool' 카테고리의 다른 글

PowerShell 익숙해지기.  (0) 2015.03.03
Git  (0) 2013.04.01
캡쳐부터 자동 웹업로드되는 막강 툴! Cropper!  (0) 2013.03.25
JMeter  (0) 2013.02.26
Posted by 억사마