연구참여 - Hadoop

Notice

블로그 이전 안내

Recent Posts

Recent Comments

Link

readmore.me

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

FUN

연구참여 - Hadoop 본문

Geek/Geek의 눈으로 바라보기

연구참여 - Hadoop

gofeel 2009. 2. 28. 01:58

(정리중)

시작

시작은 Simple했다. 큰 데이터를 가지고 놀아보고 싶었고, BigTable과 그 구현품들을 테스트 해보고 싶었다. 물론 OS를 가르치셨던 황승원교수님이 DB가 전공이라는 것도 한몫했다.

준비

Bigtable과 관련된 자료와 글들을 읽으며 방학을 시작. BigTable을 써먹을 아이디어를 생각하기 시작함. 방학이 시작된 이후 연구참에 대한 교수님의 제안은 아래의 두가지를 해보는 것.

진행

Hadoop설치부터 난관. 아놔.

대부분의 사람들이 하는 방법은 이미지를 사용하는 거나 누가 만들어 놓은 환경을 이용하는 것(http://code.google.com/intl/ko-KR/edu/parallel/tools/hadoopvm/index.html) 이지만, 문제는 나 같은 경우 Main OS가 Mac인지라 Vmware player를 쓰기 힘들다는 것과 누가 만들어 놓은 환경을 쓸 수도 없다는 것. 다행히 Mac에 Single node를 설치하는 법을 찾아 설치 ( http://www.infosci.cornell.edu/hadoop/mac.html ) 그러나 최신의 Hadoop 버전은 사용불가라는 점도 확인.

eclipse설치 + MR plugin설치.(그런데 Plugin은 써본적이 없다;;)

WordCount예제( http://wiki.apache.org/hadoop/WordCount )를 가볍게 해보고 Lab 1~2를 스킵

Lab 3 PageRank는 이래저래 고난의 연속..결국 GG ㅠ_ㅠ 우선은 데이터들을 다시 돌려서 정리하는 것에 Hadoop과 아직 익숙하지 않은데 한표..PageRank와 관련된 문제들은 3개정도로 정리할 수 있었는데, 하나는 PageRank라는 것이 결국 Matrix의 곱의 극한값을 구하는 것이기 때문에, 몇번을 곱할 것인가 하는 문제. 그리고 node가 서로 값을 주고 받아 값이 왜곡되는 문제와, 외톨이 Node가 Rank를 독점하는 문제이다. 쉽지 않은 난이도라 하겠다..T_T 중간에 계단에서 넘어져 인대가 늘어나는 사고로 한 일주일 놀았고, 또 집과 서울을 가느니라 한 7일을 쓰기도 해서..결국 GG

대신한 것은 Apache log분석 11G짜리 apache 접속 로그를 가져다가(쩝..좀 더 크게 하고 싶었지만....)분석 시작.

우선 URL별로 MR을 한번 처리 한 다음에, 다시 정렬해서 가장 많이 접근한 URL을 구하고

중간에 처리된 MR을 가지고 GET값을 지우는 MR를 다시 실행해서 가장 많이 사용된 파일(물론 애매한 표현이긴하다)찾았다.

처음 MR의 결과값은 약 741MB였으며 실행시간은 32분(2.2GhzX2/2G/Mac)이었다. 나머지는 MR은 약 10~12분정도가 걸렸으며 결과물의 크기는 몇백 kb수준으로 작았다. HDD IO에 기반한 작업이다 보니..노트북으로 돌리면서 하드 고장날까 무서웠다-_-;(돈도 없는데)

생각한 것들

1. MapReduce는 생각도구이다. 크고 복잡한 자료를 어떻게 처리할 것인가에 대한 생각을 정리하고 풀어주는 도구이다. 작은 데이터들을 처리할 꺼라면 그냥 Funtional language를 비슷하게 이용하는 것도 괜찮을까?? 쨌든 MR식의 데이터 처리를 가끔씩 써먹게 될 것 같다.

2. MapReduce를 구동하기 위해 필요한 것은 failure에 강한 File System이다. I/O의 비중을 늘리는 대신에 나머지의 부담을 줄였다. GFS->MapReduce->BigTable의 순으로 구글에서 논문이 나온 것도 다 이유가 있다고 할 수 하겠다.

3. GFS & MR은 경쟁이 아닌 필요에 의해서 만들어진 물건이다. 특히 개발자의 필요. 남이 한다고 하니 공개하고, 남이 한다고 하니 만들어서는 아무 것도 하지 못한다.

4. 조금 더 발전이 필요하겠지만, Hadoop firm과 PIG는 갈수록 사용되는 곳과 필요성이 커질 것이다. 특히 비개발자들을 위해서 더 다듬어지고 사용될 것.....

5. 더 빠르고 정교한 자료 처리는 더 좋은 선택을 낳는다. 이번에 처리하였던 웹 서버의 로그 분석만으로도 많은 일들을 할 수 있다. 왜 Google일까라는 질문의 답 중하다는 이것이다.

기타

음 이것도 함 봐야할텐데...

http://developer.yahoo.net/blogs/theater/archives/2009/02/lightning_talk_hadoop.html

'Geek/Geek의 눈으로 바라보기' Related Articles

FUN

연구참여 - Hadoop 본문

연구참여 - Hadoop

티스토리툴바