FUN

연구참여 - Hadoop 본문

Geek/Geek의 눈으로 바라보기

연구참여 - Hadoop

gofeel 2009. 2. 28. 01:58
(정리중)

시작

시작은 Simple했다. 큰 데이터를 가지고 놀아보고 싶었고, BigTable과 그 구현품들을 테스트 해보고 싶었다. 물론 OS를 가르치셨던 황승원교수님이 DB가 전공이라는 것도 한몫했다.

준비

Bigtable과 관련된 자료와 글들을 읽으며 방학을 시작. BigTable을 써먹을 아이디어를 생각하기 시작함. 방학이 시작된 이후 연구참에 대한 교수님의 제안은 아래의 두가지를 해보는 것.

진행

Hadoop설치부터 난관. 아놔.


생각한 것들

 1. MapReduce는 생각도구이다. 크고 복잡한 자료를 어떻게 처리할 것인가에 대한 생각을 정리하고 풀어주는 도구이다. 작은 데이터들을 처리할 꺼라면 그냥 Funtional language를 비슷하게 이용하는 것도 괜찮을까?? 쨌든 MR식의 데이터 처리를 가끔씩 써먹게 될 것 같다.
 2. MapReduce를 구동하기 위해 필요한 것은 failure에 강한 File System이다. I/O의 비중을 늘리는 대신에 나머지의 부담을 줄였다. GFS->MapReduce->BigTable의 순으로 구글에서 논문이 나온 것도 다 이유가 있다고 할 수 하겠다.
 3. GFS & MR은 경쟁이 아닌 필요에 의해서 만들어진 물건이다. 특히 개발자의 필요. 남이 한다고 하니 공개하고, 남이 한다고 하니 만들어서는 아무 것도 하지 못한다.
 4. 조금 더 발전이 필요하겠지만, Hadoop firm과 PIG는 갈수록 사용되는 곳과 필요성이 커질 것이다. 특히 비개발자들을 위해서 더 다듬어지고 사용될 것.....
 5. 더 빠르고 정교한 자료 처리는 더 좋은 선택을 낳는다. 이번에 처리하였던 웹 서버의 로그 분석만으로도 많은 일들을 할 수 있다. 왜 Google일까라는 질문의 답 중하다는 이것이다.

기타
음 이것도 함 봐야할텐데...
http://developer.yahoo.net/blogs/theater/archives/2009/02/lightning_talk_hadoop.html