머하웃 완벽 가이드(Mahout in Action): 하둡에 딱 맞는 빅데이터를 활용한 기계학습-한빛미디어

책이야기2012. 11. 26. 11:29
728x90

Mahout in Action

Mahout은 아파치 오픈소스이며, Hadoop을 활용할 수 있는 Machine learing library 이다.
일반적으로 기계학습으로 알려진 알고리즘을 Map/Reduce을 활용할 수 있도록 해준다. 

기계학습이 활용되는 부분이 많지 않아서 Mahout을 알고 있으신분은 적을 듯 하다. 저 역시 몰랐다. 

Hadoop같은 분산환경에서 Map/Reduece 환경에서 개발하는 건 생각보다 쉬운 작업이 아니다.
개별 프로그래밍과는 다르다는 걸 많이 느낄 것이다. Mahout를 이러한 부분을 Map/Reduce 작업을 대한 고민을 덜어 주기 때문에 매력을 느낄 수 있을 듯 하다. 

IT를 전공하시는 분도 기계학습에 대한 내용은 익숙하지 않을 것이다.
기계학습은 간단히 말해서 기계가 스스로 학습한다는 뜻이다. 기계가 인공적으로 자료를 분류해주고 나눠주고 추천해준다고 생각하시면 된다.  대용량에 데이터에서 사람이 직접 분류하거나  의미있는 단어를 추천하거나 나누는것은 거의 불가능한 일이다. 

책 내용은은 크게 3가지 주제로 이루어지고 있다.

1. 추천(Recommendations) 도서몰이라면 나에게 필요한 도서를 추천하는 역할을 한다. 포탈의 추천어 등등 
2. 군집(Clustering) 포탈에서 쉽게 볼 수 있는 신문기사를 비슷한 영역끼리 엮어서 보이는 걸 말한다. 
3. 분류(Classification) 으로 나눠지고 있다. 정해진 카테고리내에 특정 문서나 데이터가 자동으로 분류처리되록 하는 부분을 말한다.

각 차트별로 기계학습에 활용되는 알고리즘에 대한 기본적인 설명과 장단점에 대해서 이야기해주고 있다. 그리고 MAHOUT에 적용하는 방법을 이야기하고 있다. 알고리즘마다의 특성을 파악하고 다루고자하는 데이터 특성에 맞게 잘 활용하는게 중요할 것 이다. 기계학습이 정확한 정답이 없는 관계로 어떠한 조건이 가미될때마다 결과값이 많이 틀려지기 때문에 정확도를 높이기 위해서 많은 노력이 필요로 한다. 

분명 기계학습을 다루는 분들은 대용량 처리에 대한 고민을 많이 하고 있다.  이러한 부분을 병렬처리 혹은 분할 처리하는 방법으로 해결하고 있을 것이다. 다른 방안을 고민을 하시는 분을 Mahout을 이용하고 Hadoop으로 처리할 수 있을 듯 하다.
기계학습을 배우는 사람들은 Mahout에 Hadoop을 활용하지 않아도 동작하기 때문에 좋은 학습이 될 수 있을 듯 하다. 

 



728x90

작성자

Posted by 일퍼센트

관련 글

댓글 영역