빅데이터응용

·2021년 9월 25일
0

빅데이터

목록 보기
2/5

Problems Suited for MapReduce

Remind


1. 컴퓨터가 커다란 텍스트 파일을 분할하여 저장하고 있다.
2. 한번 쭉 읽어서 각각의 단어가 한번씩 나왔음을 의미하는 key-value 쌍을 만든다.
3. group by key를 하여 키 값이 같은 것끼리 묶어준다.
4. reduce를 실행하여 키 값이 같은 것끼리의 value를 전부 더하여 하나로 합친다.

사용되는 곳 : Host Size, Language Model(기계 번역), Join연산

  • join 연산 MapReduce
    공통적인 특성을 키 값으로 잡아서 group by key하면 된다.
    이때, 같은 테이블 끼리의 group by key를 맊기 위해 value에 자신의 테이블을 기입한다.

mapReduce가 훌륭한 경우:
1. 순차적인 데이터 접근이 필요한 경우
2. 커다란 batch 작업을 해야하는 경우(한번에 천천히 해도 되는 작업)

mapReduce가 적합하지 않은 경우:
1. graphs
2. interdependent data(머신 러닝, 여러 페어의 아이템을 비교)

profile

0개의 댓글