Miner

스트리밍 데이터 처리(1) 본문

데이터 엔지니어링/실시간 처리

스트리밍 데이터 처리(1)

MineTime76 2024. 2. 9. 21:45

Kafka / Spark Streaming

 

구글이 데이터 분야에 끼친 영향

구글이 데이터 분야에 미친 영향은 하둡 등을 통한 배치 프로세싱부터 시작해서 텐서플로우, K8s 등 이루 말 할 수 없다. 

 

1.  구글 검색 엔진의 등장

 

기존의 검색 엔진은 기본적으로 웹 페이지 상의 텍스트를 보고 랭킹을 결정 -> 신뢰가 높은 결과가 나오지 않게 됨

구글은 웹 페이지들간의 링크를 기반으로 중요한 페이지를 찾아서 검색 순위 결정 (페이지 랭크 논문)

2004년 여름에 상장, 2021년 2월 기준 1.41T로 급성장 / 검색 마케팅 플랫폼으로 확장, 안드로이드 개발로 모바일 생태계 지배, 유튜브 인수를 통한 스트리밍 시장 석권

다양한 논문 발표와 오픈소스 활동으로 개발자 커뮤니티에 큰 영향을 미침

 

페이지 랭크 

더 중요한 페이지는 더 많은 다른 사이트로부터 링크를 받는 다는 관찰에 기초

중요한 페이지가 링크를 건 페이지들 역시 상대적으로 중요한 페이지라는 관찰에 기초

웹 페이지의 중요도를 계산해서 50번 정도 반복해서 더 이상 점수가 변하지 않을 때 멈춘다

많은 회사들이 논문을 알고 있었으나 대용량 컴퓨팅 인프라(분산 시스템)와 소프트웨어 없이는 할 수 없었음

나중에 구글 검색엔진 아키텍처를 논문으로 외부에 공개

 

주기적 검색 인덱스 빌딩

 

 

빅데이터 시대의 도래

검색엔진은 기본적으로 대량의 데이터를 처리하게 된다

수백 조개의 웹페이지를 크롤하고 거기서 나온 텍스트로부터 색인 추출

웹페이지 그래프를 기반으로 페이지랭크 계산

검색시 대용량 인덱스를 뒤져서 최적의 결과를 찾아내야함

다양한 언어 지원이 필요

사용자 검색어와 클릭로그를 기반으로 한 각종 마이닝

  • 동의어 찾기
  • 통계기반 번역
  • 검색입력 자동 완성

구글 랩에서 두 개의 기념비적인 논문을 발표

  • 2003년 The Google File System
  • 2004년 MapReduce: Simplified Data Processing on Large Cluster

이를 바탕으로 하둡이라는 오픈소스 프로젝트가 시작되고 빅데이터 처리를 가능하게 해준다.  

 

검색 기술과 검색 마케팅의 결합 - 구글 애드워즈

2016 - AlphaGo, TensorFlow

2017 - Kubernetes, Transformer Architecture

2018 - Bert

 

배치 중심 ~> 실시간 중심으로 이동