Miner

스트리밍 데이터 처리(2) 본문

데이터 엔지니어링/실시간 처리

스트리밍 데이터 처리(2)

MineTime76 2024. 2. 9. 21:56

일반적인 데이터 처리의 단계

 

데이터 수집 (Data Collection)

데이터 저장 (Data Storage)

데이터 처리 (Data Processing)


Decision Science

의사 결정을 데이터 기반으로 과학적으로 하는 것

Product Science

우리가 만드는 서비스의 품질을 데이터를 기반으로 개선하는 것


 

처음에는 배치로 시작 ( 이 경우 처리할 수 있는 데이터의 양이 중요 )

서비스가 고도화되면 실시간 처리 요구가 생기기 시작함 ( Realtime 처리 vs Semi Realtime 처리 )

동일 데이터 소비가 필요한 케이스 증가 : 다수의 데이터 소비자 등장


처리량(Throughput) vs 지연시간(Latency)

처리량 : 주어진 단위 시간 동안 처리할 수 있는 데이터의 양

클수록 처리할 수 있는 데이터의 양이 큼을 의미, 배치 시스템에서 더 중요(예 : 데이터 웨어하우스)

지연시간 : 데이터를 처리하는 데 걸리는 시간

작을수록 응답이 빠름을 의미, 실시간 시스템에서 더 중요함(예 : 프로덕션 DB)

대역폭(Bandwidth) = 처리량 * 지연시간


SLA (Service Level Agreement)

서비스 제공업체와 고객 간의 계약 또는 합의

지연시간이나 업타임에 대한 합의 

예를 들어 업타임이 99.9% = 8시간 45분

API라면 평균 응답 시간 혹은 99% 이상 0.5초 전에 응답이 되어야 함