일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 마운트
- 핵심 데이터 모델링
- 실시간 스트리밍 데이터
- 텀블링 윈도우
- 핵기계어
- InnoDB
- 밑바닥부터 만드는 운영체제
- 도커
- ec2
- 스트리밍 데이터 아키텍쳐
- 분산추적
- 리눅스
- 스택머신
- MySQL
- nandtotetris
- Terraform
- 스트리밍 아키텍쳐
- jack 문법
- apm
- APM 만들기
- 메모리 세그먼트
- 시간 윈도우
- 밑바닥부터 만드는 컴퓨팅 시스템
- 구문 분석
- 컴퓨터 아키텍쳐
- s3
- dff
- vm머신
- vm번역기
- 피벗 추적
- Today
- Total
목록데이터 파이프라인 아키텍쳐 3
이것이 점프 투 공작소

스트리밍 시스템에서 모은 많은 데이터들은 시스템 안에서 효율적으로 분석되고 집계되어야합니다.아무래도 실시간이고 방대한 데이터를 대상으로 하는 만큼 '확률적인 알고리즘'이 많이 사용됩니다.또 대량의 데이터에 대해서 랜덤 추출, 카더널리티, 빈도, 이전 유입 여부를 확인하는 4개의 알고리즘들에 알아보겠습니다.무작위 샘플 데이터 추출 - 레저부아 샘플링ReserviorSampling스트림 데이터에서 무작위로 샘플 데이터 추출이 필요할 때가 있습니다.만약 시스템에서 분당 1,000만 건의 로그가 들어온다고 했을 때, 우리는 모든 로그를 다 메모리에 저장해서 빠르게 분석할수는 없습니다.이런 상황에서는 랜덤 표본 데이터를 추출해서 원하는 비즈니스 결과를 만들 수 있습니다. 레저부아 샘플링 알고리즘은 스트림 데..

이전 포스팅에 이어서 스트리밍 시스템에서 사용하는 패턴의 아키텍쳐를 공부해보고자 합니다.실시간 데이터 파이프라인 아키텍쳐를 보고 공부한 내용을 다룹니다!스트리밍 데이터 아키텍쳐스트리밍 아키텍쳐는 크게 6가지 단계로 나눌 수 있습니다.본 포스팅에서는 수집, 접근 단계에 대해 정리해 보려합니다.수집열심히 수집하고 분석한 데이터는 비즈니스에 맞게 적절하게 저장되어야합니다.장기 스토리지Long−termstorage에 저장스트리밍 시스템에서 처리한 데이터를 S3, HDFS 또는 RDBMS와 같은 장기 저장소에 저장하는 경우가 있습니다.이는 주로 배치 또는 오프라인 접근을 위한 저장입니다. 분석단계에서 매시지를 보낼때 즉시 저장하거나, 배치로 장기 저장소에 저장할수도 있지만,배치로더를 통해 저장할수도 있습니다..

일반적인 스트리밍 시스템에서 사용하는 패턴의 아키텍쳐를 공부해보고자 합니다.실시간 데이터 파이프라인 아키텍쳐를 보고 공부한 내용을 다룹니다!스트리밍 데이터 아키텍쳐스트리밍 아키텍쳐는 크게 6가지 단계로 나눌 수 있습니다.수집 단계클라이언트에서 생성되는 데이터가 시스템에 들어오는 스트리밍 시스템의 첫 단계입니다.수집을 위한 몇가지 패턴들이 존재하며 이중 하나를 선택하여 사용합니다.요청/응답 패턴발행/구독 패턴단방향 패턴요청/확인응답 패턴스트림 패턴요청/응답 패턴 Request/responsepattern클라이언트가 서버로 요청을 보내면 서버가 응답하는 웹 브라우저에서 자주 사용되는 일반적인 패턴입니다.반비동기Half−async, 비동기Full−async 방식으로 요청/응답 패턴을 구현할 수 있..