'데이터 파이프라인 아키텍쳐' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록데이터 파이프라인 아키텍쳐 $3$

이것이 점프 투 공작소

실시간 대용량 데이터에서 사용되는 알고리즘 $Reservoir Sampling, HLL, CMS,Bloom Filter$ 들에 대해 알아보자

스트리밍 시스템에서 모은 많은 데이터들은 시스템 안에서 효율적으로 분석되고 집계되어야합니다.아무래도 실시간이고 방대한 데이터를 대상으로 하는 만큼 '확률적인 알고리즘'이 많이 사용됩니다.또 대량의 데이터에 대해서 랜덤 추출, 카더널리티, 빈도, 이전 유입 여부를 확인하는 4개의 알고리즘들에 알아보겠습니다.무작위 샘플 데이터 추출 - 레저부아 샘플링 $Reservior Sampling$ 스트림 데이터에서 무작위로 샘플 데이터 추출이 필요할 때가 있습니다.만약 시스템에서 분당 1,000만 건의 로그가 들어온다고 했을 때, 우리는 모든 로그를 다 메모리에 저장해서 빠르게 분석할수는 없습니다.이런 상황에서는 랜덤 표본 데이터를 추출해서 원하는 비즈니스 결과를 만들 수 있습니다. 레저부아 샘플링 알고리즘은 스트림 데..

데이터 파이프라인 아키텍쳐 2025. 5. 30. 22:53

스트리밍 데이터 아키텍쳐- 2 저장소, 접근

이전 포스팅에 이어서 스트리밍 시스템에서 사용하는 패턴의 아키텍쳐를 공부해보고자 합니다.실시간 데이터 파이프라인 아키텍쳐를 보고 공부한 내용을 다룹니다!스트리밍 데이터 아키텍쳐스트리밍 아키텍쳐는 크게 6가지 단계로 나눌 수 있습니다.본 포스팅에서는 수집, 접근 단계에 대해 정리해 보려합니다.수집열심히 수집하고 분석한 데이터는 비즈니스에 맞게 적절하게 저장되어야합니다.장기 스토리지 $Long-term storage$ 에 저장스트리밍 시스템에서 처리한 데이터를 S3, HDFS 또는 RDBMS와 같은 장기 저장소에 저장하는 경우가 있습니다.이는 주로 배치 또는 오프라인 접근을 위한 저장입니다. 분석단계에서 매시지를 보낼때 즉시 저장하거나, 배치로 장기 저장소에 저장할수도 있지만,배치로더를 통해 저장할수도 있습니다..

데이터 파이프라인 아키텍쳐 2025. 5. 18. 21:01

스트리밍 데이터 아키텍쳐-1 수집 단계, 큐, 분석 단계

일반적인 스트리밍 시스템에서 사용하는 패턴의 아키텍쳐를 공부해보고자 합니다.실시간 데이터 파이프라인 아키텍쳐를 보고 공부한 내용을 다룹니다!스트리밍 데이터 아키텍쳐스트리밍 아키텍쳐는 크게 6가지 단계로 나눌 수 있습니다.수집 단계클라이언트에서 생성되는 데이터가 시스템에 들어오는 스트리밍 시스템의 첫 단계입니다.수집을 위한 몇가지 패턴들이 존재하며 이중 하나를 선택하여 사용합니다.요청/응답 패턴발행/구독 패턴단방향 패턴요청/확인응답 패턴스트림 패턴요청/응답 패턴 $Request/response pattern$ 클라이언트가 서버로 요청을 보내면 서버가 응답하는 웹 브라우저에서 자주 사용되는 일반적인 패턴입니다.반비동기 $Half-async$ , 비동기 $Full-async$ 방식으로 요청/응답 패턴을 구현할 수 있..

데이터 파이프라인 아키텍쳐 2025. 5. 4. 00:20

이전 Prev 1 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 $권한 있는 경우$	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

이것이 점프 투 공작소

목록데이터 파이프라인 아키텍쳐 $3$

이것이 점프 투 공작소

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

목록데이터 파이프라인 아키텍쳐 33

이것이 점프 투 공작소

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

목록데이터 파이프라인 아키텍쳐 $3$