아티클 목록

#DATA

당근에서 정보 유실 없이 업체 정보를 모으는 방법

당근 로컬 비즈니스 플랫폼에서는 업체 정보를 다양한 방법으로 수집하고 있으며, 중복 프로필 병합과 정보 유실 방지 정책을 도입했습니다. 변경 이력 기반의 Composite S...

당근마켓 · 2025.06.26

#DATA

AWS Glue ETL을 활용한 CRM 데이터의 효율적인 병렬처리 전략

노티플라이의 ETL 아키텍처는 AWS Glue, Step Functions, EventBridge, Lambda를 활용하여 고객별 캠페인 성과 데이터를 실시간에 가깝게 분석하...

AWS코리아 · 2025.06.26

#DATA

밑바닥부터 시작하는 실시간 데이터 파이프라인 : Debezium 톺아보기

Debezium은 로그 기반 CDC를 지원하는 오픈소스로, Kafka Connect 위에서 동작하여 데이터베이스 변경 사항을 실시간으로 Kafka로 스트리밍합니다. 초기 스냅...

요기어때 · 2025.06.26

#DATA

늘어가는 조회트래픽 Elasticsearch로 분산시키기

네이버 기술 교류 행사에서 트래픽 증가에 대응하기 위해 플레이스 조회 트래픽을 메인DB 대신 Elasticsearch(Opensearch)로 분산한 경험을 공유하며, CQRS...

네이버 · 2025.06.25

#DATA

Scaling Pinterest ML Infrastructure with Ray: From Training to End-to-End ML Pipelines

Pinterest는 Ray를 활용해 ML 데이터 파이프라인을 통합 확장하여 피처 개발, 샘플링, 레이블링 등 전반적인 업무를 빠르고 효율적으로 처리하도록 개선하였다. Iceb...

핀터레스트 · 2025.06.25

#DATA

알리는사람들의 Amazon Data Firehose로 Amazon DynamoDB를 Amazon S3 tables로 실시간 복제하기

알리는사람들은 클라우드 네이티브 메시징 플랫폼 '센드온'을 개발했으며, 실시간 데이터를 Apache Iceberg 테이블로 전환하는 서버리스 데이터 파이프라인을 구축하여 분석...

AWS코리아 · 2025.06.17

#DATA

데이터는 흐른다, 연결될 준비가 되었다면

네이버 웹툰의 Cohort System은 유저 세그먼트를 쉽게 정의하고 다양한 액션 채널과 자동 연동하는 시스템으로, 조건 필터링, ML 모델 활용, 중복 제거 기능을 포함합...

네이버 · 2025.06.13

#DATA

Model Once, Represent Everywhere: UDA (Unified Data Architecture) at Netflix

넷플릭스는 시스템 간 데이터 모델의 일관성 부족 문제를 해결하기 위해 UDA(통합 데이터 아키텍처)를 구축하였으며, 도메인 모델을 재사용하고 schema 생성, 데이터 이동,...

넷플릭스 · 2025.06.12

#DATA

Amazon Athena + Quicksight 사용한 데이터 시각화

AWS의 Amazon Athena와 QuickSight를 이용하여 S3 저장 로그 데이터 분석 및 시각화를 간단하게 수행하는 방법을 설명한다. Athena로 데이터를 분석하고...

교보DTS · 2025.06.12

#DATA

AI 실시간 추천 시스템을 위한 Flink 기반 스트림 조인 서비스 구축기

Azar의 AI 기반 실시간 매칭 시스템은 Flink의 KeyedProcessFunction과 TimerService를 활용하여 사용자 이벤트들을 정교하게 조합하고 지연 시간...

하이퍼커넥트 · 2025.06.11

검색 결과 70건