https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/
- 데이터 전문가들을 인터뷰하여 정리한 최신 데이터 인프라스트럭처 관련 정보 및 용어 설명
- 데이터 분야 전반을 이해하기에 정말 좋은 6장짜리 PDF
ㅤ1장으로 보는 통합 데이터 인프라 개념도
ㅤ1. Sources : 비즈니스 및 운영 데이터를 생성
ㅤㅤ→ㅤOLTP DB via *CDC
ㅤㅤ→ㅤApplications/ERP(Oracle,Salesforce,Netsuite) : 비즈니스에서 발생하는 모든 데이터
ㅤㅤ→ㅤEvent 수집기(Segment,Snowplow) : 서비스 사용자의 모든 이벤트를 수집
ㅤㅤ→ㅤLogs : 웹서버 및 각종 서버들의 로그
ㅤㅤ→ㅤ써드파티 API(Stripe등) : 결제 및 기타 사용API 들에서 발생되는 데이터
ㅤㅤ→ㅤ파일과 객체 스토리지
ㅤ2. Ingestion and Transformation : 요즘은 ETL to ELT, Extract / Load / Transform
ㅤㅤ운영시스템에서 데이터 추출(E) / 저장소로 옮기고(L) / 데이터를 분석용으로 변환(T)
ㅤㅤ→ㅤConnector(Fivetran, Stitch, Matillion) : 여러 소스에서 DW로 데이터를 옮기는 도구
ㅤㅤ→ㅤData Modeling (dbt, LookML) : 데이터 모델링 및 변환
ㅤㅤ→ㅤWorkflow Manager (Airflow, Dagster, Prefect) : 데이터 흐름 자동화를 위한 오케스트레이터 / 스케줄러
ㅤㅤ→ㅤSpark Platform (Databricks, Amazon EMR) : 분산처리를 위한 고성능 클러스터링 플랫폼
ㅤㅤ→ㅤPython Libs : 데이터분석 라이브러리 - Pandas, AWS 인터페이스 - Boto, 대용량 병렬처리용 Dask, 분산처리용 Ray..
ㅤㅤ→ㅤBatch Query Engine (Hive) : 빅데이터 쿼리
ㅤㅤ→ㅤEvent Streaming (Confluent/Kafka, Pulsar, AWS Kinesis) : 실시간 메시징/스트리밍 플랫폼
ㅤㅤ→ㅤStream Processing (Databricks/Spark, Confluent/Kafka, Flink) : 스트리밍 데이터를 수집/처리 및 분석
ㅤ3. Storage : 쿼리 및 처리가능한 형태로 데이터를 저장. 저비용, 확장성 및 분석작업에 대해 최적화.
ㅤㅤ→ㅤData Warehouse ( Snowflake, BigQuery, Redshift ) : 분석 가능한 정보들을 모은 데이터 통합 저장소
ㅤㅤ→ㅤData Lake : DW와 달리 정제하지 않은 정형/비정형 원시데이터를 저장
ㅤㅤㅤㅤㅤDatabricks/Delta Lake(Spark와 S3/HDFS 등에 ACID 트랜잭션이 가능하게하는 데이터 레이크),
ㅤㅤㅤㅤㅤApache Iceberg(페타단위를 저장하는 초대형 테이블 포맷, Netflix가 개발),
ㅤㅤㅤㅤㅤApache Hudi(효율적인 데이터 레이크, Uber가 개발), Hive Acid
ㅤㅤ→ㅤApache Parquet - 컬럼기반 저장 포맷
ㅤㅤㅤㅤApache ORC - Optimized Row Columnar, 컬럼단위로 기록하며 인덱스도 함께 기록
ㅤㅤㅤㅤApache Avro - 로우단위 기록, 쓰기에 적합, 스키마 진화에 적합
ㅤㅤ→ㅤAWS S3(Simple Storage Service), GCS(Google Cloud Storage), ABS(Azure Blob Storage), HDFS(Hadoop Distributed File System)
ㅤ4&5. Historical & Predictive : 분석가 및 데이터 사이언티스트가 인사이트를 도출하기 위한 인터페이스(쿼리)를 제공
ㅤㅤ Historical : 과거에 무슨일이 일어났나를 설명. 아주 최근(거의 실시간) 포함
ㅤㅤ Predictive : 미래 예측, 데이터기반/ML 어플리케이션
ㅤㅤ→ㅤData Science Platform (Databricks, Domino, Sagemaker, Dataiku, DataRobot, Anaconda, ...)
ㅤㅤ→ㅤData Science and ML Libraries ((Pandas, Numpy, R, Dask, Ray, Spark, Scikit-learn, Pytorch, TensorFlow, Spark ML, XGBoost, )
ㅤㅤ→ㅤAd Hoc Query Engine (Presto, Dremio/Drill, Impala)
ㅤㅤ→ㅤReal-time Analytics : Imply/Druid - 실시간 분석, Altinity/Clickhouse - OLAP, Rockset - 상용 실시간분석엔진(고성능 KV 임베디드 DB인 RocksDB 기반)
ㅤ6. Output : 데이터 분석 결과를 내/외부에 보여주는 도구. 만들어진 데이터 모델을 운영시스템과 어플리케이션에 임베드
ㅤㅤ→ㅤDashboards : Looker, Apache Superset, Mode, Tableau - Business Inteligence 도구
ㅤㅤ→ㅤEmbedded Analytics : Sisense, Looker, cube.js - BI 도구를 내부 시스템에 임베드. API 기반. 내부 분석앱을 생성가능
ㅤㅤ→ㅤAugmented Analytics : Thoughtspot, Outlier, Anodot, Sisu - AI를 이용해서 알아서 분석해주는 도구
ㅤㅤ→ㅤApp Frameworks : Plotly Dash, Streamlit - ML App을 만들수 있게 해주는 프레임워크
ㅤ7. 그외
ㅤㅤ→ㅤMetadata Management (Collibra, Alation, Hive Metastore, DataHub, ...)
ㅤㅤ→ㅤQuality and Testing (Great Expectations)
ㅤㅤ→ㅤEntitlements and Security (Privacera, Immuta)
ㅤㅤ→ㅤObservability (Unravel, Accel Data, Fiddler)
2. 세가지 주요 분야별 블루프린트
ㅤ→ 최신 비즈니스 인텔리전스(BI)
ㅤ→ 멀티모달 데이터 프로세싱
ㅤ→ AI 와 ML 분야
언어를 감지 갈리시아어 구자라트어 그루지야어 그리스어 네덜란드어 네팔어 노르웨이어 덴마크어 독일어 라오어 라트비아어 라틴어 러시아어 루마니아어 룩셈부르크어 리투아니아어 마라티어 마오리어 마케도니아어 말라가시어 말라얄람어 말레이어 몰타어 몽골어 몽족 미얀마어 (버마어) 바스크어 베트남어 벨로루시어 벵골의 보스니아어 불가리아어 사모아어 세르비아어 세부아노 세소토어 소말리아어 쇼나어 순다어 스와힐리어 스웨덴어 스코틀랜드 게일어 스페인어 슬로바키아어 슬로베니아어 신디어 신할라어 아랍어 아르메니아어 아이슬란드어 아이티 프랑스 말 아일랜드어 아제르바이잔어 아프리칸스어 알바니아어 암하라어 에스토니아어 에스페란토 말 영어 요루바어 우르두어 우즈베크어 우크라이나어 웨일즈어 이그보어 이디시어 이탈리아어 인도네시아어 일본어 자바어 줄루어 중국어(간체) 중국어(번체) 체와어 체코어 카자흐어 카탈로니아어 칸나다어 코르시카어 코사어 쿠르드어 크로아티아어 크메르어 키르기스어 타갈로그어 타밀어 타직어 태국어 터키어 텔루구어 파슈토어 펀자브어 페르시아어 포르투갈어 폴란드어 프랑스어 프리지아어 핀란드어 하와이 사람 하우사어 한국어 헝가리어 히브리어 힌디어
갈리시아어 구자라트어 그루지야어 그리스어 네덜란드어 네팔어 노르웨이어 덴마크어 독일어 라오어 라트비아어 라틴어 러시아어 루마니아어 룩셈부르크어 리투아니아어 마라티어 마오리어 마케도니아어 말라가시어 말라얄람어 말레이어 몰타어 몽골어 몽족 미얀마어 (버마어) 바스크어 베트남어 벨로루시어 벵골의 보스니아어 불가리아어 사모아어 세르비아어 세부아노 세소토어 소말리아어 쇼나어 순다어 스와힐리어 스웨덴어 스코틀랜드 게일어 스페인어 슬로바키아어 슬로베니아어 신디어 신할라어 아랍어 아르메니아어 아이슬란드어 아이티 프랑스 말 아일랜드어 아제르바이잔어 아프리칸스어 알바니아어 암하라어 에스토니아어 에스페란토 말 영어 요루바어 우르두어 우즈베크어 우크라이나어 웨일즈어 이그보어 이디시어 이탈리아어 인도네시아어 일본어 자바어 줄루어 중국어(간체) 중국어(번체) 체와어 체코어 카자흐어 카탈로니아어 칸나다어 코르시카어 코사어 쿠르드어 크로아티아어 크메르어 키르기스어 타갈로그어 타밀어 타직어 태국어 터키어 텔루구어 파슈토어 펀자브어 페르시아어 포르투갈어 폴란드어 프랑스어 프리지아어 핀란드어 하와이 사람 하우사어 한국어 헝가리어 히브리어 힌디어
음성 기능은 200자로 제한됨