Tech News

제목2021년 데이터/ML/AI 업계 지도와 최신 트렌드2021-11-02 13:03
작성자 Level 10


https://mattturck.com/data2021/

이미지 1장으로 정리한 2021 Data & AI Landscape 와 상세한 설명

1. 거시적 관점 : 생태계의 복잡성 이해하기 

2. 자금조달 , IPO 및 M&A 

3. The 2021 Landscape

4. 데이터 인프라스트럭쳐의 주요 트렌드 

ㅤ→ Data Mesh 

ㅤ→ DataOps에게 바쁜 한해 

ㅤ→ 이제는 실시간

ㅤ→ Metrics Store

ㅤ→ Reverse ETL 

ㅤ→ Data Sharing 

5. 분석 & 엔터프라이즈 AI의 주요 트렌드 

ㅤ→ Feature Store

ㅤ→ ModelOps의 부상

ㅤ→ AI 콘텐츠 생성

ㅤ→ 중국 AI 스택의 발전


## "거시적 관점 : 생태계의 복잡성 이해하기"

- 왜 데이터&AI 회사들이 계속 생겨나고, 언제까지 이렇게 갈까 ?

- 근본적인 추세는 "모든 회사는 단순한 소프트웨어 회사가 아니라 데이터 회사가 되고 있다는 것"

- 많은 조직에서 "데이터"는 RDBMS에 저장된 트랜잭션 데이터와 지난 몇달간 생긴 일에 대한 분석을 위한 몇개의 대시보드를 의미했음 

- 하지만 이제 기업들은 "데이터와 인공지능"이 "분석 및 운영"을 위해서 "내부 프로세스와 외부 어플리케이션"에 내장되는 세상을 향해 가고 있음 

- 이런 근본적인 진화는 기반 기술의 놀라운 발전 - 특히 "데이터 인프라와 머신러닝/AI"의 공생관계(Symbiotic Relationship)에 의해 만들어 짐

ㅤ→ 두 분야가 점점 더 긴밀하게 협력

ㅤ→ 첫번째는 2010년대 초의 "빅 데이터 시대" 였음

ㅤ→ 이 빅데이터를 10년 이상된 오래된 AI 알고리듬(딥러닝)에 적용하면 놀라운 결과를 얻을 수 있다는 걸 알게되면서 AI에 대한 흥분을 이끌어 냄

ㅤ→ 결과적으로 AI가 데이터 인프라 개발의 중요 드라이버가 되었음

ㅤ→ AI 기반으로 모든 어플리케이션을 구축하게 된다면, 더 나은 데이터 인프라가 필요할 것 

- 2021년까지 오는 동안 Big Data, AI 용어들이 모두 기복을 겪었고, 요즘엔 "Automation"에 대한 얘기를 많이 듣지만 기본적으로 이건 다 동일한 메가 트렌드 임


- 요즘 Data/AI 분야에서의 가속화는 지난 몇년간 클라우드 데이터 웨어하우스의 성장에서 추적할 수 있음

- 데이터 웨어하우스는 아주 기본적이지만 데이터 인프라스트럭처의 필수요소인 "어디에 저장할 것인가"를 해결

ㅤ→ Big Data 혁명이 시작된지 15년이 넘게 지나서 그 문제는 해결되었다고 생각하겠지만 그렇지 않음 

ㅤ→ 돌이켜 보면 Hadoop 의 초기 성공은 어느정도 공간에 대해서는 가짜 였음 

ㅤ→ 방대한 양의 데이터에서 실제 가치를 추출이 가능하다는 아이디어 전달면에서는 중요했지만, 기술적 복잡도 때문에 몇몇 회사에서만 사용하는데 그치면서 시장에 침투하지 못함 

- 요즘의 클라우드 데이터 웨어하우스(Snowflake, Redshift, BigQuery)와 레이크하우스(Databricks) 는 

ㅤ→ 비용도 적게 들고

ㅤ→ 엄청 많은 기술적인 인력을 필요로 하지도 않고도 

ㅤ→ 유용한 방식으로 방대한 데이터를 저장할 수 있는 기능을 제공 

- 다시 말해, 이제서야 정말로 Big Data를 저장하고 처리할수 있게 되었음. 이게 정말 중요한 일이고, 다른 Data/AI 분야에 대한 Major Unlock(주요 잠금 해제)이 된 것으로 입증됨

ㅤ→ 첫째, 데이터 웨어하우스는 전체 데이터 및 AI 생태계에 대한 시장 규모를 증가시킴. 사용 편이성과 사용량 기반 가격책정으로 데이터 웨어하우스는 모든 회사가 데이터회사가 되는 Gateway가 됨

ㅤ→ 둘째, 데이터 웨어하우스가 그 주변 도구를 비롯한 에코시스템을 사용할 수 있게 해줌. 

ㅤㅤ⇨ ETL, ELT, 리버스 ETL, 웨어하우스 중심 데이터 퀄리티 도구, 지표 저장소, augmented analytics 등 

ㅤㅤ⇨ "Modern Data Stack" ( https://news.hada.io/topic?id=3055 참고 )

ㅤㅤ⇨ 최신 데이터 스택의 출현으로 많은 신생기업들이 생겨났고 투자가 집중됨 (DBT, Fivetran..)

ㅤ→ 셋째, 데이터 웨어하우스가 가장 기초적인 스토리지 계층을 해결해 주기 때문에, 기업이 데이터 요구 계층에서 더 높은 가치를 지닌 프로젝트에 집중할수 있게 됨

ㅤㅤ⇨ 이제 데이터를 저장했으므로, 실시간 처리, 증강 분석, 머신 러닝 같은 작업에 쉽게 집중가능 

ㅤㅤ⇨ 이것은 차례로 모든 종류의 데이터/AI도구 및 플랫폼에 대한 시장수요를 증가 시킴 

ㅤㅤ⇨ 더 많은 고객의 요구가, 데이터/ML 회사들에서 더 많은 혁신을 만들어 내는 Flywheel을 만들어 냄 


"데이터 웨어하우스는 전체 데이터 산업의 중요 신호이고, DW가 성장함에 따라 나머지도 같이 성장하게 됨"


- 데이터/AI 산업에 좋은 뉴스는 데이터 웨어하우스와 레이크하우스가 엄청 빠르고 크게 성장하고 있다는 것 

ㅤ→ Snowflake는 Q2 발표 기준 YoY로 103% 성장했고, Net Revenue Retention이 169%라는 놀라운 숫자를 보여줌 (기존 고객이 점점 더 많이 사용한다는 것)

ㅤ→ 2028년 매출 12조원($10B)를 예상 

- 혹자들은 미래에는 모든 회사가 적어도 하나의 클라우드 데이터 웨어하우스를 가지게 될 것이라고 얘기 하기도 함 


## "The Titanic Shock:  Snowflake vs Databricks"

- Snowflake 는 최근 데이터 분야의 대표 주자. 그들의 2020/9월 IPO는 소프트웨어 IPO사상 가장 컸음. 글쓰는 현재 $95B 회사

- 새로운 산업 내 경쟁자로 Databricks가 떠오름. 8/31에 $38B 가치로 $1.6B 펀딩 완료 

- 최근까지 두 회사는 시장에서 상당히 다른 부문에 속해 있었음(실제로 한동안 긴밀한 파트너였음)

- Snowflake는 클라우드 데이터 웨어하우스로서, 대량의 구조화된 데이터(행과 열에 잘 저장가능한)를 저장하고 처리하는 DB 

ㅤ→ 기업이 BI도구를 연결해서 과거 및 현재 성과("지난 분기에 가장 빠르게 성장한 지역은?")에 대한 질문에 답하는데 사용 

ㅤ→ 다른 DB와 마찬가지로 SQL을 활용해서 수백만의 잠재 사용자를 보유 

- Databricks는 데이터 세계의 다른 구석에서 왔음 

ㅤ→ 2013년에 오픈소스인 Spark를 상용화 하는 것으로 시작 

ㅤ→ 일반적으로 비구조화된 데이터(텍스트,오디오,비디오)를 처리하도록 만들어진 것 

ㅤ→ Spark 사용자들은 데이터 구조나 조직을 걱정하지 않고 어떤 데이터든 담을수 있는 "Data Lake"를 구축하는데 사용했음 

ㅤ→ 데이터 레이크의 주요 용도는 ML/AI 애플리케이션을 훈련시켜서 기업이 미래에 대한 질문에 답할수 있도록 하는 것("다음 분기에 구매할 가능성이 가장 높은 고객은?" 즉, 예측 분석)

ㅤ→ Databricks는 데이터 레이크 지원을 위해 Delta를 만들고, ML/AI를 지원하기 위해 ML Flow를 만듦 

- 그러나 최근에는 두 회사가 서로를 향해 수렴 

ㅤ→ Databricks는 데이터 레이크에 DW기능을 넣어서 분석가들이 표준 SQL 쿼리를 실행하고, Tableau나 MS PowerBI 같은 도구를 연동. "Lakehouse" 라고 부르는 것을 만들어 냄 

ㅤ→ Databricks는 데이터 레이크를 더 데이터 웨어하우스 스럽게 만들고, Snowflake는 데이터 웨어하우스를 데이터 레이크로 보이도록 비구조화 데이터(오디오,비디오,PDF,이미지등) 저장 기능을 프리뷰로 공개 

ㅤ→ Databricks는 AI기능에 BI를 추가하고 있고, Snowflake는 BI 호환성 기능에 AI를 추가하고 있음 

- 최종적으로는 Snowflake 와 Databricks 둘다 "The center of all things data" 가 되고 싶어함

ㅤ→ 모든 데이터를 저장하는 하나의 저장소. 구조적/비구조적 데이터를 다 저장하고, 과거부터 미래 예측까지 모든 분석을 수행

- 물론 많은 경쟁자 들이 있음(AWS,GCP 같은 클라우드 하이퍼스케일러들)

- Snowflake 와 Databricks 모두 클라우드 벤더와는 친구이자 적(Friend and Foe)

ㅤ→ AWS기반으로 성장한 Snowflake 는 다름 클라우드로 확장중 

ㅤ→ Databricks는 MS와 강력한 파트너십이 있지만, 멀티 클라우드 기능을 통해 벤더 락인되지 않도록 돕고 있음 

ㅤ→ 지난 몇년간, 비판자들은 Snowflake 와 Databricks 의 비즈니스 모델이 클라우드업체의 가격 결정에 따라 마진이 좌우된다고 비판해온 바 있음 

- 다음 5년간 클라우드 제공업체와 데이터 거물(Behemoth) 사이의 춤을 지켜보는 것이 결정적인 이야기가 될 것 


## "Bundling, Unbundling, Consolidation?"

- Snowflake 와 Databricks 둘의 상승을 감안할 때, 이게 업계에서 기다려온 통합 물결의 시작일까 ?

- 데이터 / AI 분야에서 "기능 통합(functional consolidation)은 일어나고 있음"

- 하지만 다들 마찬가지임. 누구도 단일제품 회사가 되기 보다는 더 많은 것을 번들링하고 더 많은 기능을 가지고 싶어 함

ㅤ→ 2021/6에 상장한 Confluent 역시 실시간 데이터 분야를 넘어서 "움직이는 데이터와 정적인 데이터의 처리를 통합" 하는 것을 목표로 하고 있음 

ㅤ→ Dataiku는 데이터 준비과정부터 DataOps,MLOps, 시각화 AI explainability 등을 하나의 플랫폼에 번들링하는데 중점을 둠 

- 최신 데이터 스택의 출현은 기능 통합의 또 다른 예 

ㅤ→ 그 핵심은 데이터 추출에서 데이터 웨어하우스, BI까지 연결되는 기업(대부분 스타트업들)들의 사실상 "동맹"임 

- 이런 기술 사용자 들에게 번들링 및 컨버전스는 많이 환영받을 것

ㅤ→ 점점 더 성숙해 지면서 데이터 산업은 "트랜잭션 vs. 분석", "배치처리 vs. 실시간", "BI vs AI" 같은 Technology Divide를 넘어서 진화해 가야함 

- 기업들은 계속 여러 벤더/플랫폼/도구들과 협력해서 필요에 가장 적합한 조합을 만들어 갈 것


- 핵심 이유는 "혁신의 속도가 너무 폭발적"

ㅤ→ 계속 새로운 스타트업이 나오고, 빅테크 기업들이 내부에서 데이터/AI도구를 만들어서 오픈소스화하고, 모든 기존 기술/제품에 대해서 매주 새로운 것이 등장 


- 빅 데이터 웨어하우스 및 데이터 레이크 벤더들이 모든 데이터를 중앙 집중화 하도록 밀어 붙이고 있는데, "Data Mesh"와 같은 새로운 프레임워크들도 출현 

ㅤ→ 다양한 팀이 각자 책임을 지는 분산 접근 방식 


- 기능 통합 외에 M&A가 일어날지는 알기 어려움 

ㅤ→ 사람들이 좋아하는 소문중에 "MS가 Databricks를 인수하고 싶어한다"는 것도 있음


## "Financings, IPOs, M&A: A Crazy Market"

- 스타트업 시장 좀 본사람이라면 알겠지만, 시장이 미쳤음 

- 작년에 이어 올해도 데이터와 ML/AI가 가장 핫한 투자 카테고리

- 상장 예정 회사들

ㅤ→ UiPath : RPA 및 AI 자동화 회사 

ㅤ→ Confluent : Kafka 

ㅤ→ C3.ai : AI 플랫폼 

ㅤ→ Couchbase : no-SQL DB 

ㅤ→ SentinelOne : 자동화 AI Endpoint 보안 플랫폼 

ㅤ→ TuSimple : 셀프드라이빙 트럭 

ㅤ→ Zymergen : 바이오 매뉴팩처링 

ㅤ→ Recursion : AI드리븐 신약 제조 회사

ㅤ→ Darktrace : AI기반 사이버 시큐리티

- SPAC 증가로 AI 시장 최전선에 있는 기술회사들이 수혜를 받을 것(자율운전, 바이오테크등)


## "The 2021 MAD Landscape & What’s New this Year"

- 올해 지도에선 "Analytics and Machine Intelligence"를 “Analytics” 와 “Machine Learning & Artificial Intelligence” 로 분리 

- 새로운 카테고리 추가 

ㅤ→ Infrastructure

ㅤㅤ⇨ Reverse ETL : 데이터 웨어하우스에서 SaaS 어플리케이션으로 다시 데이터를 전송하는 제품들 

ㅤㅤ⇨ Data Observability : 데이터 계보(Lineage)를 기반으로 데이터 품질 문제를 해결하는데 중점을 둔 DataOps의 구성요소 

ㅤㅤ⇨ Privacy & Security : 데이터 프라이버시가 점점 중요해지고, 많은 스타트업들이 이 카테고리에 등장 

ㅤ→ Analytics

ㅤㅤ⇨ Data Catalogs & Discovery : 지난 12개월간 가장 바빴던 카테고리. 사용자들이 원하는 데이터셋을 찾고 관리할수 있게 함 

ㅤㅤ⇨ Augmented Analytics : BI 도구들이 NLG/NLP의 발전을 활용하여 자동으로 인사이트를 생성하고, 비기술 청취자들에게 데이터를 접근 가능하게 함 

ㅤㅤ⇨ Metrics Stores : 주요 비즈니스 메트릭을 위한 중앙 저장소. 데이터 스택에 새로 진입

ㅤㅤ⇨ Query Engines 

ㅤ→ Machine Learning and AI 

ㅤㅤ⇨ MLOps 카테고리를 세분화 : Model Building, Feature Stores, Deployment and Production 

ㅤ→ Open Source 

ㅤㅤ⇨ Format, Orchestration, Data Quality & Observability 추가 

- 예전에는 시리즈 C이상의 스타트업 또는 상장기업등이 많았는데, 올해는 시리즈A/시드 단계의 회사들이 많이 추가 됨 


## "데이터 인프라스트럭처의 주요 트렌드"

- 2020 

ㅤ→ Modern Data Stack(최신 데이터 스택)이 메인스트림으로 

ㅤ→ ETL vs ELT 

ㅤ→ 데이터 엔지니어링의 자동화?

ㅤ→ 데이터 분석가의 부상 

ㅤ→ 데이터 레이크와 데이터 웨어하우스가 합쳐질까?

ㅤ→ 아직 해결하지 못한 복잡성 


- 2021 

ㅤ→ Data Mesh 

ㅤ→ DataOps에게 바쁜 한해 

ㅤ→ 이제는 실시간

ㅤ→ Metrics Stores 

ㅤ→ Reverse ETL 

ㅤ→ Data Sharing 


[Data Mesh]

- Zhamak Dehghani 가 2019년에 주장한 "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh" 에서 유래 

- 2020~21 사이에 많은 모멘텀

- 데이터 메쉬 컨셉은 대부분 조직적인 아이디어

- 지금까지 데이터 인프라와 팀을 구축하기 위한 표준 방법은 중앙 집중화. 한 데이터 팀이 괸리하는 한개의 큰 플랫폼이 비즈니스 요구를 충족시킴 

- 장점이 많지만 병목현상등 문제도 발생 

- 탈 중앙화를 통해서 각자 도메인을 담당하는 독립적인 데이터 팀을 만들고 조직내의 다른 사람들에게 "제품으로" 데이터를 제공 하는 것 

ㅤ→ 소프트웨어 공학에서 얘기하는 마이크로서비스 개념과 비슷 

- 여러가지 의미를 가지는데 

ㅤ→ 이게 가능하게 되면, 분산 데이터 스택에서 미션 크리티컬한 도구를 만드는 신생기업들에게 큰 기회가 될 것

- 여러 저장소를 통합 쿼리 및 분석하는 SQL Query Engine인 Starburst는 자신들을 "데이터 메쉬를 위한 분석 엔진"으로 리브랜딩 했음 

- 복잡한 파이프라인을 관리하는 오케스트레이션 엔진(Airflow, Prefect, Dagster)같은 것들이 더욱 미션 크리티컬해 질 것 

- 저장소와 파이프라인 전산에서 데이터를 추적하는것은 컴플라이언스 & 거버넌스 측면에서 더 필수적이 되어 데이터 계보(Data Lineage)의 필요성이 강화 (OpenLineage, DataKin)


[DataOps에게 바쁜 한해]

- DataOps 개념이 몇년간 떠돌아 다니다가 최근에 실제로 활성화 

- 여러 정의가 존재 

ㅤ→ 데이터세계의 DevOps 

ㅤ→ 데이터 파이프라인을 구축 및 유지 관리하고, 데이터 카탈로그를 통해 올바른 데이터셋을 찾고, 데이터 생산자와 소비자가 필요한 작업을 수행하는데 필요한 모든 것 

- 어쨋거나 DevOps와 마찬가지로 "방법론, 프로세스, 사람, 플랫폼 및 도구의 조합"

- 넓은 맥락에서 "데이터 엔지니어링 도구와 프랙티스"들이 소프트웨어 엔지니어링의 자동화 수준보다 많이 뒤떨어져 있다는 것

- 데이터/AI가 중요해 질수록 더 나은 도구와 프랙티스가 필요함 

- 모두 "데이터 세계의 DataDog"이 되고 싶어함 (실제로 DataDog가 DataOps에 쓰이기도 하지만, 기본적으로 소프트웨어 엔지니어링 기반임)

- Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance 등 다양한 서브 파트가 있음


[이제는 실시간]

- "실시간" 또는 "스트리밍" 데이터는 생성된 직후에 바로 처리 및 소비되는 데이터 

- 현재까지 데이터 인프라의 지배적 패러다임인 "배치"에 반대 되는 것 

- 실시간 데이터 처리는 10-15년전 빅 데이터 시대 초기부터 뜨거운 주제였음

ㅤ→ 특히 처리속도가 하둡MR에 비해 Spark의 성공을 촉진한 핵심 

- 하지만 몇년간 "곧 폭발할"시장이었지만 폭발하지는 않았음 

- Confluent IPO의 대성공이 반대론자들이 틀렸다는 것을 증명 

- 그리고 컨플루언트를 넘어 전체 실시간 데이터 생태계가 가속화 되었음 

- 특히 "실시간 분석"이 많은 활동을 보임 

ㅤ→ 러시아 Yandex에서 만든 ClickHouse가 미국에서 회사를 설립하고 $50M 투자를 받음 

ㅤ→ Druid 오픈소스 기반의 실시간 분석 플랫폼 Imply가 $70M 투자 받음 


[Metrics Stores]

- 지난 몇 년간 기업의 데이터 및 데이터 사용빈도와 복잡성이 증가 

- 복잡성이 증가하면서 데이터 불일치로 인한 골칫거리도 함께 증가 

- 지표(Metric)들은 디멘젼/정의 및 다른 원인으로 약간만 변경되어도 잘 못 정렬될 수 있음

- 데이터는 팀이 사용할때 정확하고 신뢰할수 있는 경우에만 유용 

- 지표를 중앙화 하려는 시도가 AirBnB의 Minerva 같은 자체 솔루션 개발로 이어짐 "Define Once, Use Anywhere"

- 주요 비즈니스 지표 및 모든 디멘젼의 정의를 표준화하고, 이해 관계자들에게 해당 정의 기반으로 정확하고 분석 가능한 데이터 세트를 제공 

- 중앙 집중화한 지표 정의를 기반으로 데이터에 대한 신뢰를 구축하고, 누구에게나 지표에 대한 교차 기능 액세스를 제공 

- 지표 저장소는 

ㅤ→ 데이터 웨어하우스 상단에 위치해서 BI 플랫폼, 분석 및 데이터사이언스 도구, 운영 어플리케이션을 포함한 모든 다운스트림 어플리케이션에 데이터를 알림 

ㅤ→ 데이터가 일관성을 유지하도록 해서, 비즈니스 로직이 변경되면 자동으로 채워짐 

- Transform, Trace, Supergrain 같은 스타트업이 있음 


[Reverse ETL]

- 최신 데이터 스택에서 Reverse ETL이 하나의 카테고리가 됨 

- 데이터 웨어하우스에서 CRM, 마케팅자동화 시스템, 고객지원 플랫폼과 같은 비즈니스 어플리케이션으로 데이터를 다시 이동 

- 실제 운영 도구들이 다른 비즈니스 어플리케이션에서 강화된 최신 데이터를 활용할 수 있도록 하는 것 

- 많은 Reverse ETL 도구들이 펀딩 받음 : Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic 


[Data Sharing]

- 기업내 뿐만 아니라 조직 전반에서 데이터 공유 및 데이터 협업의 부상 

- 공급망 가시성 및 머신러닝 모델 학습, 시장 출시 계획 공유등을 위해서 공급 업체, 파트너 및 고객등의 에코시스템과 데이터를 공유하고 싶어함 

- 조직 간 데이터 공유는 "데이터 클라우드" 벤더의 핵심 테마 

- 2021/5월에 구글은 Analytics Hub를 런칭. 조직 내/외부에서 데이터/인사이트/대쉬보드/머신러닝 모델을 공유. 또한 금융서비스를 위한 DataShare도 공개 

- 구글과 같은 날에 Databricks는 Delta Sharing을 공개. 조직간 데이터 공유를 위한 오픈소스 프로토콜 

- 2021/6월에 Snowflake는 데이터 마켓플레이스를 통해서 Secure Data Sharing 기능을 공개 

- Habr, Crossbeam 같은 스타트업들이 있음 ## "ML/AI의 주요 트렌드"

2020

- Boom time for data science and machine learning platforms (DSML)

- ML getting deployed and embedded

- The Year of NLP


2021

- Feature Stores

- The rise of ModelOps

- AI content generation

- The continued emergence of a separate Chinese AI stack


- 인공지능에 대한 연구는 빠른 속도로 계속 발전 중

ㅤ→ DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP 


[Feature Stores]

- Uber가 2017년에 아이디어를 소개한 뒤로 머신러닝 스택에서 점점 더 일반화 

ㅤ→ Tecton, Rasgo, Logical Clocks, Kaskada 같은 회사들이 펀딩 라운드 

- 머신러닝에서 피쳐(변수 또는 속성)는 개별로 측정가능한 속성 또는 특성으로 데이터 스니펫에서 컬럼으로 표현

ㅤ→ 머신 러닝 모델은 단일 피쳐에서 수백만개까지의 피쳐를 이용 가능 

- 점점 더 복잡한 모델과 파이프라인을 사용하면서 점점 더 Ad-Hoc하게 수행되었음 

- 엔지니어와 데이터 과학자들은 종종 Raw 데이터에서 피쳐를 다시 추출하는데 많은 시간을 소비 

- 프로덕션 환경과 실험 환경의 격차는 모델 성능이나 동작에 불일치를 유발할 수 있음

- 조직은 머신 러닝 모델의 거버넌스 및 재현성등에만 관심이 있어서, 피쳐의 사일로화는 실제로 더 어렵게 만듬 

- 피쳐 스토어는 협업을 촉진하고 이 사일로를 없앰 

- 학습 및 프로덕션 모두에서 단일 정보 소스를 제공해서 복잡성을 줄이고 피쳐를 표준화 및 재사용 

- 조직내의 선별된 피쳐를 저장하고, 원시 데이터를 피쳐 밸류로 변환하는 데이터 파이프라인을 실행하고, API를 통해서 빠른 억세스를 제공 


[The Rise of ModelOps]

- 많은 회사들이 실험단게에서 프로덕션으로 모델을 가져오는 것이 어렵다는 것을 알게 되고, 사용중인 모델에는 지속적인 모니터링과 재학습이 필요하다는 것도 알게 됨 

- MLOps는 DevOps의 모범 사례를 적용. 대규모 모델의 빠르고 지속적인 개발 및 배포를 간소화 

- ModelOps 는 MLOps의 상위 집합. ML을 포함한 모든 AI모델을 학습에서 프로덕션에 이르는 모든 단계에서 더 빠른 운영을 목표로 함 

- ModelOps 는 도구와 프로세스를 모두 다루고, 프로세스를 통합하고, 모델 오케스트레이션을 표준화하고, 포괄적인 거버넌스 기능과 함께 모든 모델에 대한 중장 집중형 저장소를 제공 

- 잘 구현된 ModelOps는 모든 모델을 배포/모니터링 및 관리하는 통합 시스템을 제공하여 위험을 줄이고 컴플라이언스를 높임 


[AI Content Generation]

- AI가 지난 몇년간 크게 성숙해져서 텍스트,이미지,코드 및 비디오를 포함한 모든 종류의 매체에 걸쳐 콘텐츠를 만드는 데 활용

- OpenAI GPT-3 공개. GitHub이 OpenAI Doex를 활용한 GitHub Copilot 공개 

- OpenAI가 영어 중심 모델에 집중하지만, 다른 언어로 작업중인 회사들도 많음 

ㅤ→ 독일의 Aleph Alpha, AI21 Labs, Huawei의 PanGu, Naver의 HyperCLOVA


[The continued emergence of a separate Chinese AI stack]

- 중국이 세계 최대의 데이터 생산자인 자체 시장과 함께 글로벌 AI강국으로 계속 발전 

- 최고의 추천 알고리즘중 하나인 TikTok이 서구에서 성공하면서 중국 AI 소비자 기술이 처음으로 실제로 확산 

- 중국이 2030년까지 AI 패권을 선언하고 재정지원되면서, 아직 서구 도구를 활용하던 중국에 별도의 자체 스택이 등장하기 시작

댓글
자동등록방지
(자동등록방지 숫자를 입력해 주세요)