Tech News

제목GPT-3는 이제 시장에서 유일하지 않음2021-11-10 09:50
작성자 Level 10

https://lastweekin.ai/p/gpt-3-is-no-longer-the-only-game 

- GPT-3가 AI시장에 큰 충격을 준 건 맞음 : "text-in text-out" 에 강한 초대규모 AI 모델

- 유료 였기 때문에 많은 조직들이 각자 버전의 GPT-3 비슷한 모델을 만들기 시작 

ㅤ→ 필요한 컴퓨팅 파워때문에 쉽지는 않음. 175B 파라미터짜리 OpenAI는 MS와 협업해서 1만개의 GPU와 45테라 텍스트 데이터를 이용 

ㅤ→ 계산해보면 GPT-3를 훈련하는데 100~200억원 정도가 소요 

- 다양한 시도들이 나옴

ㅤ→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG 


- 놀랍게도 GPT-3와 비슷한 걸 만드는 첫번째 노력은 오픈소스 참여자들이 만든 "EleutherAI" 

ㅤ→ GPT-3와 비슷한 데이터 셋인 "The Pile"을 공개 

ㅤ→ 그 이후 GPT-Neo 1.3B, 2.7B 같은 작은 버전부터 최근 6B 파라미터짜리 GPT-J-6B 를 공개했음 


- GPT-3 발표 6개월 뒤에 중국 칭화대의 연구자들과 BAAI(베이징 AI 아카데미)가 함께 CPM(Chinese Pre-trained Language Model) 을 공개 

ㅤ→ 100GB 중국어 텍스트에서 2.6B 파라미터 모델을 생성. GPT-3에는 못 미치지만 중국어 텍스트로 했다는 것에서 주목 

- 그 얼마 후 Huawei가 200B 파라미터셋의 PanGu-α(1.1TB의 중국어 텍스트 사용) 공개 


- Naver가 204B 파라미터 짜리 HyperCLOVA 발표 

- 이스라엘의 AI21 Labs가 178B 짜리 Jurassic-1 공개

- NVIDIA 와 MS가 530B 파라미터 모델의 Megatron-Turing NLG 공개 


- 본질적으로 GPT-3와 유사한 점점 더 거대한 모델이 생성되고 있으며 몇년 동안 더 커질 것

- 이런 대규모 모델을 교육하는데 수십억 달러의 투자가 필요한 추세는 당분간 유지 될 것

ㅤ→ 자금 지원이 풍부한 기업들만이 이런 모델을 만들수 있다는 것은 염려스러움 


- 얼마나 이런 트렌드가 유지될 지, GPT-3 이상의 주요한 발견이 이뤄질 지 등은 예측하기 어려움

- 현재 우리는 이런 여정의 한가운데에 있으며, 앞으로 몇 년 동안 어떤 일이 일어나는지 지켜보는 것이 흥미로울 것

댓글
자동등록방지
(자동등록방지 숫자를 입력해 주세요)