LAION-400M - 4억개짜리 이미지-텍스트 쌍 데이터셋


제목	LAION-400M - 4억개짜리 이미지-텍스트 쌍 데이터셋2021-09-25 23:36
작성자	happydaddy
https://laion.ai/laion-400-open-dataset/ - 무료로 공개된 것 중 세계에서 제일 큰 이미지 데이터 셋 ㅤ→ 2014~2021년간의 웹 페이지 크롤링 데이터를 덤프 - 모든 이미지/텍스트는 OpenAI의 CLIP으로 필터링 완료 ㅤ→ 이미지/텍스트간 유사도 0.3 이하를 걸러낸 뒤 수작업 검증 - 데이터셋 구조 ㅤ→ 50GB URL+캡션 메타데이터 Parquet 파일 ㅤ→ 10TB 풀버전 웹데이터셋 256x256 이미지/캡션/메타데이터로 바로 학습에 사용 가능 ㅤ→ 1TB 400M개의 텍스트/이미지 클립 임베딩. KNN indices 리빌드에 유용 ㅤ→ 데이터셋 검색을 쉽게 해주는 2개의 4GB KNN indices SAMPLE_ID \| URL \| TEXT \| LICENSE \| NSFW \| similarity \| WIDTH \| HEIGHT G M T Y Text-to-speech function is limited to 200 characters Options : History : Feedback : DonateClose

이전	Apple, iPad mini 공개	happydaddy	2021-09-25
-	LAION-400M - 4억개짜리 이미지-텍스트 쌍 데이터셋	happydaddy	2021-09-25
다음	애플 iMessage Zero-Click Exploit 패치 배포	happydaddy	2021-09-25

Tech News