Tech News

제목The General Index - 백만개 저널의 n-gram 인덱스를 무료로 공개2021-10-28 23:03
작성자 Level 10

https://archive.org/details/GeneralIndex

- 연구자 Carl Malamud가 유료 논문을 포함한 107,233,728개의 저널에서 SpaCy로 추출한 n-gram 인덱스를 공개 

- 전체 텍스트가 아닌 1단어부터 최대 5단어 길이의 문장 스니펫만 포함한 인덱스라서 저작권 제한을 회피 

- 다양한 연구 분야에 사용할 수 있게 웹 아카이브에 무료로 공개 

ㅤ→ 예) 특정 화학 물질이 논문에 몇 번이나 사용되었는가 

- 3개의 테이블로 구성 

ㅤ→ 3500억 개의 n-gram 과 저널 id

ㅤ→ 197억 개의 키워드 와 저널 id 

ㅤ→ 저널 id 와 메타 데이터 : 논문제목, 저자, DOI(논문 고유 식별 번호)

- 카탈로그는 5TB의 압축파일로 해제시 38TB


댓글
자동등록방지
(자동등록방지 숫자를 입력해 주세요)