Tech News

제목인터넷 검색 팁2021-04-26 23:28
작성자 Level 10

Internet Search Tips · Gwern.net 


- 인터넷에서 논문,웹페이지,책 등의 정보를 검색하는 기본부터 주요 팁들을 정리

- 제 기준 개인 웹사이트 중 최고라고 생각하는 Gwern Branwen*이 작성한 글. 일부만 옮겼으므로 꼭 원문을 보시기 바랍니다


[ 논문 검색 ]

- 검색 문법 : 불린 연산자, 주요 구글 명령어들 (쌍따옴표는 정확한 일치, 하이픈은 부정/제외, Site: 는 특정 웹사이트 검색 )

- 빠른 검색을 위한 핫키 설정하기 : AutoHotkey, Quicksilver, XMonad 등

- 웹브라우저 단축키 : C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]

- Google Scholar 검색시에 HTML 보기


- 논문 타이틀 검색 팁

ㅤ→ 검색결과를 줄이기 위해 제목을 자르거나 AND/OR 및 - 등을 이용하기

ㅤ→ Year 추가/삭제해보기..

ㅤ→ 구글의 날짜 범위 이용하기

ㅤ→ site:archive.org 넣어서 인터넷 아카이브 검색하기


- 어려운 케이스들

ㅤ→ 역 인용(Reverse Citations) : 구글스칼라의 "related articles" "cited by" 보기

ㅤ→ 석/박사 학위 논문은 ProQuest

ㅤ→ 역 이미지 검색 : 구글 이미지, TinEye, Yandex 를 이용


- 도메인별 검색 팁

ㅤ→ 트위터 : 구글에도 걸리긴 하지만, 추가 정보를 안다면 트위터 고급검색도 훌륭 (from:, to:, since:, until:, near:, url: ..)

ㅤ→ 미국 연방 법원 : Pacer 가입 필요. 유료($0.1/페이지) 지만 총 $15이하에선 무료. Recap 이라는 공개미러도 있음. Recap 브라우저 확장도 제공

ㅤ→ Wellcome 도서관 : 오래된 잡지/책들이 많음. SEO가 바보같아서 구글등에선 검색이 잘 되지 않지만 잘 살펴볼 것

ㅤ→ 오래된 잡지 : site:pdf-giant.net , 교육관련 검색은 ERIC ( site:eric.ed.gov )


- Paywall 대응하기

ㅤ→ 책/논문의 경우는 Libgen / Sci-Hub 를 이용해서 우회 가능. Z-Library 통해서 전문검색 가능


- 위의 모든 방법으로 구하는게 불가능할 때 다른 사람들한테 요청 가능한 곳

ㅤ→ 서브레딧 : /r/scholar

ㅤ→ 트위터 : #icanhazpdf

ㅤ→ Wikipedia Resource Request

ㅤ→ LessWrong HelpDesk


- Full-Text Copy를 찾고나서 할 일

ㅤ→ 신뢰할수 없는 호스트에는 링크 하지 말것 : Libgen/Sci-Hub, Nber, Scribed, ResearchGate..

ㅤ→ 스캔본의 경우는 gscan2pdf 로 편집 & OCR

ㅤ→ 메타데이터 추가 : ExifTool, pdftk

ㅤ→ 가능하면 퍼블록 호스팅해주고, Wikipedia/Reddit에 링크 공유

ㅤ→ PDF 링크 팁 : URL 뒤에 #page=N 붙여서 페이지 지정 가능


- 고급

ㅤ→ Archiver-Bot들을 이용해서 검색 히스토리를 자동 아카이브

ㅤ→ GCSE(Google Custom Search Engine) 만들기


[웹페이지]

- 만약 제목을 안다면 제목만 검색

- URL 검색시 불필요한 인자들 지우기

- 구글 검색시 site: 이용해서 도메인 한정, 날짜 한정


- 구글 외의 검색 사용

ㅤ→ DuckDuckGo : Bangs 기능으로 외부 사이트 검색을 직접 사용 (현재 13000개가 넘는 외부 사이트 지원 )

ㅤ→ Bing/Yandex 도 유용


- 아카이브 확인하기 : Internet Archive 또는 Memento 메타아카이브

ㅤ→ IA는 도메인 전체 URL확인기능을 제공. wayback_machine_downloader(루비)로 전체를 다운로드 가능

ㅤ→ 구글리더가 종료전에 Archive Team이 구글리더의 꽤 많은 RSS들을 백업받아서 IA에 호스트 했음(WARC로도 가능, 마지막에 다운로드&검색팁 제공)

ㅤ→ archive.today : IA와 비슷한 미러

ㅤ→ 정 안될경우 Google Cache도 이용 가능


[디지털 책]

- 책은 Google Scholar에는 없음. Google 검색을 이용.

- filetype:pdf 으로 먼저 검색해보고 그다음 Libgen 이용

- IA에도 책은 많은데 SEO가 별로인지 검색이 잘 되지 않음. "책 제목 site:archive.org"

ㅤ→ IA에 있는 책이 DRM이 걸려 있다면 Calibre의 De-DRM 플러그인 사용 가능

- HathiTrust 에도 많은 책 스캔이 있음

ㅤ→ 전체 다운로드는 불가능 하지만 wget을 통한 우회방법 있음. 이 방법은 Wellcome Library에도 적용 가능


[출판본 책]

- 구글 북스 또는 find-more-books.com 으로 중고 서적 검색

ㅤ→ eBay & Amazon 은 중고책 구입엔 좋지 않음. 정보만 볼 것

ㅤ→ AbeBooks, Thrift Books, Better World Books, B&N 등이 구입에 좋음

- 책 스캔하기 : 파괴 vs 비파괴 및 컷팅도고, 메타데이터 및 PDF 생성 팁들


* Gwern Branwen 은 프리랜서 작가이자 연구자 입니다. 개인 웹사이트인 https://www.gwern.net/ 을 운영하는데 정말 독특해요

ㅤ제 기준 개인 웹페이지/블로그 에선 탑 오브 탑. 특정 주제를 잡고 그걸 세밀하게 파고 정리해서 올리는게 주 특기입니다.

ㅤ→ GoodReads로 알아본 "사람들이 읽다 포기한 책 Top 5" https://news.hada.io/topic?id=1231

G
M
T
Text-to-speech function is limited to 200 characters
댓글
자동등록방지
(자동등록방지 숫자를 입력해 주세요)