Tech News

제목OCRmyPDF - 스캔된 PDF파일에 OCR 텍스트 레이어 추가2021-11-09 12:01
작성자 Level 10

https://github.com/jbarlow83/OCRmyPDF 

- 일반 PDF로 부터 검색가능한 PDF/A 파일 생성

- OCR한 문자열을 이미지 아래에 삽입해서 Copy/Paste 지원 

- 기존 임베드된 이미지의 해상도는 그대로 유지

- 파일을 훼손하지 않고 OCR정보를 삽입 

- PDF 이미지는 최적화해서 파일 크기를 줄임 

- CPU코어 모두 활용해서 분산 처리 

- Tesseract OCR 이용해서 100개 이상의 언어 그대로 지원 (한국어 포함)

- 수천 페이지 분량의 파일도 잘 스케일링해서 처리 

- 수백만개의 파일로 테스트 완료 

- 리눅스/맥/윈도우(WSL)


댓글
자동등록방지
(자동등록방지 숫자를 입력해 주세요)