GN⁺: 맥에서 CLI 또는 파이썬만을 이용한 OCR

▲

neo 11달전 | parent | favorite | on: GN⁺: 맥에서 CLI 또는 파이썬만을 이용한 OCR 수행 방법(blog.greg.technology)

Hacker News 의견

Apple의 Vision 프레임워크에 대한 인상적인 경험
- 원글 작성자(OP)는 수만 장의 스프레드시트 스크린샷을 OCR 처리하여 Postgres 데이터베이스로 가져오는 개인 프로젝트에서 Apple의 Vision 프레임워크를 사용했음.
- macOS와 Nvidia가 호환되지 않아 다른 OCR CPU 방법들을 시도했으나, Tesseract와 같은 도구들은 종종 잘못된 결과를 내놓았음.
- Vision 프레임워크는 본인이 본 것 중 가장 높은 품질의 결과를 제공했고, 가장 적은 계산 리소스를 사용했음.
- 프레임워크의 안정성에 문제가 있었지만, 이는 사용자의 구현 방식에 의한 오류일 수 있음.
- RHetTbull의 vision.py와 ocrmac을 조합하여 사용했고, i7 6700k 해킨토시에서의 성능에 만족함.
- 프로그래머는 아니지만 충분한 시간이 주어지면 문제를 해결할 수 있으나, 시간이 많이 소요됨.
Windows에서의 유사한 경험과 Microsoft PowerToys의 OCR 도구
- 다른 사용자는 Windows에서 비슷한 작업을 시도했고, 이미 설치되어 있던 Microsoft 프로젝트인 PowerToys에 매우 좋은 OCR 도구가 포함되어 있음을 발견함.
- Win+Shift+T를 누르고 스캔할 영역을 선택하면 텍스트가 클립보드로 복사됨.
무료로 제공되는 오픈소스 OCR 도구
- 한 사용자가 CLI와 UI를 모두 제공하는 무료 오픈소스 OCR 도구를 개발했음.
Mac 애플리케이션들의 자동 OCR 기능
- 많은 Mac 애플리케이션들, 예를 들어 Safari, Preview, Notes 등이 이미지에 대해 자동으로 OCR 처리를 하며, 이미지 내의 텍스트를 쉽게 선택하여 다른 곳에 복사 및 붙여넣기 할 수 있음을 한 사용자가 발견함.
Mac용 작은 OCR 도구에 대한 호평
- 한 사용자는 brew를 통해 Macbook에 설치한 작은 OCR 도구의 열렬한 팬임.
Windows용 추천 OCR 도구: PowerToys의 Text Extractor
- Windows 사용자에게 PowerToys의 Text Extractor를 추천하는 댓글.
macOS Ventura의 기본 OCR 기능
- macOS Ventura 이상에서는 이미지 캡처 UI에 기본 OCR 기능이 통합되어 있으며, AirPrint 호환 스캐너를 사용하여 PDF로 스캔할 때 OCR 체크박스가 오른쪽 패널에 표시됨.
PyXA를 사용한 텍스트 추출 솔루션
- PyXA는 Vision 프레임워크를 사용하여 한 번에 하나 이상의 이미지에서 텍스트를 추출하는 솔루션을 제공함.
- 패키지의 일부분일 뿐이므로 일회성 작업에는 과할 수 있지만, 옵션으로 제시됨.
Raycast의 이미지 내 텍스트 검색 및 복사 기능
- Raycast는 macOS 전용으로, 이미지 내의 텍스트를 검색하고 해당 텍스트를 복사할 수 있는 기능을 가짐.
- 공식 데모 비디오 링크 제공.
Apple Vision의 'Copy Subject' 기능에 대한 유사한 기술 문의
- 한 사용자가 Apple Vision의 'Copy Subject' 기능에 매우 의존하고 있으며, 이 기능의 접근성이 매우 제한적이라고 느끼며 유사한 기술에 대해 문의함.