GN⁺: Llama-OCR: 문서를 Markdown으로 변환하는 기술

(llamaocr.com)

3P by neo 14일전 | favorite | 댓글 1개

프로젝트 소개
- 이 프로젝트는 llama-ocr와 Together AIOCR을 사용하여 이미지를 구조화된 Markdown으로 변환하는 도구임.
- 사용자는 이미지를 업로드하여 텍스트를 추출하고 Markdown 형식으로 변환할 수 있음.
주요 기능
- 이미지 업로드 기능 제공
- 이미지에서 텍스트를 추출하여 Markdown으로 변환
- 예제 이미지를 제공하여 사용자가 기능을 테스트할 수 있음
코드 예시
- llama-ocr 라이브러리를 사용하여 이미지에서 텍스트를 추출하는 코드 예시 제공
- ocr 함수에 이미지 파일 경로와 API 키를 전달하여 Markdown을 생성함
프로젝트의 중요성
- 이 프로젝트는 이미지에서 텍스트를 쉽게 추출하고 Markdown으로 변환할 수 있는 기능을 제공하여 문서 작업의 효율성을 높임.
- 기존의 OCR 도구와 비교하여 간편한 사용성과 Markdown 변환 기능을 제공함.

▲

neo 14일전 [-]

Hacker News 의견

llama-ocr의 저자는 간단한 API로 이미지를 구조화된 마크다운으로 변환하는 도구를 개발했음. 향후 PDF 파싱 및 JSON 출력 기능 추가 계획 중임
- 웹툰 예시에서 대문자로 된 대화가 패널마다 다르게 출력되는 문제를 발견했음
- 오래된 슬라이드를 디지털화하는 데 사용했으며, 슬라이드의 노란색은 실제로는 화이트 밸런스 문제였음
- 모델의 편향성을 보여주는 사례로, 슬라이드를 골동품으로 잘못 인식하여 잘못된 제목을 생성했음
- API의 파일 크기나 해상도 제한이 문서화되어 있지 않음
llama3.2-vision을 사용하여 자선 경매의 입찰서를 처리했으며, 필체가 좋지 않아도 꽤 정확했음
- CSV로 일관되게 출력되지 않는 점이 불편했음
- 문제의 규모가 100페이지 정도라 수작업 정리가 가능했음
일반 OCR 모델은 가족 사진의 텍스트를 디지털화하는 데 적합하지 않으며, Gemini Flash가 가장 우수했음
- 여전히 오류가 많아 수작업이 더 빠름
"Show HN" 게시물로 적합한지 의문이며, Llama라는 이름과 연관성이 부족함
유전 알고리즘으로 생성한 문장을 실제 원으로 그렸으나, 텍스트로 인식되지 않음
다중 페이지 PDF를 업로드했으나 지원되지 않음을 알림
HN 스크린샷을 업로드했으나 마크다운 코드가 출력되지 않음
ChatGPT API를 통해 일본어 OCR이 잘 작동함
Walmart 영수증에서 숫자 9를 0으로 잘못 인식함

답변달기