3P by neo 14일전 | favorite | 댓글 1개
  • 프로젝트 소개

    • 이 프로젝트는 llama-ocrTogether AIOCR을 사용하여 이미지를 구조화된 Markdown으로 변환하는 도구임.
    • 사용자는 이미지를 업로드하여 텍스트를 추출하고 Markdown 형식으로 변환할 수 있음.
  • 주요 기능

    • 이미지 업로드 기능 제공
    • 이미지에서 텍스트를 추출하여 Markdown으로 변환
    • 예제 이미지를 제공하여 사용자가 기능을 테스트할 수 있음
  • 코드 예시

    • llama-ocr 라이브러리를 사용하여 이미지에서 텍스트를 추출하는 코드 예시 제공
    • ocr 함수에 이미지 파일 경로와 API 키를 전달하여 Markdown을 생성함
  • 프로젝트의 중요성

    • 이 프로젝트는 이미지에서 텍스트를 쉽게 추출하고 Markdown으로 변환할 수 있는 기능을 제공하여 문서 작업의 효율성을 높임.
    • 기존의 OCR 도구와 비교하여 간편한 사용성과 Markdown 변환 기능을 제공함.
Hacker News 의견
  • llama-ocr의 저자는 간단한 API로 이미지를 구조화된 마크다운으로 변환하는 도구를 개발했음. 향후 PDF 파싱 및 JSON 출력 기능 추가 계획 중임

    • 웹툰 예시에서 대문자로 된 대화가 패널마다 다르게 출력되는 문제를 발견했음
    • 오래된 슬라이드를 디지털화하는 데 사용했으며, 슬라이드의 노란색은 실제로는 화이트 밸런스 문제였음
    • 모델의 편향성을 보여주는 사례로, 슬라이드를 골동품으로 잘못 인식하여 잘못된 제목을 생성했음
    • API의 파일 크기나 해상도 제한이 문서화되어 있지 않음
  • llama3.2-vision을 사용하여 자선 경매의 입찰서를 처리했으며, 필체가 좋지 않아도 꽤 정확했음

    • CSV로 일관되게 출력되지 않는 점이 불편했음
    • 문제의 규모가 100페이지 정도라 수작업 정리가 가능했음
  • 일반 OCR 모델은 가족 사진의 텍스트를 디지털화하는 데 적합하지 않으며, Gemini Flash가 가장 우수했음

    • 여전히 오류가 많아 수작업이 더 빠름
  • "Show HN" 게시물로 적합한지 의문이며, Llama라는 이름과 연관성이 부족함

  • 유전 알고리즘으로 생성한 문장을 실제 원으로 그렸으나, 텍스트로 인식되지 않음

  • 다중 페이지 PDF를 업로드했으나 지원되지 않음을 알림

  • HN 스크린샷을 업로드했으나 마크다운 코드가 출력되지 않음

  • ChatGPT API를 통해 일본어 OCR이 잘 작동함

  • Walmart 영수증에서 숫자 9를 0으로 잘못 인식함