Hacker News 의견
  • 오픈 소스 Python 패키지를 개발 중이며, 비슷한 기능을 제공함

    • Enron 이메일 데모 예시를 공유함
  • 주요 상업 은행에서 PDF와 이메일에 갇힌 데이터를 해결하지 못해 신용 위험 모델을 개선하지 못했음

    • 이 문제를 해결하는 것은 큰 가치를 창출함
  • SoundTrace에서 관련된 프로젝트를 진행했음

    • 새로운 클라이언트의 PDF 오디오그램 데이터를 완벽하게 추출해야 함
    • 파이프라인을 통해 PDF를 OCR로 텍스트와 테이블을 추출하고, LLM을 통해 직접 파싱함
    • 오디오그램 그래프를 컨브넷으로 보내고, 테이블을 프로그래밍 방식으로 파싱함
    • 결과를 Claude sonnet을 통해 검증하고, 일치하지 않으면 수동 검토함
    • 정확도가 거의 100%에 도달했음
  • Instabase에서 일했으며, PDF와 문서 스캔을 처리하는 능력이 중요함

  • Trellis의 출시를 축하하며, 엣지 케이스가 거의 0%에 가까워야 함

    • 모든 조직이 필요로 하는 서비스이며, 성공하면 많은 고객이 생길 것임
  • Roe AI와의 경쟁 및 차이점에 대해 질문함

  • 데이터의 정확성을 어떻게 검증했는지 궁금해함

  • 개인 프로젝트에서 TypeChat과 Zod, Unstructured를 사용해 비슷한 작업을 하고 있음

  • OpenAI의 함수 호출을 사용해 수천 개의 스캔 문서에서 필드를 추출했음

    • 다양한 입력 문서 형식에서 일부 필드의 회수가 좋지 않았음
    • JSON 스키마를 실험해 최적의 정보를 추출함
    • 긴 문서의 경우 전체 문서를 보낼지, 관련된 부분만 보낼지 결정해야 했음
    • OCR 품질이 좋지 않았음
    • 비기술 사용자가 반복적으로 #2를 수행할 수 있게 하는 것이 주요 혁신임
  • 큰 문제를 해결하지 못한 상황에서 출시를 축하함

    • 큰 문제와 예산을 가진 고객이 가장 소외됨
    • Palantir와 같은 온보딩/통합을 통해 고객 맞춤형 솔루션을 제공함
    • 99% 이상의 정확도와 인간의 개입이 효과적임
    • 95%에서 99%로의 개선이 큰 차이를 만들 수 있음
    • "AI 기반 워크플로우" 대신 "99%+ 정확도 추출"을 강조해야 함