▲neo 3달전 | parent | favorite | on: GN⁺: Launch HN: Trellis – 비정형 데이터용 AI 기반 워크플로우(news.ycombinator.com)Hacker News 의견 오픈 소스 Python 패키지를 개발 중이며, 비슷한 기능을 제공함 Enron 이메일 데모 예시를 공유함 주요 상업 은행에서 PDF와 이메일에 갇힌 데이터를 해결하지 못해 신용 위험 모델을 개선하지 못했음 이 문제를 해결하는 것은 큰 가치를 창출함 SoundTrace에서 관련된 프로젝트를 진행했음 새로운 클라이언트의 PDF 오디오그램 데이터를 완벽하게 추출해야 함 파이프라인을 통해 PDF를 OCR로 텍스트와 테이블을 추출하고, LLM을 통해 직접 파싱함 오디오그램 그래프를 컨브넷으로 보내고, 테이블을 프로그래밍 방식으로 파싱함 결과를 Claude sonnet을 통해 검증하고, 일치하지 않으면 수동 검토함 정확도가 거의 100%에 도달했음 Instabase에서 일했으며, PDF와 문서 스캔을 처리하는 능력이 중요함 Trellis의 출시를 축하하며, 엣지 케이스가 거의 0%에 가까워야 함 모든 조직이 필요로 하는 서비스이며, 성공하면 많은 고객이 생길 것임 Roe AI와의 경쟁 및 차이점에 대해 질문함 데이터의 정확성을 어떻게 검증했는지 궁금해함 개인 프로젝트에서 TypeChat과 Zod, Unstructured를 사용해 비슷한 작업을 하고 있음 OpenAI의 함수 호출을 사용해 수천 개의 스캔 문서에서 필드를 추출했음 다양한 입력 문서 형식에서 일부 필드의 회수가 좋지 않았음 JSON 스키마를 실험해 최적의 정보를 추출함 긴 문서의 경우 전체 문서를 보낼지, 관련된 부분만 보낼지 결정해야 했음 OCR 품질이 좋지 않았음 비기술 사용자가 반복적으로 #2를 수행할 수 있게 하는 것이 주요 혁신임 큰 문제를 해결하지 못한 상황에서 출시를 축하함 큰 문제와 예산을 가진 고객이 가장 소외됨 Palantir와 같은 온보딩/통합을 통해 고객 맞춤형 솔루션을 제공함 99% 이상의 정확도와 인간의 개입이 효과적임 95%에서 99%로의 개선이 큰 차이를 만들 수 있음 "AI 기반 워크플로우" 대신 "99%+ 정확도 추출"을 강조해야 함
Hacker News 의견
오픈 소스 Python 패키지를 개발 중이며, 비슷한 기능을 제공함
주요 상업 은행에서 PDF와 이메일에 갇힌 데이터를 해결하지 못해 신용 위험 모델을 개선하지 못했음
SoundTrace에서 관련된 프로젝트를 진행했음
Instabase에서 일했으며, PDF와 문서 스캔을 처리하는 능력이 중요함
Trellis의 출시를 축하하며, 엣지 케이스가 거의 0%에 가까워야 함
Roe AI와의 경쟁 및 차이점에 대해 질문함
데이터의 정확성을 어떻게 검증했는지 궁금해함
개인 프로젝트에서 TypeChat과 Zod, Unstructured를 사용해 비슷한 작업을 하고 있음
OpenAI의 함수 호출을 사용해 수천 개의 스캔 문서에서 필드를 추출했음
큰 문제를 해결하지 못한 상황에서 출시를 축하함