Hacker News 의견
  • 코드를 읽으면서 몇 가지 작은 팁을 공유함

    • 벡터를 한 번에 읽을 수 있음
    • BLAS를 사용하여 유사성을 더 빠르게 계산할 수 있음
    • 벡터를 로드할 때 정규화하면 코사인 유사도는 벡터의 내적이 됨
    • 여러 CPU를 지원할 수 있는지 궁금함
    • word2vec 저장소가 데이터 할당량을 초과했음
    • 대체 소스로 Stack Overflow와 Hugging Face를 제안함
  • 이 아이디어가 매우 유용하고 왜 생각하지 못했는지 궁금해짐

  • 이미 semgrep이라는 도구와 회사가 존재함

  • 이 도구가 설명적 문구나 복합 문구를 처리할 수 있다면 매우 유용할 것임

    • 현재 검색 엔진의 가장 큰 단점은 단일 히트 검색임
  • 매우 멋진 도구임

    • 각 줄을 단어로 나누고 각 단어의 임베딩을 사용하는 것 같음
    • 긴 텍스트 시퀀스를 의미적으로 검색할 수 있는지 궁금함
    • Transformer 모델을 사용하는 것보다 단어 벡터를 사용하는 것이 더 빠르고 가벼울 것임
    • 잘 분리되지 않은 단어를 감지하고 서브스트링으로 나타나는 모든 단어를 찾는 방법도 고려할 수 있음
  • 이 도구가 매우 멋지며 꼭 사용해보고 싶음

    • 텍스트 전반에 걸친 의미적 검색이 많은 응용 프로그램에서 더 나은 사용자 경험을 제공할 것임
  • 비슷한 도구로 fltr를 제안함

    • 자연어 질문을 위한 grep과 유사함
  • 매우 멋지며, 파일 이름도 검색할 수 있는지 궁금함

  • 매우 멋진 도구를 발견하게 됨

    • semgrep이 이미 사용 중이므로 다른 이름을 고려해야 함