현대 AI에서 임베딩이 인간에게 더 많은 힘을 주는 유일한 요소로 흥미로움. 이는 스티브 잡스가 말한 "우리의 마음을 위한 자전거"와 같으며, 지능 증폭을 의미함. 컴퓨터 사용성에서 가장 큰 발전은 빠르고 보편적인 로컬 검색의 도입이었음. Firefox의 "페이지에서 찾기" 기능을 자주 사용하며, 검색과 grep을 매일 사용함. 임베딩은 실제로 유용한 퍼지 검색을 제공하여 검색의 가장 큰 약점을 해결할 가능성이 있음
문서 사이트 소유자로서, REST API 또는 잘 알려진 URI를 통해 임베딩을 자유롭게 제공하는 것을 고려해야 할지 궁금함. 어떤 임베딩 모델을 사용했는지 명확히 해야 하며, 기술 문서에 적합한 임베딩 모델이 있는지에 대한 질문이 있음
환경에 대한 우려가 있지만, AI 사용을 줄이는 것이 기후 문제를 해결할 수 있다는 대중의 의견은 잘못된 것이라고 생각함. 예를 들어, Google Maps를 금지하면 잘못된 경로를 선택하게 되어 더 많은 연료를 소비하게 됨. 임베딩을 사용한 문서 생성도 마찬가지로, 컴퓨팅 자원을 사용하는 것이 더 효율적임
임베딩을 사용하여 웹 앱에서 활용하는 방법에 대한 재미있는 경험을 공유함. 문서화를 통해 프로덕션에서 임베딩을 사용하는 방법을 설명함
임베딩이 입력 문자열의 모든 것을 나타내어 목표가 없는 것처럼 보임. 특정 응용 프로그램을 위한 임베딩의 차원 축소 방법에 대한 질문이 있음. 예를 들어, 기술 지원 대화를 찾는 시스템을 구축할 때 대화의 내용만을 나타내는 임베딩을 도출하는 방법에 대한 궁금증이 있음
벡터 임베딩은 문서의 고유한 요약으로, 해시 코드와 유사함. 임베딩 생성에 대한 보편적인 표준이 있으면 좋겠지만, AI 모델마다 다르기 때문에 해시 코드와 같은 "영구성"을 가질 수 없음. 코사인 유사성 같은 알고리즘을 데이터베이스와 정보 처리 앱에서 활용할 수 있는 방법이 많을 것 같음
임베딩이 과소평가되고 있다고 생각함. 정보 검색/발견 분야가 여전히 키워드 기반 발견을 사용하고 있으며, 현대 도구인 의미 기반 발견을 수용하지 않고 있음. 문장을 벡터 임베딩으로 변환하고 k-means 클러스터링을 적용하여 ChatGPT로 요약하는 방법을 사용하여 시간을 절약함
기술 작가들이 임베딩의 유용성을 과소평가하고 있다고 제안함. 머신러닝 실무자들은 임베딩을 과소평가하지 않음
OpenAI 임베딩 모델이 8191/8192 토큰을 지원하는지에 대한 질문이 있음. 토큰 크기로 승자를 선언하는 것은 오해의 소지가 있으며, 교차 언어 지원과 정밀도 같은 더 중요한 요소가 있음
임베딩이 과대평가되었다고 생각하며, 이는 많은 사람들이 기대했던 만능 해결책이 아님. BM25 같은 간단한 방법을 완전히 대체하지 않으며, 제한된 의미 이해만을 제공함. 높은 기대가 임베딩이 정확히 원하는 것을 검색할 것이라는 믿음을 주지만, 결과를 면밀히 검토하지 않으면 불일치를 알아차리기 어려움
Hacker News 의견
현대 AI에서 임베딩이 인간에게 더 많은 힘을 주는 유일한 요소로 흥미로움. 이는 스티브 잡스가 말한 "우리의 마음을 위한 자전거"와 같으며, 지능 증폭을 의미함. 컴퓨터 사용성에서 가장 큰 발전은 빠르고 보편적인 로컬 검색의 도입이었음. Firefox의 "페이지에서 찾기" 기능을 자주 사용하며, 검색과 grep을 매일 사용함. 임베딩은 실제로 유용한 퍼지 검색을 제공하여 검색의 가장 큰 약점을 해결할 가능성이 있음
문서 사이트 소유자로서, REST API 또는 잘 알려진 URI를 통해 임베딩을 자유롭게 제공하는 것을 고려해야 할지 궁금함. 어떤 임베딩 모델을 사용했는지 명확히 해야 하며, 기술 문서에 적합한 임베딩 모델이 있는지에 대한 질문이 있음
환경에 대한 우려가 있지만, AI 사용을 줄이는 것이 기후 문제를 해결할 수 있다는 대중의 의견은 잘못된 것이라고 생각함. 예를 들어, Google Maps를 금지하면 잘못된 경로를 선택하게 되어 더 많은 연료를 소비하게 됨. 임베딩을 사용한 문서 생성도 마찬가지로, 컴퓨팅 자원을 사용하는 것이 더 효율적임
임베딩을 사용하여 웹 앱에서 활용하는 방법에 대한 재미있는 경험을 공유함. 문서화를 통해 프로덕션에서 임베딩을 사용하는 방법을 설명함
임베딩이 입력 문자열의 모든 것을 나타내어 목표가 없는 것처럼 보임. 특정 응용 프로그램을 위한 임베딩의 차원 축소 방법에 대한 질문이 있음. 예를 들어, 기술 지원 대화를 찾는 시스템을 구축할 때 대화의 내용만을 나타내는 임베딩을 도출하는 방법에 대한 궁금증이 있음
벡터 임베딩은 문서의 고유한 요약으로, 해시 코드와 유사함. 임베딩 생성에 대한 보편적인 표준이 있으면 좋겠지만, AI 모델마다 다르기 때문에 해시 코드와 같은 "영구성"을 가질 수 없음. 코사인 유사성 같은 알고리즘을 데이터베이스와 정보 처리 앱에서 활용할 수 있는 방법이 많을 것 같음
임베딩이 과소평가되고 있다고 생각함. 정보 검색/발견 분야가 여전히 키워드 기반 발견을 사용하고 있으며, 현대 도구인 의미 기반 발견을 수용하지 않고 있음. 문장을 벡터 임베딩으로 변환하고 k-means 클러스터링을 적용하여 ChatGPT로 요약하는 방법을 사용하여 시간을 절약함
기술 작가들이 임베딩의 유용성을 과소평가하고 있다고 제안함. 머신러닝 실무자들은 임베딩을 과소평가하지 않음
OpenAI 임베딩 모델이 8191/8192 토큰을 지원하는지에 대한 질문이 있음. 토큰 크기로 승자를 선언하는 것은 오해의 소지가 있으며, 교차 언어 지원과 정밀도 같은 더 중요한 요소가 있음
임베딩이 과대평가되었다고 생각하며, 이는 많은 사람들이 기대했던 만능 해결책이 아님. BM25 같은 간단한 방법을 완전히 대체하지 않으며, 제한된 의미 이해만을 제공함. 높은 기대가 임베딩이 정확히 원하는 것을 검색할 것이라는 믿음을 주지만, 결과를 면밀히 검토하지 않으면 불일치를 알아차리기 어려움