▲neo 2023-11-10 | parent | favorite | on: GN⁺: GPT-4 Vision과 Vimium을 활용한 웹 탐색(github.com/ishan0102)Hacker News 의견 이제 이런 것이 가능하다는 것이 믿기 어려움: 사용자가 특정 작업을 수행하도록 돕기 위해 선택할 수 있는 옵션으로 'navigate', 'type', 'click', 'done'이 있음. 'navigate'는 지정된 URL로 이동해야 하며, 'type'과 'click'은 문자열을 받아 처리함. 클릭할 때는 노란색 문자 시퀀스를, 타이핑할 때는 메시지를 문자열로 반환해야 함. 페이지가 만족스러우면 'done'을 키로 반환하고, 반드시 JSON 형식으로만 응답해야 함. 내 직장에서는 기술 부채가 너무 크기 때문에 수동으로 데이터를 복사하는 사람들이 많음: 이러한 도구들이 기존 문제를 해결할 수 있는 계층으로 작용할 것에 대해 기대감 표현. 제작자로부터의 인사말: 프로젝트 공유에 감사하며, 질문이 있으면 알려달라고 요청. README에 다음 단계에 대한 아이디어가 있으니 기여를 환영함. vim이 ChatGPT에 적합한 "구현체"라는 의견: 텍스트 스트림으로 모든 것을 할 수 있으며, 인터넷에는 이미 vimscript가 많이 있음. 비슷한 실험을 시작했다고 언급하며 관련 프로젝트 링크 공유. GPT-4 Vision을 이용한 스크린샷과 브라우징 작업에 대한 논의: 스크린샷에 정보를 오버레이하는 데 실패한 후, playwright에서 접근성 트리를 텍스트로 가져와 모델에게 상호작용 옵션을 알려주는 방식이 더 나은 결과를 보임. 제작자에게 이 아이디어를 미래의 아이디어 목록에 추가할 것을 제안. ChatGPT 인터페이스를 통해 실험한 경험 공유: CSS를 업데이트하여 그라데이션과 둥근 모서리를 제거할 것을 제안. 레드와 볼드한 화이트 텍스트 조합이 가장 일관된 결과를 보임. 폰트 크기를 늘리고, 레이블이 겹칠 경우 분리하고 화살표를 추가할 것을 조언. 주석이 추가된 이미지와 추가되지 않은 이미지 두 가지를 API에 보낼 것을 권장. 이러한 도구가 웹 추적이나 광고에 어떤 영향을 미칠지에 대한 질문: 에이전트가 사용자를 대신하여 광고나 팝업 없이 원하는 내용을 찾아주는 '광고 차단기'로서의 잠재력. SEO의 중요성을 감소시키고 인터넷의 질을 향상시킬 수 있음을 상상. 반면에 광고가 가져올 수 있는 부정적인 영향에 대한 우려도 표현. 브라우저를 위한 자동 조종 장치를 만들 수 있음: 이 기술이 대규모로 배포되면 봇 트래픽을 구별하기 매우 어려워질 것임. 단기적으로 비용이 저렴하거나 접근 가능하지 않을 것이라는 문제 제기. GPT-4V가 웹 스크래핑에 새로운 관점을 제시했다는 긍정적인 의견: 이 코드나 유사한 코드가 여러 프로젝트에 활용될 것으로 예상. 예를 들어, LinkedIn이나 Twitter 같은 웹사이트를 스크래핑하거나, 경쟁사 분석, 산업 분야 이해, 뉴스 획득 등에 사용될 수 있음. 실제 사용해본 경험 공유: 클릭 가능한 옵션에 대한 작은 주석이 화면에 종종 나타나지 않아 루프에 빠지는 문제 발생. Twitter에 로그인하는 데 성공했지만, 100개의 이미지 API 제한을 빠르게 소진함. 향후 버전에서는 텍스트 기반 브라우저를 주로 사용하고, 복잡한 상황에서만 비전을 사용하는 방안 제안.
Hacker News 의견
이제 이런 것이 가능하다는 것이 믿기 어려움:
내 직장에서는 기술 부채가 너무 크기 때문에 수동으로 데이터를 복사하는 사람들이 많음:
제작자로부터의 인사말:
vim이 ChatGPT에 적합한 "구현체"라는 의견:
GPT-4 Vision을 이용한 스크린샷과 브라우징 작업에 대한 논의:
ChatGPT 인터페이스를 통해 실험한 경험 공유:
이러한 도구가 웹 추적이나 광고에 어떤 영향을 미칠지에 대한 질문:
브라우저를 위한 자동 조종 장치를 만들 수 있음:
GPT-4V가 웹 스크래핑에 새로운 관점을 제시했다는 긍정적인 의견:
실제 사용해본 경험 공유: