Hacker News 의견
  • 이제 이런 것이 가능하다는 것이 믿기 어려움:

    • 사용자가 특정 작업을 수행하도록 돕기 위해 선택할 수 있는 옵션으로 'navigate', 'type', 'click', 'done'이 있음.
    • 'navigate'는 지정된 URL로 이동해야 하며, 'type'과 'click'은 문자열을 받아 처리함.
    • 클릭할 때는 노란색 문자 시퀀스를, 타이핑할 때는 메시지를 문자열로 반환해야 함.
    • 페이지가 만족스러우면 'done'을 키로 반환하고, 반드시 JSON 형식으로만 응답해야 함.
  • 내 직장에서는 기술 부채가 너무 크기 때문에 수동으로 데이터를 복사하는 사람들이 많음:

    • 이러한 도구들이 기존 문제를 해결할 수 있는 계층으로 작용할 것에 대해 기대감 표현.
  • 제작자로부터의 인사말:

    • 프로젝트 공유에 감사하며, 질문이 있으면 알려달라고 요청.
    • README에 다음 단계에 대한 아이디어가 있으니 기여를 환영함.
  • vim이 ChatGPT에 적합한 "구현체"라는 의견:

    • 텍스트 스트림으로 모든 것을 할 수 있으며, 인터넷에는 이미 vimscript가 많이 있음.
    • 비슷한 실험을 시작했다고 언급하며 관련 프로젝트 링크 공유.
  • GPT-4 Vision을 이용한 스크린샷과 브라우징 작업에 대한 논의:

    • 스크린샷에 정보를 오버레이하는 데 실패한 후, playwright에서 접근성 트리를 텍스트로 가져와 모델에게 상호작용 옵션을 알려주는 방식이 더 나은 결과를 보임.
    • 제작자에게 이 아이디어를 미래의 아이디어 목록에 추가할 것을 제안.
  • ChatGPT 인터페이스를 통해 실험한 경험 공유:

    • CSS를 업데이트하여 그라데이션과 둥근 모서리를 제거할 것을 제안.
    • 레드와 볼드한 화이트 텍스트 조합이 가장 일관된 결과를 보임.
    • 폰트 크기를 늘리고, 레이블이 겹칠 경우 분리하고 화살표를 추가할 것을 조언.
    • 주석이 추가된 이미지와 추가되지 않은 이미지 두 가지를 API에 보낼 것을 권장.
  • 이러한 도구가 웹 추적이나 광고에 어떤 영향을 미칠지에 대한 질문:

    • 에이전트가 사용자를 대신하여 광고나 팝업 없이 원하는 내용을 찾아주는 '광고 차단기'로서의 잠재력.
    • SEO의 중요성을 감소시키고 인터넷의 질을 향상시킬 수 있음을 상상.
    • 반면에 광고가 가져올 수 있는 부정적인 영향에 대한 우려도 표현.
  • 브라우저를 위한 자동 조종 장치를 만들 수 있음:

    • 이 기술이 대규모로 배포되면 봇 트래픽을 구별하기 매우 어려워질 것임.
    • 단기적으로 비용이 저렴하거나 접근 가능하지 않을 것이라는 문제 제기.
  • GPT-4V가 웹 스크래핑에 새로운 관점을 제시했다는 긍정적인 의견:

    • 이 코드나 유사한 코드가 여러 프로젝트에 활용될 것으로 예상.
    • 예를 들어, LinkedIn이나 Twitter 같은 웹사이트를 스크래핑하거나, 경쟁사 분석, 산업 분야 이해, 뉴스 획득 등에 사용될 수 있음.
  • 실제 사용해본 경험 공유:

    • 클릭 가능한 옵션에 대한 작은 주석이 화면에 종종 나타나지 않아 루프에 빠지는 문제 발생.
    • Twitter에 로그인하는 데 성공했지만, 100개의 이미지 API 제한을 빠르게 소진함.
    • 향후 버전에서는 텍스트 기반 브라우저를 주로 사용하고, 복잡한 상황에서만 비전을 사용하는 방안 제안.