GN⁺: 봇, 너무 많은 봇

(wakatime.com)

1P by neo 2달전 | favorite | 댓글 1개

봇, 너무 많은 봇

시작

ProductHunt는 100만 명 이상의 사용자 가입을 보유하고 있음
그 중 60% 이상이 봇임

시작은 이렇게

2014년부터 ProductHunt를 사용해 왔음
최근 대부분의 댓글이 ChatGPT로 생성된 것 같음

간단한 테스트

제품 설명에 LLM 프롬프트 주입 후 제품을 출시함
거의 모든 댓글이 자동화된 것임을 확인함

봇을 구별할 수 있는가?

댓글에 답변하는 것은 시간 낭비임
많은 봇이 댓글을 달고 있다면, 업보팅도 하고 있을 것임
돈을 주고 업보트를 구매하는 사람들도 있음

데이터 분석

ProductHunt의 사용자, 출시, 업보트, 댓글 목록을 분석함
100만 명 이상의 사용자 가입, 30만 개 이상의 출시, 250만 개의 댓글, 2000만 개의 업보트가 있음
각 제품은 일일 순위를 가지며, 이는 매일 자정 PDT 기준 24시간 후의 점수임

봇 계정 탐지

봇 탐지는 어려움
사용자 댓글 시간을 분석하여 트렌드를 찾으려 했음
예를 들어, 한 사용자는 677일 전에 가입하고 2009번 댓글을 달고 4649번 업보트를 함
이는 자동화를 사용하지만 봇은 아님
봇 사용자는 140일 전에 가입하고 173번 댓글을 달고 246번 업보트를 함
봇 댓글은 규칙적인 간격으로 달리며, 차트가 부드럽지 않고 박스형임
여러 기준에 따라 사용자에게 위험 점수를 부여함
ChatGPT 생성 댓글은 "game-changer"와 같은 단어를 더 자주 사용함
봇 댓글에는 쉽게 입력할 수 없는 문자나 제품 이름이 포함됨
클러스터링은 어느 정도 효과가 있지만, 많은 봇 계정은 사용 후 버려짐
최종적으로 60% 이상의 사용자 가입이 자동화된 봇 계정임을 탐지함

봇 활동의 시간 경과

2018년 이후 봇 사용자가 실제 사용자보다 많이 생성됨
2022년 말부터 봇 댓글이 급증함
2022년에도 봇 업보트가 실제 업보트를 초과함
봇은 투표 링을 형성하여 제작자가 업보트를 구매함
대부분의 출시 제품은 몇 개의 실제 업보트만 받음
일일 순위에서 1위를 차지하려면 15%의 봇 업보트가 필요함
60% 이상의 봇 업보트는 1위를 차지하지 못함

최종 생각

봇 업보트를 제거한 출시 목록을 만들고 싶었으나, 시간이 부족하여 다음 블로그 게시물로 미룸

GN⁺의 정리

ProductHunt의 사용자 중 60% 이상이 봇 계정임
봇 댓글과 업보트가 실제 사용자 활동을 왜곡함
봇 탐지는 어렵지만, 여러 기준을 통해 위험 점수를 부여하여 탐지 가능함
봇 활동이 증가하면서 ProductHunt의 신뢰성이 저하될 수 있음
유사한 기능을 가진 다른 제품으로는 Hacker News가 있음

▲

neo 2달전 [-]

Hacker News 의견

사용자가 봇인지 아닌지에 대한 임의의 분류로 시작하는 분석은 문제가 있음. 이 분류가 잘못되면 모든 분석이 잘못됨
- 예를 들어, 2022년 말에 봇 댓글이 급증했음. 이는 ChatGPT가 널리 사용되기 시작한 시기와 일치함
- ChatGPT 생성 댓글은 "game-changer" 같은 단어를 자주 사용함. 봇 댓글은 쉽게 타이핑할 수 없는 문자나 제품 이름을 그대로 포함함
- 따라서 ChatGPT처럼 행동하는 사용자를 봇으로 분류하고, ChatGPT 출시 후 이런 사용자가 증가했다고 생각함. 하지만 이미 많은 봇이 있었을 가능성도 있음
ProductHunt가 CAPTCHA 솔루션을 사용하는지 궁금함
- CAPTCHA는 스팸 공격을 막는 데 여전히 유용함
- 일반적인 비판은 사용성, 접근성, 프라이버시 문제임. 사용자들이 싫어함
- 최근 몇 년간 사용자 입력 없이 작동하고 프라이버시를 보호하는 CAPTCHA가 등장함
- 고급 봇은 CAPTCHA를 쉽게 우회할 수 있음. 하지만 전통적인 기술도 저급 봇을 막는 데 유용함. 고급 봇은 ML 같은 더 발전된 기술로 싸울 수 있음
- CAPTCHA는 실제 인간을 사용하는 공격에는 효과가 없음. 이는 다른 메커니즘이 필요함
5년 전 ProductHunt에 제품을 게시했을 때, 첫 번째 자리를 보장하는 수십 개의 메시지를 받았음. 지금은 아마 더 심할 것임
ProductHunt에 누가 있는지 궁금함. 고객? 아마 아닐 것임. Indiehackers? 아마도. 누구에게 판매하는지, ProductHunt에 출시할 가치가 있는지 의문임
개인적으로 알고 있는 사람의 노력과 결과가 잘 드러남. 잘했음
이는 "죽은 인터넷 이론"의 진전임. 진정한 상호작용을 보장하려면 남용 시 결과가 따르는 강력하고 신뢰할 수 있는 신원이 필요함
- 이 신원은 정부가 구현해야 함. 대형 기술 회사들은 아직 해결하지 못했고, 해결할 의지가 있는지 의문임
- 예를 들어, Google이 이를 강력히 단속하면 YouTube 트래픽의 60-80%가 봇에 의해 발생한 것이라면, 수익이 사라질 것임
Reddit에 몇 개의 게시물이 있는데, 가끔 GPT 기반 봇이 "주제? 와! 정말 생각을 자극하네요, 왜 중요한지 궁금해요" 같은 댓글을 다는 경우가 있음
- Reddit이 참여를 유도하기 위해 이런 봇을 운영하는 것일 수도 있음
많은 사람들이 GenAI와 대화하고 있다는 것을 인식하지 못할 것임
- 같은 사람이 여러 계정을 통해 다른 사람인 척 대화하는 경우가 이미 문제임. GenAI는 봇을 통해 내러티브를 저렴하게 조작할 수 있게 함
- 모든 소셜 네트워크의 문제임. 인간임을 검증하는 것이 유일한 해결책임
- 실제 인간만이 업보트/다운보트와 댓글을 달 수 있는 소셜 네트워크를 구축 중임
X에 1년 된 계정이 있는데, 한 번도 댓글을 단 적이 없음. 하지만 35명의 매력적인 여성이 나를 팔로우함. 남성이나 매력적이지 않은 여성은 없음. 이는 내 좋아요의 매력 때문이 아님
- 이는 웹 전체의 축소판임
누군가 "me good LLM" 티셔츠를 팔아야 함

답변달기