대규모 언어 모델이 디지털 공공재에 위협이 될까요?
(arxiv.org)- ChatGPT 이후의 스택 오버플로우 활동을 통해 알아본 LLM이 웹 콘텐츠에 미치는 영향에 대한 분석.
- 스택 오버플로우는 ChatGPT 이후로 활동이 16%~25%까지 감소하였음.
- 많이 사용하고 유명한 언어일수록 감소 폭이 더 큼.
- ChatGPT가 차단된 중국, 러시아 사이트나 AI가 대체하기 어려운 수학 관련된 사이트와 비교했을 때의 수치.
- 게시글에 대한 투표수는 변하지 않아 답변의 품질이 더 올라간 것은 아니라고 볼 수 있음.
- ChatGPT 이후로 사람이 생성한 데이터가 줄어들고 있다는 의미.
- 이에 따라 여러 가지 문제가 발생할 수 있음.
- 인터넷 전반에 있는 자료의 양과 품질이 감소하게 되며, AI 학습 데이터의 효율 또한 감소할 수 있음.
- ChatGPT의 데이터는 OpenAI가 독점적으로 소유하므로, 기업 간 기술 격차가 더 크게 벌어질 수 있음.
- 사람의 탐구 범위를 좁히고, AI가 학습하지 않은 새로운 제품이나 언어의 발전이 저하될 수 있음.
- LLM의 혜택을 보기 어려운 국가 간, 소득 간 격차 등 계층 간의 격차가 더 벌어질 수 있음.
- 지속 가능한 웹과 AI의 생태계를 위해 고민해 봐야 할 문제.
언어모델이 스택오버플로가 하던 소통을 대신 하면서 사람끼리 소통하면서 인터넷에 공유되는 지식은 점차 줄어들고 있는 것 같네요. 성당과 시장의 은유를 빌리면 정확한 의미에서 누군가 독점한 성당이 되는 것 같습니다.
걱정되면서 개인적으로 겪은 가장 큰 문제는 경제학에서 말하는 "악화가 양화를 구축한다"가 벌어지고 있는 것 입니다.
ChatGPT 나오기 전에 구글 광고를 승인 받으려면, 작년 연말 기준으로 블로그에 글을 8개 정도 쓰면 되었는데요. 지금은 그거 2배를 써도 컨텐츠 부족 혹은 유효하지 않은 컨텐츠로 승인이 안됩니다. 손으로 다 쓴 글인데도 불구하고요.
AI로 자동 생성된 블로그가 많아지니, AdSense 승인 기준이 올라갔고 그 끝이 어딘지 알 수도 없습니다. 덕분에 3달 가까이 영화 리뷰 쓰던 블로그에서 AdSense 승인 받기를 포기한 상태고요.
검사하는 쪽에서 이게 양화인지(사람이 쓴 컨텐츠인지), 악화인지(AI로 만들거나, AI로 만들고 손본건지) 구분 할 수 없으니 기준을 높이는 방식으로 갈테고. 결국엔 우리가 올 초에 봤던 자동생성된 웹페이지만 구글 검색 결과 상위에 노출되던 그런 모습을 보게 되지 않을까 싶어요.
저는 오히려 긍정적으로 보는 편이긴 합니다.
전통적인 정보 검색 방식은 "검색엔진에 적절한 검색어를 입력하는 능력"과 "검색 결과에서 내가 원하던 결과를 골라내는 능력" 두 가지가 필요했습니다. 여기서 얻는 피로도가 상당했습니다.
단순한 일을 하는 코드를 찾고싶을 뿐인데 검색결과에 나오는 StackOverflow 글을 타고 들어가보면 서너개의 답변 코드가 있고, 그 중에 어떤 건 옛날 언어 스펙이라 복잡하다고 downvote를 받고, 어떤 건 채택은 되어있지만 버전업이 되면서 더이상 제대로 굴러가지 않아 코멘트에서 사람들이 열심히 불편을 호소하고 자기들끼리 해결법을 찾아나가고 있죠. 이런 일들이 생각보다 종종 있었습니다.
결국 큰 맥락에서 보면 정보화 시대 이후로 "정보의 홍수 속에서 내가 정말 원하는 정보를 골라내는 능력"이 필요한 것은 변함이 없으나, 내게 주어지는 선택지가 너무 많아지고 있어 판단하기 귀찮고 피곤해지고 있다고 생각합니다.
이런 점에서 잘 훈련된 대규모 언어 모델은 사람들이 자주 찾는 아주 trivial한 정보에서부터 어느 정도 고차원의 정보까지 합리적인 UX로 제공할 수 있기 때문에 오히려 어느정도 분업화가 가능하다고 생각합니다.
LLM으로는 적절한 답변을 얻기 힘든 아주 최신의 정보나 다양한 문맥이 여러모로 얽혀있는 복잡한 질문 같은 것들이 StackOverflow 같은 질답서비스가 담당하게 되는거죠.
다만 LLM이 그만큼 정확한 정보를 명확한 근거에 기반해 선별해서 대중에 제공할 수 있느냐는 과제로 남아있다고 생각합니다.
물론 일부 사이트만 연구한 좀 한정된 연구라 편향이 클 수도 있지만,
결국 여러모로 기술 격차가 벌어질 수 있다는 부분은 위험하다는 생각이 들긴 하네요.
댓글 중에 "AI는 사람들이 작성한 콘텐츠의 가치가 창출하는 돈을 AI 회사로 돌리는, 부의 집중을 일으킨다"라는 말이 있던데,
이게 공감이 가네요.