유출된 Google Search API 문서 분석
(sparktoro.com)- 얼마전 익명의 소스로부터 구글의 검색 API 문서가 대량으로 유출되었다는 이메일을 받음
- 문서의 진위는 전 구글 직원들에 의해 확인되었고, 일부 전직 구글 직원들과의 대화로 추가 정보도 포함됨
주요 주장
- 구글은 클릭 기반 사용자 신호를 사용하지 않는다고 반복적으로 부인해왔으나, 유출된 문서들은 이를 반박함
- 서브도메인을 별도로 평가하지 않으며, 새로운 웹사이트에 대한 샌드박스가 없고, 도메인 연령을 고려하지 않는다는 구글의 주장도 부정됨
- 구글 검색팀은 초기부터 검색 결과 품질을 향상시키기 위해 많은 웹 사용자의 클릭스트림 데이터(브라우저에서 방문한 모든 URL)를 필요로 했음
- DoJ에서 인용된 NavBoost 시스템은 구글 툴바 페이지랭크에서 데이터를 수집하고, 더 많은 클릭스트림 데이터를 얻기 위해 Chrome 브라우저를 개발하게 된 주요 동기였음
- NavBoost는 특정 키워드에 대한 검색 수, 검색 결과 클릭 수, 짧은 클릭과 긴 클릭을 분석하여 사용자 의도를 평가하고, 동영상이나 이미지에 대한 클릭이 많으면 NavBoost 관련 쿼리에 대한 동영상 또는 이미지 기능을 트리거함
- 클릭 데이터 활용: 구글은 쿠키 기록, 로그인된 Chrome 데이터, 패턴 감지 등을 사용하여 수동 및 자동 클릭 스팸을 방지하고, 사용자의 클릭 및 참여도를 분석하여 검색 결과에 반영함
- 사이트 품질 평가: NavBoost 데이터는 사이트의 전체 품질을 평가하는 데 사용되며(Panda라고 불리는), 이 평가에 따라 순위가 상승/강등
- NavBoot는 클릭 데이터를 지리적 데이터도 고려하여 국가 및 주/도 수준으로 구분하여 평가함
- 코로나19 및 선거 관련 검색 결과에 화이트리스트를 적용하여 특정 사이트를 우선적으로 표시함
문서의 신뢰성 검증
- 이 중 일부는 Google/DOJ 사건에서 밝혀진 정보와 겹치지만, 대부분은 새로운 내용
- 익명의 소스는 5/28에 자신을 공개했고, 그는 Erfan Azimi(SEO 전문가)임
- 전 구글 직원의 확인: 세 명의 전 구글 직원 중 두 명이 문서의 신뢰성을 확인함
- 기술적 검토: 기술 SEO 전문가 Mike King이 문서를 검토하고 신뢰성을 확인함
Google API Contents Warehouse ?
- 이 API 문서의 목적: 구글 팀원들이 프로젝트에 사용 가능한 데이터 요소를 이해하도록 돕기 위한 문서임
- 유출 경로: GitHub에 잠시 공개되었고, 이 기간 동안 문서가 유출됨
주요 발견 사항
#1: Navboost와 클릭 데이터 활용
- 클릭 데이터 필터링: 구글은 랭킹 시스템에서 고려할 클릭 데이터를 필터링하고, 클릭 길이와 인상을 측정함.
- 순위 시스템에 포함시키고 싶지 않은 클릭은 걸러내고, 포함시키고 싶은 클릭은 포함시키는 방법을 가지고 있음
- 클릭 길이(예: 검색자가 검색 결과를 클릭했다가 찾은 답변에 만족하지 못해 뒤로 버튼을 빠르게 클릭하는 경우)와 노출 횟수를 측정하는 것으로 보임
#2: Chrome 브라우저 클릭스트림 활용
- Chrome 클릭스트림 데이터: 구글은 Chrome 브라우저의 클릭 데이터를 사용하여 Sitelinks(해당 웹사이트의 인기 있는 URL)을 결정함
#3: 여행, 코로나, 정치 관련 화이트리스트
- 화이트리스트 존재: 여행, 코로나, 선거 관련 검색 결과에 특정 도메인을 우선적으로 표시함
#4: 품질 평가자 피드백 활용
- 품질 평가자 데이터: 품질 평가자의 평가가 검색 시스템에 직접적으로 사용될 가능성이 있음
#5: 링크 랭킹 가중치 결정에 클릭 데이터 사용
- 링크 인덱스 분류: 클릭 데이터를 사용하여 링크 인덱스를 고품질, 중간 품질, 저품질로 분류함
마케터를 위한 주요 시사점
- 브랜드 중요성: 구글은 큰 브랜드를 우선적으로 랭킹에 반영함
-
E-E-A-T 요소의 중요성 감소: 일부 SEO가 강조하는 경험, 전문성, 권위, 신뢰성 요소가 직접적으로 랭킹에 반영되지 않을 가능성이 있음
- Experience, Expertise, Authoritativeness, Trustworthiness
- 사용자 의도와 클릭 패턴이 콘텐츠와 링크보다 더 중요한 랭킹 요소임
- 페이지랭크, 앵커 텍스트 등 전통적인 랭킹 요소의 중요성이 감소하고 있음
- SEO의 어려움: 중소기업과 새 창작자/퍼블리셔에게 SEO는 큰 브랜드와 경쟁하기가 더 어려워짐
막연히 짐작은 했지만, 펼쳐져 놓인 것을 보니 멘붕이군요...
Navboost 까지는 수긍할 수 있을 것 같은데...
화이트리스트는 충격이네요. 말이 좋아서 화이트지, 노골적인 차별 정책인데 말이죠.