GN⁺: GCP 사건 발생 현황
(blog.railway.app)구글 클라우드 플랫폼의 문제점과 대응
- Railway는 구글 클라우드 플랫폼(GCP)의 Compute Engine을 사용하여 애플리케이션 개발 플랫폼을 구동함.
- 특정 머신들이 응답하지 않게 되어 서비스에 장애가 발생했으며, 이는 약 10분간 지속되었음.
- 문제는 해결되어 모든 작업 부하가 성공적으로 이관되었고 서비스가 복구됨.
구글 클라우드와의 어려운 관계
- Railway는 지난 18개월 동안 구글 클라우드와 여러 문제를 겪음.
- 네트워킹 문제가 지속되자 자체 네트워킹 스택을 구축하여 문제를 해결함.
- 구글이 레지스트리 할당량을 제한하자 자체 레지스트리 제품을 만들어 해결함.
- 구글의 지원 서비스에 실망하여 구글의 부사장들과 문제 해결을 위해 논의함.
- 구글이 서비스 약관을 변경하여 비용이 20% 증가하였으며, 이에 대한 해결책을 기다리고 있음.
- Railway는 구글 클라우드 서비스를 중단하고 자체 베어 메탈 인스턴스로 이전할 계획임.
사건 복기
- 구글이 기계를 재시작하여 서버가 오프라인 상태가 됨.
- 자동 장애 복구 시스템이 있으나, 일부 서버가 복구되지 않아 수동으로 장애 복구를 진행함.
- 구글 클라우드의 자동 라이브 마이그레이션으로 인한 문제로 추정하고, 구글에 연락을 시도했으나 응답이 없었음.
- 시리얼 콘솔 로그 분석 결과, GCP 게스트에서 사용자 공간에서 커널로의 메모리 전송 중 드문 경우에 자원 압박 하에 소프트락이 발생하는 것으로 추정됨.
사용자를 위한 결론
- 수동 장애 복구 중 각 호스트당 약 10분간의 다운타임 발생함.
- 다중 서비스 워크로드를 실행하는 사용자에게는 다운타임이 더 길어질 수 있음.
- Railway는 사용자에게 불편을 끼친 점에 대해 사과하며, 더 높은 신뢰성을 제공하기 위해 자체 베어 메탈로 이전할 계획임.
GN⁺의 의견
이 기사에서 가장 중요한 것은 구글 클라우드 플랫폼의 기술적 문제와 고객 지원의 문제점이 사용자에게 미치는 영향이다. Railway가 겪은 문제들은 클라우드 서비스 제공자의 신뢰성과 지원에 대한 중요성을 강조하며, 이러한 문제를 해결하기 위해 자체 인프라를 구축하는 것의 중요성을 보여준다. 이 글은 클라우드 컴퓨팅의 복잡성과 잠재적인 위험성을 이해하는 데 도움이 되며, 기술적 문제에 대한 통찰력과 대응 방안을 제공함으로써 흥미롭고 유익하다.
Hacker News 의견
-
소규모 소프트웨어 회사의 경험
- 2인 소프트웨어 회사로서 Google과 여러 문제를 겪음.
- Google Adwords와 관련된 문제가 대부분임.
- Google이 큰 금액을 지불하는 원문 작성자에게 제대로 된 지원을 제공하지 않는다면, 작은 비즈니스에 대한 희망이 적음.
-
GCP의 변화에 대한 의견
- 몇 년 전 GCP는 AWS에 비해 가격 대비 성능 면에서 더 나은 옵션이었음.
- 당시 GCP의 지원은 우수했으며, 초기 티켓 처리 경험도 인상적이었음.
- 영업 팀과의 상호작용도 좋았으나, 지금은 AWS가 비용 대비 성능 면에서 GCP를 따라잡았고, 관리형 서비스에서 앞서 나감.
- GCP 지원 경험이 현저히 악화되었으며, 네트워크 문제 인식에 실패함.
- GCP에 대한 투자가 많았지만, 현재 상황에 실망하고 지출을 줄이려고 노력 중임.
-
GCP와 AWS의 신뢰성 비교
- GCP에서 컴퓨트 인스턴스가 다운되는 것은 드문 일임에도 불구하고 비판을 받음.
- AWS에서는 인스턴스가 자주 중단되거나 사라지는 경험을 함.
- AWS의 기본 요소가 GCP보다 덜 신뢰성 있다고 개인적인 경험과 AWS 문서를 통해 주장함.
-
클라우드 제공업체의 문제에 대한 의견
- 모든 클라우드 제공업체에 문제가 있음.
- AWS에서 여러 가지 이슈를 발견하고 보고했으며, 지원팀이 시간을 낭비하게 함.
- 핵심 서비스(EC2, EBS, S3)를 제외하고는 사용을 꺼림.
-
Google Cloud 지원 서비스에 대한 경험
- Google Cloud 지원 서비스에 대해 인상적이지 않음.
- AWS에서는 지원 경험이 항상 좋았음.
- Google Cloud에서 긍정적인 상호작용이 있을 경우, 강조하여 긍정적인 피드백을 제공할 것을 권장함.
-
GCP의 기능 문제에 대한 경험
- GCP의 기업용 기능이 제대로 작동하지 않았으며, 이를 수정하려고 할 때 다운타임을 유발함.
- GCP 대표들은 NDA를 상기시키며 문제를 인정하지 않으려 함.
-
GCP의 미문서화된 임계값에 대한 경험
- Cloud Run과 관련하여 CPU 사용량과 동시 요청에 기반한 설명할 수 없는 스케일링 이벤트를 경험함.
- 프리미엄 지원을 통해 추가 기준이 있음을 알게 되었으나, 자세한 설명을 듣지 못함.
-
Google Cloud 네트워킹 문제에 대한 해결책
- Google Cloud 제품에서 지속적인 네트워킹 문제를 겪음.
- 자체 네트워킹 스택을 구축하여 문제 해결함.
- UDP/Wireguard 오버레이가 기본 네트워크가 불안정할 때 어떻게 더 신뢰성 있을 수 있는지에 대한 의문 제기.
-
Google Cloud의 신뢰성에 대한 의견
- 초기 클라우드 컴퓨팅에서의 신뢰성 문제는 이해할 수 있으나, 2023년에 대형 고객을 실망시키는 것은 좋지 않은 상황임.
- 다른 사람들도 비슷한 경험을 했는지, 아니면 저자만 운이 나쁜 것인지 궁금함.
-
GCP에서의 문제에 대한 개인적인 혼란
- 중첩된 가상화가 문제와 무슨 관련이 있는지 혼란스러움.
- MMIO 명령어에 대한 언급이 이해되지 않음.
- 저자가 최근 사건에 대해 답답함을 느끼고 해결책을 찾으려고 애쓰는 것으로 보임.