[Postmortem] 이커머스 이벤트 중 발생한 RDS 간헐적 장애 - N+1 쿼리
·
Cloud Architect/Root Cause Analysis
안녕하세요,실제 운영 환경의 이커머스에서 이벤트 행사 중 발생한RDS 관련 장애 조치에 대해서 포스팅 하려고 합니다.저는 이 문제를 "N+1" 쿼리 문제로 보고 있는데, 이견이 있으시다면 언제든 댓글 환영입니다! 01. 개요 및 장애 증상📌 개요실제 운영 환경의 이커머스 사이트에서 선착순 이벤트 진행 중 관리자 페이지에서 재고 관리 카테고리에 접근 시"Error: Database Query"오류가 발생 하였으며, 실제 고객들의 사이트 접근에도 일정 시간동안 작동되지 않음.추가적으로, 고객들의 몇 건의 결재 오류도 발생한 정황이 있습니다. 결론부터 말하자면, 인프라의 문제보다는 애플리케이션 코드의 "N+1 Query" 문제라고 판단이 돈다. 📌 대략적 인프라 환경RDS: db.r5.xlarge (..