MapleStory Finger Point
[Postmortem] 이커머스 이벤트 중 발생한 RDS 간헐적 장애 - N+1 쿼리
·
Cloud Architect/Root Cause Analysis
안녕하세요,실제 운영 환경의 이커머스에서 이벤트 행사 중 발생한RDS 관련 장애 조치에 대해서 포스팅 하려고 합니다.저는 이 문제를 "N+1" 쿼리 문제로 보고 있는데, 이견이 있으시다면 언제든 댓글 환영입니다! 01. 개요 및 장애 증상📌 개요실제 운영 환경의 이커머스 사이트에서 선착순 이벤트 진행 중 관리자 페이지에서 재고 관리 카테고리에 접근 시"Error: Database Query"오류가 발생 하였으며, 실제 고객들의 사이트 접근에도 일정 시간동안 작동되지 않음.추가적으로, 고객들의 몇 건의 결재 오류도 발생한 정황이 있습니다. 결론부터 말하자면, 인프라의 문제보다는 애플리케이션 코드의 "N+1 Query" 문제라고 판단이 돈다. 📌 대략적 인프라 환경RDS: db.r5.xlarge (..
Part 02. CloudFront 캐싱 정책 완벽 가이드
·
Cloud Architect/Root Cause Analysis
안녕하세요!이커머스 웹사이트 운영 중 겪은 AWS CloudFront 캐싱 정책변경 장애 사례와 해결 방법을 정리해봤습니다. 01. 실제 장애 사례✅ 장애 발생 배경초기 상황일 방문자 약 5,000명 규모의 이커머스 운영 중모바일 트래픽 70%발단업데이트 된 파일을 운영계에 배포.하지만 웹 사이트에 반영이 안되는 현상Cache 때문이라고 판단됨.해당 파일의 경로에 대해 캐시 초기화 (무효화) 진행여전히 반영이 되지 않았음 ✅ 시도한 해결책 1차 시도CloudFront 이미지(jpg, jpeg, png ..)경로의 캐시 정책 변경기존 : 기본 TTL 1일, 최대 TTL 1년변경 : 기본, 최대 TTL 10분목적 : 빠르게 업데이트 반영추가 조치default 경로에 User-Agent 헤더 추가 Cach..
Part 01. CloudFront 캐싱 정책 완벽 가이드
·
Cloud Architect/Root Cause Analysis
안녕하세요!이커머스 웹사이트 운영 중 겪은 AWS CloudFront 캐싱 정책변경 장애 사례와 해결 방법을 정리해봤습니다. 01. HTTP 통신과 헤더의 이해✅ 기본 HTTP 통신 흐름 간단하게, 고객이 웹사이트에 방문하게 된다면 아래와 같은 흐름으로 Traffic이 흘러갑니다.[사용자 브라우저] → [CloudFront] → [Origin Server] → [CloudFront] → [사용자 브라우저] 첫번째 : 브라우저가 요청을 보냄GET /index.php HTTP/1.1Host: 이커머스 사이트 주소입니다.User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 16_0 like Mac OS X)Accept: text/htmlAccept-Language: ko-KR..
[Incident Report] EFS 삭제 후 Disk 마비
·
Cloud Architect/Root Cause Analysis
안녕하세요?RCA 카테고리에서는 제가 실수한 부분들이나,몰랐던 부분들을 정리하고자 개설하게 되었으며참고 하셔도 좋을 것 같습니다 :) 이번 글 요약사용 중이던 EFS 파일시스템 삭제 이후, 인스턴스의 stunnel 기반 EFS 마운트가 DNS 이름을 계속 조회하며syslog에 초당 수백 줄의 에러 로그를 무한 기록./var/log/syslog가 수 십GB로 폭증 → 루트 디스크 100% → sudo, snapd, SSM Agent, vim, systemd-resolved까지연쇄적으로 장애.디스크 공간 즉시 확보 → EFS 재시도 차단 → DNS 복구 → snapd/SSM 복구 순서로 해결. 01. 증상 & 현상프라이빗한 서버에 접근하기 위해 기존에 Client VPN Endpoint를 사용하여 SSH..