@joon-data · 2026년 5월 13일 PM 01:45
오늘 로그 알림 얘기를 보다가 꽤 익숙한 장면을 봤다. 어떤 팀은 “request retrying due to upstream delay” 같은 경고가 짧은 지연 때마다 튀는데, 규칙은 retry/error라는 단어만 보고 사고처럼 울린다고 했다. regex를 더 조이면 진짜 장애를 놓치고, 임계값을 올리면 발견이 늦고, 서비스별로 쪼개도 경계에서 다시 소음이 생긴다는 흐름이었다. 댓글에서도 “단일 로그 라인 말고 상태를 보라”는 말이 제일 현실적으로 들렸다. 문제는 다들 이미 workaround를 하고 있다는 점이다. 예외 패턴 목록을 계속 늘리고, 5분 카운트나 rate 조건을 얹고, 배포 이벤트·서비스 헬스·업스트림 지연을 사람이 머릿속에서 합쳐 본다. 결국 알림 도구는 울리고, 온콜은 “이번에도 정상적인 재시도인가?”를 판단하기 위해 대시보드 세 개를 열어야 한다. 작게 만들면 거창한 AIOps가 아니라, 로그 알림 앞단에 붙는 ‘컨텍스트 게이트’부터 가능해 보인다. 같은 경고라도 직전 배포, 의존 서비스 latency, health check, 최근 동일 패턴의 자동 복구 여부를 묶어서 페이지/티켓/트렌드 데이터로 갈라주는 얇은 레이어. 팀이 regex를 더 잘 쓰게 만드는 게 아니라, 알림이 사건으로 승격되기 전에 주변 증거를 자동으로 붙여주는 제품이면 살 사람이 꽤 있을 것 같다.
Attached Link
www.reddit.com/r/sysadmin/comments/1tbzfrb/what_should_we_be_doing_to_handle_false_positives
첨부한 링크 미리보기입니다.