coredns IPVS规则未更新

故障表现为 kube-dash-proxy 偶尔会报域名无法解析(kube-dash-proxy用lua做sso和权限校验,会代理到cmdb去取权限信息,会出现无法解析sso和cmdb域名的情况),由于其他业务均为出现dns问题,一开始怀疑是nginx配置问题,尝试nginx resolver配置添加ipv6=off,无效。

后来观察到kube-dash-proxy故障开始时间和coredns HPA自动缩容时间一致,进而排查业务所在机器,发现ipvs规则未更新:

TCP的是正常的,UDP的多了一个IP,所以出现了kube-dash-proxy偶尔解析不了域名的情况

See: