故障表现为 kube-dash-proxy 偶尔会报域名无法解析(kube-dash-proxy用lua做sso和权限校验,会代理到cmdb去取权限信息,会出现无法解析sso和cmdb域名的情况),由于其他业务均为出现dns问题,一开始怀疑是nginx配置问题,尝试nginx resolver配置添加ipv6=off
,无效。
后来观察到kube-dash-proxy
故障开始时间和coredns
HPA自动缩容时间一致,进而排查业务所在机器,发现ipvs
规则未更新:
TCP的是正常的,UDP的多了一个IP,所以出现了kube-dash-proxy
偶尔解析不了域名的情况
See: