使用HPA做coreDNS扩容,cpu阈值设置比较低(30%),导致coreDns 频繁 扩容/缩容。
观察到一个go语言服务在coreDns缩容时出现调用第三方接口超时问题,出现504:
使用curl访问,能看到dns解析超时
$ for id in `seq 1 100`;do curl -s "http://internal.scloud.xxx.com/api/v1/list?para=123" -o /dev/null -w "%{time_namelookup} %{time_connect} %{time_total}\n";done 2.555 2.559 2.569
调用同一个接口的PHP业务未出现该问题(UPDATE: PHP业务直接用了ClusterIP,所以不好对比了)。
解决缩容问题后,业务不报警了,但是仍然存在dns解析慢的情况,使用curl能够复现(1000次出现1到3次左右),怀疑可能是alpine镜像的问题