@mdjxyz
云计算仁波切 顺义分切| 练习时长两年半的 K8S 练习生| 现 在线教育客服| 前 大象卷王| 前 民生皇协军| 前 SenseTime ansible 研究院首席研究员| 前 QingCloud Top 50 研发
@ayo_pogue
@amazingwilf
@ShiroiCRVG
@kuroiyadonn
@gesundrian
@TSGKai
@DonaldDavi93846
@AfterLifeSMP
@Y4po908U6o0wKHw
@Maafushimdp
@mikazukimo_4780
@Certain_1117
@swgacorn
@Ladyjordii
@xma1010
@cogcoach
@MagpiesRugby
@folder7
@ErdingErdin
@jHottubjug
背景最近在公司收到了一条告警,K8S 集群中的 GPU 的节点一台接一台的变成了 NotReady 状态了。过了半个小时,业务找我说他们的服务起不来了,同时服务的所有的实例全都异常了。因为我们线上没有关闭 controller manager Node 异常的驱逐,如果业务代码会把宿主机节点跑死,节点上的异常业务就会触发迁移,迁移完接着把下一台节点跑死。如同葫芦娃救爷爷一般,全军覆没。最后 GPU
背景业务反馈发布的时候会偶尔会有504,重新发布也不行。重建Pod也不行,但是等一段时间就会自动恢复。 上图是一个服务的504的一个情况。从历史的指标跟 Ingress 日志来看,我们能够得到一个清晰的结论。已经销毁了的 Pod 的 IP 并没有被 Ingress 摘掉。 Pod A 在17:35就已经销毁了,但是持续到 17:37 Ingress 还在向已经销毁了的 Pod A 发送流量。
背景之前在生产队当驴的时候,觉得生产队拉的磨盘,性能太差,拉的不太顺手。斥巨资购入了一套私磨拉。最近生产队买了更高性能的磨,于是我又换回公磨了。把私磨带回家里了,家里的设备变得就非常多。然后之前为了省电费把我的 intel 8100 的 NAS降级成了 intel N100。跑的容器越来越多。性能也跟不太上了。最后想了一下也别回intel 8100了,打算把nas升级一波,借着机会就把 HomeL
背景之前从8100的黑群晖,切换到了N100的,但是比较慢,然后忍不了了,就又新买了一套设备组装。趁机就升级下网卡。之所以选黑群晖就是只是因为界面友好点。配套软件比较给力。然后穷买不起白裙。
本文通过搜索推荐项目进行外卖搜索广告弱供给填充,提高流量变现效率。我们提出外卖多场景异构大图、异构大图在线建模技术演进路线,解决外卖搜索推荐业务多渠道、即时化的挑战。相关成果发表CIKM2023会议一篇。联合机器学习平台搭建大规模图训练、在线推理引擎GraphET,满足近百亿边规模、复杂图结构的多个业务落地。
简介nginx-ingress-controller 是最常用的 ingress-controller 之一,也是当前公司生产在使用的ingress。这边会分析主流程。整个ingress-controller是怎么工作的。并不会详细的去解释所有的代码。找到关键节点即可。