超融合故障查不出来?你可能忽略了这个小细节

超融合故障查不出来?你可能忽略了这个小细节

首页角色扮演超融合传说更新时间:2024-05-03

随着数字化时代的迅猛发展,企业对于高效、灵活和可扩展的IT基础设施的需求日益增加。超融合技术作为应对这一需求的创新解决方案,已受到越来越多企业的关注和青睐,成为企业实现数字化转型的得力助手。然而在使用过程中,一旦出现问题,则需要快速修复!否则将严重影响企业的运营效率,给企业带来极大的不便。

湖南某高校客户,占地面积上千亩,园区内有学生和老师千余人,属于网度通信的维保合作单位。11月7日中午,客户反馈校园IT部门接到用户报告:校园一卡通和办公应用设备均无法使用!严重影响了校园网络的正常运行!原因可能是超融合集群掉线导致。

时间紧任务重!客户园区超融合集成修复客户容缓!我们立即派出工程师前往客户处排除故障,修复设备。

排障过程中发现节点1存储控制器从控制台无法登录,并自行重启。重启过程显示报错:无磁盘空间。对比正常节点,报错磁盘为/var,即为/dev/sdb housekeeper 磁盘。未确定其为硬件还是软件故障。

节点3为离线状态。据系统管理员反馈:此节点频繁出现自行上线/离线现象。通过专业系统分析定位为卡板问题。

节点4和节点8数据服务均已停止。

网度通信工程师登上UCS管理器,显示此超融合集成物理机所有路径也均已断掉。

总结故障源头,分析解决办法

通过以上节点排查,可发现此次故障属于超融合掉线过多导致。理论上讲,多于5节点的超融合,如果只有2台以内节点掉线,可保证其处于正常运行状态。当有第 3 台节点掉线时,系统为防止启动服务导致少数节点错误,进而导致数据一致性错误,集群就会主动关闭服务。

快速解决问题,网络恢复正常

因超融合故障给客户园区造成重大影响,网度工程师为迅速将网络恢复正常,故手动启动了节点 4 和节点 8 的数据服务。集群数据服务恢复正常后,重启虚拟机,园区网络可正常使用。

深度思考,修复故障导火索

虽然临时解决了校园网络故障问题,但如果在后期使用过程中节点1和节点3再次离线,其他任意节点丢失1节,集群还会会再次关闭。

为了解决这个问题,网度工程师再度排查故障原因,最终发现根本原因为2点:

(1)节点1的存储控制器空间不足导致节点丢失,需要重新部署存储控制器。

(2)节点3出现自行上线/离线现象,确定为板卡问题,需要更换板卡。

最终,在网度工程师有条不紊的作业下,客户公司超融合问题成功修复!

通过本次事件表明,超融合出现故障之后需要首先自查原因,如果不能及时解决,立即向第三方维保公司求助,利用他们的专业经验进行修复,以免影响企业网络的正常运行。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved