通信技术论文:网络中心核心交换设备故障预防方案——郑州转报机故障事件的思考

作者:XueShuWang.com    更新时间:2008-2-15 13:02:44

200819,郑州转报中心出现转报业务长时间中断的生产事故。此次事故是由转报机集线器故障引起,在中南地区、国内产生了不可忽视的影响。必须提出的是,类似交换机故障引起转报业务异常,在广州新机场也曾出现;当时值班人员素质过硬,及时发现并更换备机,在最短时间内恢复了业务。相似的情况产生不同的结果,既是意外,又是遗憾。意外的是,交换机故障多次发生并且引起了严重的生产事故;遗憾的是,郑州当时值班人员没有吸收广州方面的已有经验,使转报业务出现了长时间的中断。回顾事件来龙去脉,交换机故障问题引起我们高度的重视。结合已有交换机相关系统的实际情况,我们提出了以下维护方案,目的在于进一步把安全关口前移,使故障影响可控的降到最低。

交换机的故障常见于端口故障、端口对应芯片模块故障,乃至整机因为外界以及自身因素表面显现整机故障。网络室对主干网以及当中使用到的交换机维护有丰富的经验。维修小组根据对故障设备进行实际维修,统计、分析得出易发故障点,结合思科公司不同型号交换机提出的平均无故障运行时间以及民航安全保障实际需要,吸取主干网维护中对交换机维护的经验,除日常维护检查之外,拟定时间表对具体交换机做出定期元器件更换乃至整机升级更换。

目前我们选用的交换机多为思科交换机。思科交换机硬件结构基本上可以划为3部分:电源部分、芯片驱动部分和数据处理部分。

电源部分实现了220V交流市电整流,根据芯片要求转换到对应直流电压值。芯片驱动部分实现芯片时钟、工作方式、供电滤波等功能。数据处理部分是交换机核心部分,也是目前故障率较高的部分。主要模块可以分为接入模块,初级处理模块和整体交换模块。接入模块与初级处理模块的替代品相对容易维护;整体交换模块保障了所有端口在最高速率下的通信,由思科自行设计,如若故障基本上只能更换设备。

目前我们使用到的思科2950、思科3550等交换机平均无故障运行时间大约为10年。由于交换机更新换代以及厂家原因,旧型号的服务支持也基本是35年。从应急角度以及成本角度考虑,通过已有设备上的模块以及购置备用模块来定期更换故障率高的交换机模块,将交换机意外故障的可能性降到最低,能够很好的预防此次郑州事件的发生。

维护操作主要围绕思科交换机各个模块开展,从电源部分模拟器件的检查、芯片驱动部分供给偏置状态的校验,数据处理部分芯片的及时更换进行。通过这些维护措施一方面能够把目前的备机作用发挥到最大,另一方面能够合理利用思科已经停产的交换机资源对生产一线设备进行保障。

维护方案分别从无缝冗余互备系统、互备系统以及单节点系统三种不同类型的系统进行分析、描述。针对7*24小时运行的交换机建议每隔5年进行一次深层次的检查。

无缝冗余互备系统

无缝冗余互备系统,指系统设备当中的交换机性能正常时,在单台交换机断电更换的情况下,对系统业务没有影响的系统。这样的系统有新机场即将上马的新转报系统,FIPS系统当中双网双交换机连接的部分。

目前广州白云新机场转报系统经过改造后,使用思科2950交换机代替原来得3COM交换机。即将上马的新转报系统使用双机双网结构,核心交换机使用思科3560三层路由器。FIPS系统当中双网双交换机连接的部分由于业务对称的传到两台互备的交换机上,因此业务能够不受影响。

维护交换机时所需要的断电等操作可以稳妥实施,操作过后务必把业务准确的链接到维护后的交换机上。期间加强巡视相关业务状态。

互备系统

互备系统,也就是目前我们组建系统当中最主要的系统形式。与上述无缝冗余互备系统区别在于,其互备关系主要是针对线路中断而并没有针对设备故障。系统的特点在于:业务并不是同时连接两台交换机,而是利用两台交换机之间的相互通信实现在线路中断时能够通过交换机级联绕转保障业务不受影响。当一台交换机发生故障:端口故障需要人工更换端口;设备故障需要人工拉出引线链接到级联的备用交换机相应端口上才能恢复。

主干网核心部分,FIPS与区管前置等系统,绝大部分的业务都是分别接入了两个交换机。当中的交换机进行停机维护时必须做好充分的准备:将一台替代交换机通电后,准确设置好参数;以最有效率的方式把维护对象的业务转移到该交换机。能够在业务保障之后稳妥的进行维护操作。在维护完成后,维修对象可以用作下一维修对象的替代交换机。

单节点系统

单节点系统与互备系统的不同在于,业务只连接到一台交换机并且该交换机普遍没有备机的存在。单节点系统涉及范围很广,主干网6503、气象系统以及实际使用中大量存在。特点在于交换机的型号十分多样,也不仅限于思科交换机。当中的系统保障往往通过系统自身特有机制;有些系统还存在不能断电的特点,维护难度大。对此如果强制实施设备更换并不现实。通过业务的转移进行维护也存多方配合问题。对于这类系统建议做好日常的滤尘网清理,确保机房的温、湿度满足设备长期稳定运行的条件,若系统由多个电源模块供电,建议每隔5年将模块依次抽出来做深入的清理、检查。(因电源部分故障造成设备损坏的比例达70%,该方法也适用于其他不可断电维护的系统)

总结此次提出的方案,重点在于通过把安全保障的关卡前移的方式,让交换机设备的故障通过定期维护及时 排除,有效的保护重要业务。通过郑州事件的启迪,吸取教训,提炼日常生产当中的经验,使网络管理中心业务保障更上一个台阶。

上一篇:CDMA网络优化浅谈
下一篇:CDMA2000技术特征及发展现状
站内搜索
无忧学术网 | 论文写作研究网 | 支付宝 | 电子工程师论坛 | 上海交通大学 | 东南大学 | 复旦大学 | 同济大学 | 浙江大学 | 清华大学 | 北京大学 | 承运天成 | 搜狐 | 百度 | google | 搜狗 | 雅虎 | 新浪 | 网易 | 麻省理工学院 | 中华英才网 | 无忧工作网 | 智联招聘 | 爱词霸 | 淘宝网 | 阿里巴巴 | 校友录 | 哈佛大学 | 耶鲁大学 | 腾讯 |
代写硕士论文 | 代写工程硕士论文 | 上海代写硕士论文 | 上海代写论文 | 职称论文 | 代写研究生论文 | 代写MBA论文 | 代写MPA论文 | 代写论文网