SZS11与MZM02的一半M3UA链路都故障
1、原因分析:流程图:

2、分析判断可能原因:1、IP层故障所导致。2、数据配置存在问题。3、单板软硬件故障。
3、原因排查:1、IP层故障分析先分析M3UA的协议栈:M3UA SCTP IPMZM02是下挂在SZS11下的,这个M3UA是SERVER与MGW之间的。从M3UA链路故障告警上分析,原因码为48,是SCTP偶联异常断链,从协议栈上看,如果IP层出现故障,那SCTP层肯定是故障了,先判断是否IP层故障所导致呢?
4、在MGW上进行PING包操作,华为MGW的本地维护终端提供了命令行和图形操作界面的PING包操作,本案例通过图像操作来进行PING包操作。在MGW本地维护终端的左下角点击维护,如下图:

5、在跟踪管理中选择PING接口跟踪

6、在下图中机框号、槽位号、板位置是源IP地址所对应的MPU单板。可以通过如下方法检查到MPU所在位置:+++ HUAWEI UMG8900 2010-05-21 11:33:31O&M #20%%LST IPADDR: BT=MPU;%%RETCODE = 0 执行成功IP地址配置信息--------------IP地址 板类型 板组号 槽位号 接口类型 接口编号 IP地址掩码 主从标志 域标识 是否属于VLAN VLAN标识 目的IP地址10.XXX.XXX.X MPU 1 NULL ETH 0 255.255.255.252 主 0 否 NULL NULL10.XXX.113.130 MPU 2 NULL ETH 0 255.255.255.252 主 0 否 NULL NULL(结果个数 = 2)IP地址配置信息续1-----------------IP地址 检测间隔 检测阈值 是否是环回IP 是否配置MPLS MPLS0 MPLS1 MPLS2 MPLS3 IP地址描述10.XXX.XXX.X NULL NULL 否 否 NULL NULL NULL NULL NULL10.XXX.113.130 NULL NULL 否 否 NULL NULL NULL NULL NULL(结果个数 = 2)%%LST BRD: LM=BTBN, BT=MPU, BN=2;%%RETCODE = 0 执行成功
7、槽位记录表---------- 机框号 = 2 槽位号 = 7 板位置 = 前插 板类型 = MPU 硬件类型 = MMPU 板组号 = 2 备份状态 = 1+1 备份 主备状态 = 主用 管理状态 = NULL CPU忙门限 = 90CPU正常门限 = 80内存过载阈值 = 90 安装状态 = 安装 操作状态 = 正常 机框号 = 2 槽位号 = 8 板位置 = 前插 板类型 = MPU 硬件类型 = MMPU 板组号 = 2 备份状态 = 1+1 备份 主备状态 = 备用 管理状态 = NULL CPU忙门限 = 90CPU正常门限 = 80内存过载阈值 = 90 安装状态 = 安装 操作状态 = 正常(结果个数 = 2)--- END--- END在上述指令查询中,可以查到IP地址为10.XXX.113.130所对应的MPU为板组号是2,其框号是2、槽号是7,前插单板。在点击PING接口跟踪的窗口中输入相关信息。

8、结果是可以正常PING通的

9、数据配置问题分析:对M3UA链路配置数据进行检查,SERVER和MGW两端核对配置,对于M3UA链路,分别有服务端和客户端的配置,其中MGW应该配置为服务器端,SERVER为客户端,检查数据发现不存在问题。对M3UA链路进行重新删除重定义并在SERVER侧进行激活操作,激活后M3UA链路仍然为故障状态,IP层状态是正常,数据配置也正常。
10、单板软硬件故障分析:在SERVER和MGW侧开启SCTP层的消息跟踪,打开方法同样也是在左下角的跟踪按钮,然后在IP消息跟踪中选择SCTP消息跟踪,SERVER侧:


11、从结果上看,SERVER侧由于是客户端,一直发送INIT到MGW侧,但是没有收到MGW的任何回复。对SERVER的IP接口进行分析,在SERVER接收IP报文的处理流程为:IP报文--->WIFM板处理MAC消息后,根据源IP地址(对端设备IP地址)、源端口号(对端设备端口号)、目的端口号(SERVER),通过以太网总线将消息分发到指定的WBSG进行处理--->WBSG单板进行SCTP和M3UA处理从刚才进行PING操作可以正常,证明了WIFM单板的接口处理是没有问题的,从SCTP消息跟踪中发现SERVER并没有收到MGW回复的INIT_ACK消息,是否告警中的WIFM单板的转发功能有问题呢? 4、对告警中的WIFM单板进行逐一复位操作,单板复位后,再检查故障的M3UA链路,已经为激活状态。
12、解决措施:1、进行PING包操作,检查IP层的物理连接状态,PING包正常响应显示IP层的物理连接状态为正常;2、检查故障的M3UA链路数据配置,进行删除重定义,然后在SERVER侧对故障M3UA链路进行激活操作,仍然无法激活故障链路;3、对SERVER和MGW侧进行SCTP接口跟踪操作,发现SERVER侧收不到MGW回复的INIT_ACK消息,尝试复位告警中WIFM单板;
13、经验总结:对于M3UA链路故障,一般处理步骤都是根据其协议栈来进行处理,第一步先从IP层故障处理,可以利用MSOFTX3000和UMG8900的PING接口跟踪工具,进行PING操作,从而判断是否IP层存在故障;第二步就是进行数据检查,可以通过数据删除重定义再激活的方法去修复M3UA链路故障;第三步,就是进行SCTP层消息跟踪,是否有其他原因。本案例就是通过SCTP层消息跟踪,判断出IFM单板的转发存在异常,然后通过复位单板来修复M3UA的链路故障。