PTN关键技术 OAM V1.0
内容大纲 OAM基本概念 MPLS-TP OAM Ethernet OAM
OAM定义 OAM:Operation, Administration and Maintenance,简称 操作管理维护 操作——主要完成日常的网络状态分析、告警监视和性能控制活动,如故障检测、故障分类、故障定位、故障通告等。 管理——是对日常网络和业务进行的分析、预测、规划和配置工作,如性能监视、性能分析、性能管理控制等。 维护——主要是对网络及其业务的测试和故障管理等进行的日常操作活动,如保护机制、恢复机制等。
内容大纲 OAM基本概念 MPLS-TP OAM Ethernet OAM
MPLS-TP OAM---提供端到端精细管理和运维 Section PE P PE E1 PWE3 ATM PWE3 Tunnel Ethernet PWE3 Section OAM: PHY layer OAM: 为环网保护提供有力保障,充分节省带宽 PW OAM: 监控各类业务连接与性能,为实现业务的端到端管理创造良好条件 Tunnel OAM: 实现LSP层次的监控与保护,防止OAM业务条数增加而导致的性能下降 ZTE PTN : SDH-Like OAM PW层次的OAM分为两种,一个是针对CES的(TDM:PDH/SDH),h可能只能检测其连接性,性能无法检测,我们都可检测。 第二是,针对ETHERNET业务的PW层次OAM,我们也有。 PW损坏,LSP是无法检测出来的,所以,LSP tunnel层次的OAM,与PW层次的用途不同,PW层次的OAM并不能由LSP的OAM替代。 而有了段层的OAM,才有了环网保护。 另外,没有段层保护,就没有办法进行LSP的捆绑。如果每个LSP的OAM占用0.2M带宽,那么1000个LSP的OAM需要0.2M*1000。如果用了捆绑,1000个LSP的OAM只需0.2M。因此大量节省带宽。 ZTE PTN provide SDH-like OAM 1/MPLS-TP layer structure: TMC/TMP/TMS as per the PW/ LSP Tunnel / Section 2/ Hierarchical OAM : PW layer/ Tunnel layer / Section layer for easy OAM. Diff layer OAM frames are inserted layer by layer from PW to Section. It is driven by hardware engine very 3.3 ms. Fault-detection and fault-location is easy and clear just like what SDH does. 3/ 50ms PS mechanism and hierarchical protection for high reliable. The OAM hardware engine inserts OAM frame very 3.3 ms and completes the continuity detection within 10ms./ 3 frames. and ensure the 50ms switching and protection. The protection includes PW layer / Tunnel layer / Section layer protection. It’s a hierarchical protection mechanism like what SDH does for POH layer, MSOH layer and RSOH layer. ************************************************************ Operations Administration and Maintain, Hierarchical OAM Similar to SDH Different from Hierarchical OAM is a very OAM engine guarantee based on hardware: The hardware inserts OAM detection package at every 3.3ms, completes continuity detection within 10ms and ensures sub-50ms switching. No increase in CPU overhead and no impact on CPU forwarding efficiency. CPU does not affect switching group number. Hierarchical monitoring like SDH, fast fault-detection and fault-location Multi-layer protection, high reliable PTN OAM 具备像SDH一样的分层架构与端到端管理维护能力 分层监控,实现快速故障检测和故障定位 PTN OAM 仿照SDH的设计达到电信级标准,OAM功能由硬件实现,可实现固定3.3ms OAM协议报文监控
MPLS-TP OAM 网络分层结构 PTN CE PE PE CE P Tunnel 1 Tunnel 1 Tunnel 2 Tunnel 2 Section Section Tunnel / Path PW / Channel 通道(Channel)层-TMC:通道层表示业务的特性,比如连接的类型和拓扑类型(点到点、点到多点、多点到多点),业务的类型等,等效于PWE3(Pseudowire Emulation Edge-to-Edge)的伪线(或虚电路层) 通路(Path)层-TMP:通道层表示端到端的逻辑连接的特性,等效于IETF MPLS 中的隧道层 段层(Section)层-TMS:段层可选,表示物理连接,比如SDH(Synchronous digital hierarchy)、OTH(Optical Transport Hierarchy)、以太网或者波长通道 OAM能力:TMPLS,链路级,支持基于TMP隧道层检查,知道哪个隧道出问题,发送OAM检查帧,TMC伪线层,知道哪个用户出问题,TMS的OAM检测,知道哪个链路出问题,遵循G.8114标准,减少用户成本 支持快速3.33MS的CC,定时发送检测帧;RDI,计算丢包率,还支持单双向延时;预激活的LM 支持慢速CC,RDI,按需LM,DM,AIS,LB,LCK,CSF(透传链路状态)等
MPLS-TP OAM对象术语 维护实体-Maintenance Entity(ME) 维护实体组-ME Group(MEG) 一个需要管理的实体,表示两个MEP 之间的联系。在MPLS-TP 中,基本的ME 是MPLS-TP 路径。ME 之间可以嵌套,但不允许两个以上的ME 之间存在交叠 维护实体组-ME Group(MEG) 是由多个ME构成的群体,所有ME必须存在于相同的管理域内,必须拥有相同的MEG等级,必须属于相同的MPLS-TP 连接; 维护实体组端点-MEG End Point(MEP) 用于标识一个MEG的开始和结束,它能够发起并终结故障管理OAM帧和性能监视OAM帧。MEP能够检测此连接的连通性; 维护实体组中间点-MEG Intermediate Point(MIP) MEG 的中间节点,它能够对OAM帧产生作用,但不发起OAM帧,能够对某些OAM 分组选择特定的动作,对途经的MPLS-TP帧可透明传输 维护实体组等级-MEG Level(MEL) 多MEG嵌套时,用于MEG分组层数的识别。每个MEG的OAM帧均须被标识,通过在源方向增加MEL和在宿方向减少MEL的方式处理隧道中的OAM分组。 1、Label、MEL、S、TTL字段组成的4个字节就是T-MPLS OAM专用标签,在各种T-MPLS OAM 报文中都会带上该标签。 各字段定义如下: 2、Label :20 位标记值,值为14,RFC3032中定义了四个保留的标签值,其中标签值14被ITU-T推荐用于T-MPLS OAM; 3、MEL :3 位比特值表示MEG层次,范围为0-7 ; 4、S : 1位,值总是为1,表示由OAM模块来处理的报文; 5、TTL :8 位TTL 值, 表示跳数(hop-count)。 6、Function Type、Res、Version、Flags、TLV Offset字段组成的4个字节是T-MPLS OAM报文的头字段,在各种T-MPLS OAM 报文中都会带上头字段。 7、Function Type :8 位OAM 功能类型;下表中列出了实现的和未实现的OAM功能类型,在实际测试中查看报文中该字段就可以识别出具体的OAM报文: 8、Res :3位保留字段,置为000; 9、Version、Flags、TLV Offset字段根据具体的OAM报文(比如CV , RDI, FDI等报文)来决定字段内容。
MPLS-TP OAM网络模型 对于一个MPLS-TP网络,不同管理域的OAM帧会在该域边界MEP处发起,源和目的MEP之间的节点为MIP。所有MEP和MIP均由管理平面和/或控制平面配置,其中管理平面配置可由本地管理手册或网管系统(NMS)执行
TMC TMP TMS检测层 OAM可以应用于三个层面的检测,分别是: 对应到各层的OAM报文带有相应层次的标签。 TMC层的OAM ,检测PWE3伪线是否有故障 ; TMP层的OAM检测,检测整个隧道; TMS层的检测,保护的是隧道的段层。 对应到各层的OAM报文带有相应层次的标签。
TMC TMP TMS层数据包格式
MPLS-TP OAM多MEG嵌套 网络中现存在着2个MEG,一个为TMC MEG 10,另一个为TMP MEG 20,它们是嵌套的,可认为TMP MEG嵌套在TMC MEG中 1) 当TMC X点产生OAM帧时,其MEL=0 2)该OAM帧在进入TMP MEG 20时,MEL加1后为1 3)当该OAM帧离开TMP MEG 20时,MEL减1后为0 4)TMC Y点接收到该OAM帧,发现其MEL=0,于是进行处理
通用OAM帧结构 OAM 报文带有OAM专用的标签,用于标识 OAM检测功能的协议包,以区分其他类型的包。每个MEP 或MIP 会识别和处理OAM 报文
通用OAM PDU格式 各字段定义如下: Label、MEL、S、TTL字段组成的4个字节就是OAM专用标签,在各种 OAM 报文中都会带上该标签。 Label :20 位标记值,值为14,RFC3032中定义了四个保留的标签值,其中标签值14被推荐用于OAM; MEL :3 位比特值表示MEG层次,范围为0-7 ; S : 1位,值总是为1,表示由OAM模块来处理的报文; TTL :8 位TTL 值, 表示跳数(hop-count)。 Function Type、Res、Version、Flags、TLV Offset字段组成的4个字节是MPLS-TP OAM报文的头字段,在各种OAM 报文中都会带上头字段。 Res :3位保留字段,置为 000; Version、Flags、TLV Offset字段根据具体的OAM报文(比如CV , RDI, FDI等报文)来决定字段内容。
通用OAM PDU格式 Function Type :8 位OAM 功能类型;下表中列出了实现的和未实现的OAM功能 类型,在实际测试中查看报文中该字段就可以识别出具体的OAM报文: Type (Hex) Name 01 CV 2D 1DM 02 FDI 2E DMR 20 LBR 2F DMM 21 LBM 30 EXR 23 LCK 31 EXM 25 TST 32 VSR 27 APS 33 VSM 28 SCC 35 SSM 29 MCC 37 CSF 2A LMR 2B LMM
MPLS-TP OAM功能 告警管理功能 CC AIS RDI LB LT Lck 性能管理功能 LM DM 其他OAM功能 APS MCC TST 性能管理功能 LM DM 其他OAM功能 APS MCC CSF SCC SSM CC:CV帧 AIS:FDI帧 RDI:使用CV帧中Flag字段中的RDI位,当MEP收到RDI位为1的CV帧时,它将上报RDI告警
MPLS-TP OAM功能 告警相关OAM功能 CC (Continuity and Connectivity Check) 检测连接是否正常。 AIS (Alarm Indication Signal) 维护信号,用于将服务层路径失效信号通知到客户层。 RDI (Remote Defect Indication) 维护信号,用于近端检测到失效之后,向远端回馈一个远端缺陷指示信号。 LB(Loopback)环回功能。MEP是环回请求分组的发起点。环回的执行点可以是MEP 或者MIP。 LT (Link Tracing)链路追踪。用于相邻关系检索和故障定位。 Lck (Lock)维护信号,用于通知一个MEP,相应的服务层或子层MEP 出于管理上的需要,已经将正常业务中断。从而,使得该MEP 可以判断业务中断是预知的,还是由于故障引起的。 TST(Testing)测试功能。用于单向按需的中断业务或非中断业务诊断测试。 CC:CV帧 AIS:FDI帧 RDI:使用CV帧中Flag字段中的RDI位,当MEP收到RDI位为1的CV帧时,它将上报RDI告警
MPLS-TP OAM功能 性能相关OAM 功能 其它OAM 功能 LM(Frame Loss Measurement)用于测量从一个MEP 到另一个MEP 的单向或双向帧丢失数 DM(Packet Delay and Packet Delay Variation Measurements)用于测量从一个MEP 到另一个MEP的分组传送时延和时延变化;或者将分组从MEP A 传送到MEP B,然后,MEP B 再将该分组传回MEP A 的总分组传送时延和时延变化 其它OAM 功能 APS (Automatic Protection Switching) 由G.8131/G.8132 定义,发送APS帧,用于保护倒换 MCC (Management Communication Channel) 发送MCC帧,用于传递管理数据 CSF(Client Signal Fail)用于从MPLS-TP 路径的源端传递客户层的失效信号到MPLS-TP 路径的宿端 SCC(Signaling Communication Channel):用于提供控制平面通道 SSM(Synchronization Status Message):用于传递同步信息
告警管理 告警管理能够实现告警检测、故障验证、故障定位和故障通告等功能,它的目的是配合网络管理系统提高网络的可靠性和可用性,是MPLS-TP OAM功能中最关键的部分。 主要告警管理方法: 连续性检查 告警指示 远程缺陷标识 链路追踪 环回 锁定 测试
连续性检查(CC) 通过源和目的MEP间周期性地传送带有CC信息的CV帧来实现检测一条连接是否仍处于正常连接状态。 用于检测一个MEG中的任意一对MEP间的连续性丢失(LOC)和两个MEG间的错误连接(如Mismerge),也可用于检测在一个MEG中出现与错误MEP相连的情况以及其它一些缺陷情况(如错误MEP、错误周期等),主要应用于故障管理、性能监视或保护倒换。 CC信息发送周期分为:故障管理1s(1帧/秒),性能监视100ms(10帧/秒),保护倒换3.33ms(300帧/秒)。
缺陷管理CC功能 当MEP接收到一个CV/CC帧时,该MEP会检测帧中MEG ID是否与接收MEP中所配置的MEG ID一致,并检测MEP ID是否存在于对等MEP ID列表中。将此信息与目的MEP中的配置信息相比较便可实现不同缺陷情况的检测。 检测流程(从上至下依次进行): 1. 如果目的MEP在3.5个发送周期(即10ms)内没有收到CV/CC帧,则产生“连续性丢失”(LOC)。 2. 如果收到CV/CC帧,但帧中的MEL低于目的MEP的MEL,则产生“错误MEL”(Unexpected MEL)。 3. 如果收到CV/CC帧,且帧中的MEL与目的MEP的MEL相同,只是MEG ID不同,则产生“错误合并”(Mismerge)。 4. 如果收到CV/CC帧,且帧中的MEL、MEG ID与目的MEP的配置相同,只是MEP ID不同,则产生“错误MEP”(Unexpected MEP)。 5. 如果收到CV/CC帧,且帧中的MEL、MEG ID、MEP ID与目的MEP的配置均相同,只是周期域值与CC信息发送周期不同,则产生“错误周期”(Unexpected Period)。 CC告警抑制关系:LOC>mismerge>Unexpected MEP>Unexpected Period
CC故障检测流程
告警指示(AIS) 用于检测到服务层的缺陷情况后通知客户层该连接存在故障,同时抑制客户层发生的LOC告警。该功能在避免告警连锁事件和及时启动故障处理程序中至关重要。 当服务层缺陷情况发生后,MEP便按照客户层MEL发起FDI/AIS帧,并周期性地向客户层MEP传送直至缺陷情况被清除。 当所有缺陷情况被清除后,MEP便没有必要继续发起AIS信息。判定方法为:如果接收MEP在3.5个连续AIS接收周期内没有收到FDI/AIS帧,MEP便清除告警,清除AIS缺陷情况。
AIS实现过程
缺陷管理 RDI功能 用于本端检测到告警后,向远端通告本端故障 与SDH的RDI类似 与AIS告警成对出现 只适用于双向连接 RDI指示包含在CV包中,只需在CC帧Flags字段中扩展一个RDI位标识即可
RDI实现过程 单端故障管理:接收MEP检测到的RDI缺陷情况与该MEP中的其它缺陷情况关联而可能导致故障的发生,如果单个MEP没有收到RDI信息,则表明整个MEG的入口不存在缺陷。 远端性能监视:可作为性能监视程序的输入来反映远端是否存在缺陷。 与BDI的区别:RDI和BDI有很多相似,其功能均可由BDI来实现。与BDI不同的是RDI不支持单向点到多点的MPLS-TP连接。
单播LB 单播环回是一种按需OAM功能,用于检验一个MEP与一个MIP(或对等MEP)间的双向连通性,也可用于执行一对对等MEPs间的双向中断业务或非中断业务诊断测试,如检验带宽吞吐量、检测比特误差等。 单播LB消息分为单播LB请求和单播LB应答两种,分别在LBM帧和LBR帧中携带。可实现双向连通性和测试诊断功能。两种功能不能同时执行,在开始执行新应用的按需命令之前,需要结束与前一应用相关的所有命令。 启动LB功能时,需要在本MEP节点上进行设置,环回状态设置为启动,环回类型选择连接测试或者诊断测试;对端节点选择MEP或者MIP节点;其他LB参数可以选择默认。
单播LB实现过程 与CC区别:LB和CC均能实现连通性验证功能,LB适合检测双向的连 合使用时可以作为故障确认的手段
单播LB 功能实现 功能实现的重要环节:对LBR帧的有效性判断, 具体为: 当用于连通性验证时,源MEP主要判断 “LB Target MIP/MEP MAC Address”和“Transaction ID”是否正确,并确定该帧是否在LBM帧发送后的5秒钟内收到的,是则有效,否则丢弃 当用于诊断测试时,源MEP主要判断“Target MIP/MEP MAC Address”是否与自身MAC地址相同和“Sequence Number”是否有效(通过测试信号接收器判断),是则有效,否则丢弃 另外:如果MIP收到LBR帧,其有效性判断可通过比较“Target MIP/MEP MAC Address”是否与其MAC地址相同来实现,无效时将被丢弃 注意:两种功能不能同时执行,在开始执行新应用的按需命令之前,需要结 束与前一应用相关的所有命令
多播LB 多播LB用于检验一个MEP与多个对等MEPs之间的双向连通性。相对单播LB,多播LB较复杂。 多播LB消息分为多播LB请求和多播LB应答两种,分别在LBBM帧和LBBR帧中携带
链路追踪(LT) 用于相邻关系检索和故障定位。 通过在源和目的MEP间周期性地发送LTM(LT请求)帧和接受LTR(LT应答)帧来执行。 主要用于以下两个方面: 相邻关系检索:LT功能可以用于识别一个MEP和一个远端MEP或MIP之间的相邻关系检索。其运行的结果就是对从源MEP到目的MEP或MIP之间的所有MIP进行排序,每一个MIP和/或MEP由其MAC地址来标识。 故障定位:LT功能可以用于故障定位。当故障(例如链路和/或设备故障)或者转发平面环路发生时,MIP和/或MEP的顺序关系可能与预期的有所不同。这种顺序关系的不同能够提供故障定位信息。
锁定(LCK) 用于MEP向它邻近的客户层MEP通告它有计划的管理或者诊断行为。
LCK 实现过程 LCK功能实现过程:当一个MEP被锁定源端功能时,MEP向对端MEP发送按LCK报文。如果是锁定宿功能,MEP向其客户层的所有MEP发送LCK报文。LCK报文的发送周期为1秒。在锁定期间,所有去锁定方向的数据报文将停止转发。
测试(TST) 用于单向按需的中断业务或非中断业务诊断测试,其中包括对带宽吞吐量、帧丢失、比特错误等的检验。 这些功能通过在MEP插入具有特定吞吐量、帧尺寸和发送模式的带有测试信号信息的TST帧来实现。
TST实现过程 当TST执行中断业务MPLS-TP测试功能时,客户数据流量在被诊断实体中被中断。为实现中断业务测试而配置的MEP便向邻近的客户(子)层发送LCK帧。 当TST执行非中断业务MPLS-TP测试功能时,数据流量不会被中断,MEP发送带有MPLS-TP测试信号信息的帧。从而业务带宽受限的部分能够得到充分利用。在执行此功能时,需要提前确定TST帧的传送速率。
性能管理 性能管理的作用是维护网络服务质量和网络运营效率。为此性能管理要提供性能监视功能、性能分析功能以及性能管理控制功能,同时还要提供数据库的维护以及发现性能严重下降时启动网络故障管理系统的功能 MPLS-TP层网络中性能管理功能主要通过收集业务服务质量数据(即QoS参数)并对其进行测量来实现,具体通过为MPLS-TP连接提供按需检测数据包/分组丢失方法来完成 主要性能参数有: 帧丢失率(FLR):帧丢失率用于描述点到点MPLS-TP连接中,在时间间隔T内,丢失的业务帧数和发送的总业务帧数的比率。 帧时延(FD):帧时延可以用于帧的环回时延表示。环回时延指从源节点发送帧第一个比特的时间到同一个源节点收到帧的最后一个比特的时间间隔,其中的环回动作由帧的目的节点完成 帧时延抖动(FDV):帧时延抖动用于测量点到点MPLS-TP连接中,属于同一个服务等级的两个业务帧之间的时延抖动
帧丢失测量(LM) LM功能主要是进行丢包性能统计,包括近端丢包率、近端丢包个数、远端丢包率、远端丢包个数等性能数据。 用于统计点到点MPLS-TP连接入口和出口发送和接收业务帧的数量差,主要通过在一对MEP间发送和接收LM帧并结合两个本地计算器TxFCI和RxFCI的维护来实现。其中TxFCI用于统计MEP向其对等MEP发送的数据帧数,RxFCI用于统计MEP从其对等MEP接收的数据帧数。默认发送周期为100ms。 近端帧丢失:MPLS-TP连接入口的数据帧丢失,它会导致近端严重误差秒(Near-End SES, near-end severely errored seconds) 远端帧丢失:MPLS-TP连接出口的数据帧丢失,会导致远端严重误差秒(Far-End SES)。 帧丢失测量功能分为双端LM和单端LM。 LM分为预激活LM和按需LM,如果启动了CV报文发送,则预激活LM功能默认自动启动。
帧时延测量(DM) 帧时延测量功能是一种按需OAM功能,可用于测量帧时延和帧时延抖动,在诊断时间间隔内由源MEP和目的MEP间周期性地传送DM帧来执行,具体通过在请求和应答帧中设置时间戳并计算差值来实现。 MPLS-TP帧时延测量包括单向DM和双向DM。单向携带DM信息的帧,将其定义为1DM帧,双向携带请求DM信息的帧被定义为DMM帧,携带应答DM信息的帧被定义为DMR帧。 对于MPLS-TP网络,单向帧时延测量对发送MEP和接收MEP间的时钟同步要求十分严格,如果时钟不同步,只能执行单向帧时延抖动测量。相比之下,双向帧时延则比较容易精确测量,而且对时钟同步不作要求。
DM实现过程 为提供更加精确的双向帧时延测量,接收MEP在DMR帧中可额外配置RxTimeStamp_f信息(DMM帧被接收时刻的时间戳)和TxTimeStamp_f信息(DMR帧发送时刻的时间戳),则双向帧时延可精确表示为: Frame Delay = ( RxTime_b–TxTimeStamp_f ) – ( TxTimeStamp_b–RxTimeStamp_f )
内容大纲 OAM基本概念 MPLS-TP OAM Ethernet OAM
Ethernet OAM的网络地位 MPLS-TP
Ethernet OAM的基本功能 Ethernet OAM针对的是两台直连设备之间的链路进行管 理的,其主要功能有: OAM能力发现 故障通告 远端环回 链路监控
OAM能力发现 OAM能力的发现功能是OAM机制的基础,要求实现Ethernet OAM的设备有检测远端的DTE设备的OAM能力进行发现的机制。 在进行OAM的正常操作之前,OAM发现过程是必须先进行的,对OAM的两端的OAM功能模式(主动或被动)、OAM能力,如最大允许的OAMPDU尺寸,支持哪些OAM功能,如在给定链路上OAM远端环回等进行协助。 只有得到一致的OAM对端才能进入到正常的Ethernet OAM交互阶段,才能正常进行OAM功能。 OAM的两种模式: 主动模式(active):能够主动发起链路发现和远端环回功能; 被动模式(passive):与主动模式的区别在于,被动模式下不能发起链路发现和远端环回,其余处理与主动模式一致。 在实际配置中必须有一端是主动模式,两端均是被动模式时能力发现是不能成功的。
发现成功后的显示 9000-3(config)#show ethernet-oam gei_2/20 discovery PortId 20: Ethernet OAM Enable Local DTE ----------- Config: Mode : active 本端的模式 Period : 1*100(ms) 本端的报文发送周期 Link TimeOut : 2(s) 超时时间 Unidirection : nonsupport PDU Max Size : 1518(bytes) Status: Parser : forward 处于转发状态 Multiplexer : forward Stable : yes Discovery : done Loopback : off PDU Revision : 0 Remote DTE Mode : active 远端的模式 Link Monitor : support Remote Loopback : support Mib Retrieval : nonsupport PDU Max Size : 1518 OUI : zte Mac Address : 00.d0.d0.c0.0b.80 远端的MAC地址 (如没有发现成功,此字段为全0)
故障通告 此功能通过Ethernet OAM设备定期的发送OAM PDU,在此PDU中包括本地设备的TLV信息和本地接收的远端设备的TLV信息,通过此数据报文的交互,设备可以发现远端或者本端的链路状态的异常,这些报文的内容是根据当前链路的状态进行填写的。 从设备上看到的通告的形式就是故障告警,如端口shutdown时,会出现发现失败的告警提示。
远端环回 远端环回是网络管理者为一定的目的对点对点对端的设备进行的环回设置,在远端设备在环回状态下,不正常转发数据报文,对接收到的所有非OAM报文会全部返回给发送端口,这功能可以在进行故障定位和对链路进行丟包等链路性能进行检测时使用的。 除OAM报文外的其他所有报文 环回发起方 数据流 远端环回示意图
链路监控 链路监控功能通过发送事件通知消息,通知对端各种情况下发现的故障;它有2个参数,一个是窗口大小,一个是门限值。 标准的故障通告事件有: 错误符号周期事件:对特定报文窗口中的错误符号进行计数,并依据预先设置的错误符号帧个数门限值决定是否产生事件通告 错误帧事件 :对特定时期内产生的错误帧进行计数 ,并依据预先设置的错误帧个数门限值决定是否产生事件通告 错误帧周期事件 :对特定报文窗口中的错误帧进行计数,并依据预先设置的错误帧个数门限值决定是否产生事件通告 错误帧秒累积事件 :对特定时期内产生的错误帧进行计数 ,并依据预先设置的错误帧时间门限值决定是否产生事件通告
Ethernet OAM分类 Ethernet OAM是分级实现的,主要可以分为两个级别: 以太网链路层OAM EFM:Ethernet in the First Mile 以太网业务层OAM CFM:Connectivity Fault Management
以太网链路层EFM 链路层以太网OAM 技术EFM: 遵循IEEE 802.3ah协议,解决的是用户最后一公里的问题;多应用于网络的UPE设备—CE设备之间的以太网物理链路,用于监测用户网络与运营商网络之间的链路状态,保证用户网络和运营商网络的可靠性和稳定性。 EFM在以太网的数据链路层上实现,它是一个可选的子层,在数据链路层流程中,OAM子层在系统中位置如下图。
EFM实现功能 信息OAM PDU 事件通知OAM PDU: 信息OAMPDU实现OAM对等之间的自动发现,心跳信号。 当OAM链路建立后,会周期性的发送信息OAMPDU,对链路进行监控,在信息OAMPDU中,将包括本地信息TLV和远端信息TLV,通过周期性的OAMPDU报文的交换,可以实现链路连通性监控检测。 如果在规定时间内没有接收到信息OAMPDU,证明链路层发生故障。 事件通知OAM PDU: 用来向远端通告多种链路状态告警,如通知紧急链路事件、链路事件(错误信号周期事件、错误帧事件、错误帧周期事件、错误帧秒累计事件)、客户指定的链路事件等。 当链路上错误超过配置的阈值的情况下,OAM会就会发送相应的OAMPDU事件通知报文告知对端。 告警也可能是本地发生的紧急告警,OAM也可以通过此事件通知对端设备。
EFM实现功能 变量请求和变量响应OAMPDU: 环回控制OAMPDU: 特定组织OAMPDU:保留给设备厂商的OAM报文 请求和回应一个或者多个远端DTE的MIB变量。 在变量请求OAMPDU中,本端设备将需要请求的对端设备的MIB变量封装到请求报文中发送到对端设备,当对端设备接收到变量请求后收集本地的MIB变量信息,填充后以变量响应OAMPDU的方式进行回复。 完成本地对远端的MIB变量查询。 通过OAM的变量请求和变量响应功能,可以实现最后一公里设备接入设备对用户设备的监控和管理功能。 环回控制OAMPDU: 环回控制OAMPDU被一个主动模式的OAM实体来使能或者去使能远端被动模式的OAM对等的环回(loopback)功能。 当远端设备使能了环回功能后,所有的非OAMPDU的报文不能被转发,都需要返回到本端,所有这种环回功能是一种中断业务的功能。 特定组织OAMPDU:保留给设备厂商的OAM报文
以太网业务层CFM 业务层以太网OAM 技术CFM: 遵循IEEE 802.1ag协议标准;也称作连接性故障管理,多应用于网络的接入汇聚层,用于监测整个网络的连通性、定位网络的连通性故障。 主要针对“服务”级别的管理,检测、确认和隔离连通性故障,为网络提供容易快捷的故障发现、检测和管理功能。但用户数据通过CFM实体可以得到透明传输。 主要为服务提供商的网络管理提供有效的端到端管理方法,它允许服务提供商单独地管理每个用户服务实例。 也可以同时应用到运营商、提供商和用户的桥网络中,可以实现业务层的端到端的OAM监控和管理功能。
以太网业务层OAM CFM CFM的诸多功能是通过5个CFM报文来实现的: 连续性检查消息(Continuity Check Message CCM) 链路跟踪消息(Linktrace Message LTM) 链路跟踪响应(Linktrace Reply LTR) 环回消息(Loopback Message LBM) 环回响应(Loopback Reply LBR)
CFM报文 连续性检查消息(Continuity Check Message CCM): 一个组播的CFM 协议数据单元。它被一个MEP周期性发送以确认MA拥有的MEP的通过此MA上的连续性。接收CCM的MP不响应此报文。 链路跟踪消息(Linktrace Message LTM): MEP发起的一个CFM PDU,用来追踪从MIP到MIP到达一个目标MAC地址的路径,直到LTM到达它的目的MEP或者不能再被转发。每个到目标的路径中的MP产出一个LTR。 链路跟踪响应(Linktrace Reply LTR): 一个MP在响应从MEP接收到LTM而发送的到这个MEP的单播报文。 环回消息(Loopback Message LBM):一个MEP发呕发送的到一个指定的MP的单播CFM PDU,期待接收LBR。 环回响应(Loopback Reply LBR): 一个MP在响应从MEP接收到的LBM而发送的到这个MEP的单播报文。
CFM域的概念
CFM维护实体
CFM维护实体 维护域(Maintenance Domain MD) 维护联合(Maintenance Association MA) 其连通性故障可以被管理的网络或网络的一部分。维护域的边界使用一组域服务接入点(DoSAP)来进行定义,每个DoSAP可以成为到服务实例的连续性的一个点。 维护联合(Maintenance Association MA) 为检查一个单独的服务实例的完整性而建立的带有相同维护联合ID(MAID)和维护域等级(MD)定义的一组MEPs。一个MA也可以被认为是由一组配置的维护联合端点(MEP)组成的全网格的一个管理实体。 维护联合ID(Maintenance Association Identifier MAID) 维护联合的一个标识,它在域中使唯一的,CFM用MAID用来保护服务实例的异常串联。MAID有两部分:MD名和短MA名。 维护域等级(MD Level) 每个维护域都有一个维护域等级,是实现CFM的嵌套使用的关键参数。MD Level域VLAN tag中的VID一起用来标识一个CFM 帧的VID关联的是哪个维护域,并标识这个CFM 帧属于哪个维护联合。MD等级的范围为0-7。
CFM维护实体 维护联合端点(maintenance association End Point MEP) 与一个特定的服务实体的域服务接入点(DoSAP)相关的一个活跃管理的CFM实体。它可以产生和接收CFM PDU和追踪任何响应。它是一个MA的终点,是对每个在同一个MA中的其他MEPs的一个分离的维护实体的终点。 维护域中间点半功能(MIP Half Function MHF) 与一个单一维护域相关联的CFM实体, 因此也与一个单一维护域等级和一组VID的相关联。它仅在响应接收的CFM PDU时才产生CFM PDU。 维护域中间点(Maintenance domain Intermediate Point MIP)由两个MHFs组成的一个CFM实体 维护点(Maintenance Point MP) , MEP或者MIP之一,是他们的统称。
CFM的维护域等级(MD Level) CFM的维护域MD有8个等级0-7,数值越大等级越高,等级高的MD的CCM报文可以穿越等级低的MD;每个维护域都有一个维护域MD等级 ,它是CFM实现域嵌套使用的关键参数,大级别的MD可以嵌套小级别的MD。 MD管理维护域可以嵌套、相切,但不能交叉。下面介绍这几种情形:
CFM等级的作用 多域的CFM网络模型
CFM的模式 CFM有两种模式: 快速模式(fast):快速模式下,由芯片来处理CCM报文,收发包速率最小可达到3.3ms每个,因此可以对MP的状态给予快速的反馈,主要用来触发倒换。 慢速模式(slow):由CPU来处理CCM报文,相应的收发包速率最小是10个每秒。 快速模式和慢速模式的区别在于CCM报文的处理速率上,快速模式CCM报文发送速率ccm timer-interval 配置范围为1-4(分别对应3.3ms、10ms、100ms、1s),慢速模式ccm timer-interval 配置范围为5-7(对应10s、1min、10min)。
CFM的主要功能 CFM的主要功能有: 主要使用CCM报文的交互来实现,它可以检测连通性失败和非意愿的连通性(错误连接的情况)。 业务的连通性检测 主要使用CCM报文的交互来实现,它可以检测连通性失败和非意愿的连通性(错误连接的情况)。 故障探测和告警 MEP使用周期发送和接收的CCM消息来对网络的连通性进行检测,主要可以检测出通性失败和非意愿的连通性(错误连接的情况)。 故障确认和隔离(LB和LT) 此功能属于管理性的行为,管理员通过LBM/LBR进行故障单的确认;使用LTM/LTR消息进行发现,跟踪一个MEP到另外一个MEP或MIP之间所经过的路径,然后进行一定的隔离操作 。
CFM业务的连通性检测功能 CCM报文的发送速率根据不同的应用可以设置为不同的值,范围是从3.3ms到10min之间的不连续的值。 在CCM报文的交互过程中,除提供业务的连通性检测外,还可以通过检查报文中各种字段来实现MEP异常接入、维护等级异常等错误的检测。
CFM告警功能 告警功能是CFM中的一个重要功能,通过告警我们可以知道MP实例的状态,据此判断出现错误的原因。告警的类型有以下几种: 交叉连接:收到了不属于本MA内的CCM报文时出现此告警,例如两端配置的MA name不一致; 错误报文:收到传输错误间隔的CCM报文时出现此告警,例如ccm time-interval不一致、MEP ID不一致等; 远端丢失:在3.5个CCM周期内未收到报文时出现此告警,例如两端CCM周期不一致; RDI远端缺陷指示:未收到正确CCM报文的一方会向对端发送RDI置位的CCM报文,远端将上报RDI告警。 告警是有优先级之分的,交叉告警优先级为5,错误告警为4,远端丢失告警为3,RDI告警优先级为1;可以通过配置lowest alarm priority来配置上报告警的优先级,低于lowest alarm priority优先级的告警将不会上报。
CFM告警功能 MP session 1 type: local mep direction: down mep id: 2 admi state: enable MEP状态 ccm send state: enable CCM报文发送状态 lowest alarm priority: 1 assign port: gei_2/20 DefXconCCM:0 本端交叉连接告警置位 ,存在告警则置位为1,没有告警为0 DefErrorCCM:0 本端收到错误CCM报文告警置位 DefRemoteCCM:0 本端远端丢失告警置位 DefRDICCM:0 本端RDI告警置位 MP session 2 type: remote mep remote mac: 00d0.d0c0.0001 DefRemoteCCM:0 DefRDICCM:0
CFM的LB功能 与IP层的PING功能类似,目的是验证维护节点之间的连通性,在故障定位和链路性能检测时使用。通过LB可得到本设备到目的设备的链路的可达性以及链路的时延、抖动等信息。 环回功能是一种按需的OAM功能,它通过在MEP上发起一个单播的请求,目的地址是指定的MP(MEP或MIP),期望接收到目的MP的响应报文,如果接收到响应报文,证明两个维护点之间的业务是连通的,否则认为是非连通的。 其目的参数可以是MEP INDEX或者MAC地址,当以MAC地址作为参数时,可以用来LB维护域中间点MIP。 发出的LBM报文 回复的LBR报文 MEP 1 MEP 2
CFM的LT功能 与IP层的Trace route功能类似,是用来检测从一个维护点到另一个维护点之间的业务连通关系,它是进行故障定位的一个有效手段。 使用LT能够知道本设备到目的设备之间的链路是否可达,如果不可达,可以定位出沿途哪台设备出现问题; 链路跟踪功能也是一种按需的OAM功能,它通过发送一个组播的OAM报文,报文经过的维护节点会响应此报文,同时根据到目前地址的路径进行转发,直到此报文被传递到最后的目的地址。 当到目的维护节点的中间节点或链路出现故障时,使用链路跟踪功能可以定位到故障发生的具体位置,为以太网网络中的故障定位提供一个有效的手段。 LTM报文所经过的每个MIP和MEP都会回复一个LTR报文给LT报文发起者MEP 1,MEP 1据此了解到了整个路径。 MEP 1 MEP 2 MIP LTM(目的MAC为MEP 2) MIP回复的LTR MEP 2回复的LTR