华为CSS与H3C IRF2技术对比 分析对比华为虚拟化CSS与H3C虚拟化IRF2技术
高级网络工程师 人气:1一、华为CSS技术介绍
CSS是Cluster Switch System的简称,又被称为集群交换机系统(简称为CSS或集群)。是将几台交换机通过专用的集群线缆链接起来,对外呈现为一台逻辑交换机。
在S9300/S7700(S9700暂无CSS集群卡)交换机主控板(SRU)上插FSU卡的位置插入集群卡,原有主控板、接口板、机框不用更新,就可以实现CSS集群。
集群线缆连接规则:
CSS集群线缆必须按照上图特定的顺序连接(S9303/S7703不支持CSS)。同系列的不同型号也可以实现CSS集群,前提条件是必须配置同型号的主控板(S9303/S7703除外)。
目前CSS集群带宽是320G,日后可升级至640G
集群的管理:
CSS集群建立后,会根据一定的规则选举集群主,集群备(集群控制的主备),竞争的规则如下:
系统运行状态:已经正常运行的设备优先级高于正在启动中的设备,成为集群主。
集群优先级:状态相同,优先级高的设备成为集群主。
MAC地址大小:状态、优先级都相同,MAC地址小的设备成为集群主。
两台设备竞争出主备后,集群主设备的主用主控板成为CSS的系统主,集群备的主用主控板成为CSS的系统备。在系统主和系统备之间进行HA备份处理,集群主和集群备的备用主控板作为CSS的候选系统备。
单台集群设备里面的主控板倒换后,将以以下的规则进行集群主备倒换:
集群主内的两块主控板发生倒换:集群备升为集群主,原来的系统备升为系统主;集群主降为集群备,原来的系统主重启、原来集群主框内的备用主控板升为CSS的系统备,从系统主进行HA同步。
集群备内的两块主控板发生倒换:集群主和集群备设备的角色不会发生变化。集群备内的主用主控板(即原来CSS的系统备)重启,备用主控板升为系统的备,从系统主进行HA同步。通过这种处理,保证了CSS的高可靠性。
最终原来两台独立的设备建立CSS,对外始终呈现为一台设备。
集群的分裂:
CSS建立后,系统主和系统备定时发送心跳报文来维护CSS的状态。
因集群线缆、集群卡、主控板等故障可能会导致两台设备之间没有可用集群链路、失去通信、两台交换机之间的心跳超时,此时集群系统分裂为两台独立的设备。
CSS分裂后,有可能两台交换机都在正常运行,而且是以完全相同的全局配置在运行,可能会以相同的IP和相同的MAC地址和网络中的其他设备交互,这样会引起整个网络故障。为了提高系统的高可用性,集群分裂后需要检测出是否存在两个以相同配置运行的交换机(即是否存在双主),并进行相应的处理使网络能正常运行。
提供两种检测手段:
- 用免费ARP检测集群双主现象
- 用BFD协议检测集群双主现象
检测到双主后,原集群主将关闭本设备上除保留端口以外的其他所有物理端口。
故障恢复后,进行关闭所有物理端口操作的设备将重启、重新加入CSS系统。
集群控制和数据的转发
CSS建立后,可以通过接口板上的业务端口、系统主上的串口或网管口登陆CSS系统,进行业务配置和系统管理。
CSS提供四维的接口视图(框/槽/卡/端口)支持对两台设备中的所有端口进行业务相关配置、操作;以框/槽为单位对两台设备中的所有单板进行管理:查询单板信息、对单板进行复位等操作。
在CSS环境下,业务流量转发同单框环境下的区别:跨设备的转发需要经过交换网两次。对于报文内容的处理没有区别:都需要进行一次上、下行处理。对外呈现为一台设备。
二、H3C IRF2技术介绍
IRF2源自早期的堆叠技术IRF1。 IRF1堆叠就是将多台盒式设备通过堆叠口连接起来形成一台虚拟的逻辑设备。用户对这台虚拟设备进行管理,来实现对堆叠中的所有设备的管理。这种虚拟设备既具有盒式设备的低成本优点,又具有框式分布式设备的扩展性以及高可靠性优点,早期在H3C S3600/S5600上提供此类解决方案。
IRF2既支持对盒式设备的堆叠虚拟化,同时支持H3C同系列框式设备的虚拟化:包括 S12500,S9500E,S7500E,S5800,S5500,S5120EI各系列内的IRF2虚拟化整合。
IRF2管理
IRF2系统中的各台设备通过与直接相邻的其它成员交互HELLO报文来收集整个IRF2系统的拓扑关系。 HELLO报文会携带拓扑信息,包括连接关系、成员设备编号、成员设备优先级、成员设备的桥MAC等内容。 IRF2成员设备在本地记录自己已知的拓扑信息,拓扑信息通过IRF2互联端口传递,经过一段时间的收集,所有设备上都会收集到完整的拓扑信息(称为拓扑收敛)。此时会进入角色选举阶段,确定成员为Master 或者Slave。角色选举会在拓扑发生变化的情况下产生,比如:IRF2建立、新设备加入、IRF2分裂或者两个IRF2系统合并。角色选举规则如下(按规则次序判断,直到找到唯一的最优成员,才停止选举。此最优成员即为 IRF2系统的Master设备,其它设备则均为Slave设备):
1、当前Master优于非Master成员;
2、当成员设备均是框式分布式设备时,本地主用主控板优于本地备用主控板;
3、当成员设备均是框式分布式设备时,原Master的备用主控板优于非Master成员上的主控板;
4、成员优先级大的优先;
5、系统运行时间长的优先;
6、成员桥MAC小的优先。
IRF2 分裂检测处理
IRF2系统对外体现为一个整体的交换系统,但由于本身由多台设备组成,也存在由于意外原因导致IRF2 系统分裂的可能。IRF2系统分裂后,形成两个或多个相同的逻辑设备:地址相同、配置相同,需要进行检测和进一步处理以消除对网络的影响。
桥MAC变化
IRF2系统作为逻辑单台设备,对外具有唯一的桥MAC(和三层MAC)。IRF2系统建立时,Master设备桥MAC同步到其它成员设备,分裂后,对于非Master所在系统,IRF2系统中其它设备维持该桥MAC不变并选举新的Master,此机制可避免当原Master故障时网络中的邻居设备重新学习MAC。同时IRF2也具有比较灵活的桥MAC处理方式以便于组网变通,目前提供了三种IRF2系统MAC变化的方式可通过配置实现:
- Master离开后,桥MAC立即变化;
- 保留6min后变化;
- 始终不变。
Master检测和分裂处理
IRF2系统分裂后,会在网络中形成两组或多组“完全相同”的设备组,均有相同配置的Active Master, IRF2附加了检测和冲突处理,称为MAD(Multi-Active Detection,即多Active检测)。
检测:通过LACP(Link Aggregation Control Protocol,链路聚合控制协议)或者BFD(Bidirectional Forwarding Detection,双向转发检测)协议来检测网络中是否存在多个从同一个IRF2系统分裂出去的全局配置相同的IRF2。
LACP方式下,H3C进行了扩展开发,在LACP协议报文中增加IRF2 Master ID ,当系统分裂后,分裂后的IRF2系统有各自的Active Master ID,可通过LACP进行传递检测;BFD方式下,也通过在BFD中扩展 Master ID来检测冲突。
冲突处理:IRF2系统分裂后,系统会检测到网络中存在多个处于Active状态相同的IRF2系统,Master 成员编号小的处于Active状态的IRF2系统会继续正常工作,Master成员编号较大的处于Active状态的IRF2会迁移到Recovery状态:关闭该系统中所有成员设备上除保留端口以外的其他所有物理端口。
故障恢复:IRF2系统通过日志提示用户修复IRF2互联链路,链路修复后,冲突的设备重新启动,恢复 IRF2系统,被Down掉的端口将重新恢复业务转发。
IRF2各产品端口捆绑数量
三、华为CSS和H3C IRF2对比总结
加载全部内容