网络运维相关知识
[TOC]
网络运维
日常维护
网络维护概述
网络的生命周期大致包括了网络规划与设计、网络实施、网络维护及优化等阶段
网络维护可以分为两类:日常维护和故障排除
- 日常维护是为了预防问题发生,尽量减少突发的故障。从故障排除工作中找到的问题原因,可为日常维护工作提供参考
- 网络维护不仅仅是技术问题,而且也是管理问题。日常维护对操作人员的技术要求不高,但对操作的规范性要求比较高。通过日常维护可以得出网络在正常情况下的各种参数,例如网络设备的版本、网络带宽、网络安全等,从而为故障排除工作打下良好的基础。
日常维护 - 内容和方法
日常维护分为设备环境维护和设备软硬件维护两大部分
-
设备运行环境:
- 硬件运行环境是指设备运行的机房、供电、散热等外部环境,这是设备运行的基础条件
- 对于设备环境的维护,工作人员需要亲临现场,甚至借助一些专业工具进行观察、测量
-
设备软硬件运行情况:
- 设备软硬件运行情况与设备运行的具体业务密切相关。华为数通设备使用了通用的VRP平台,网络工程师应该掌握VRP平台的常用维护命令
- 对于设备软硬件的维护,工作人员可以现场操作,也可以远程操作,主要通过设备的display命令实现
-
日常维护可以使用以下两种方法:现场观测 :观察设备硬件运行环境、远程操作:了解设备软硬件运行情况
操作清单 [Checklist]

设备环境检查
设备运行环境正常是保证设备正常运行的前提
但实际工作的时候,当有故障发生,不会第一时间检查设备环境,因为设备环境相比较其他的因素来说,更加的稳定和不容易发生故障
- 设备环境检测内容:设备位置摆放是否合理、机房温度、机房湿度、机房空调运行是否正常、清洁状况、能源系统是否正常
设备基本信息检查
设备基本信息检查包括软件版本检查、License检查、设备存储空间等信息

检查项 | 检查方法 |
---|---|
设备运行的版本 | display version |
检查软件包 | display startup |
License信息 | display license state |
检查补丁信息 | display patch-information |
检查系统时间 | display clock |
检查Flash/SD卡/CF卡空间 | dir flash、dir slave、dir cfcard |
信息中心 | display info-center |
检查配置正确性 | display current-configuration |
检查debug开关 | display debugging |
检查配置是否保存 | compare configuration |
设备运行状态检查
在进行设备运行状态检查时,重点关注设备硬件的运行状态,如板卡、电源、风扇、温度、CPU、内存等
-
一般设备上都设置了告警灯,通常硬件故障都会导致告警灯亮。因此,也可以通过现场观察发现设备运行异常状态
-
对于板卡、电源、风扇等部件的运行状态,应遵照厂商的相关指导进行判断,有必要时联系厂商进行指导。如果确认为硬件故障,可以联系供应商处理
运行状态检查内容:

检查项 | 检查方法 | 评估标准 |
---|---|---|
单板运行状态 | display device | 重点关注单板在位信息及状态信息是否正常 |
设备复位情况 | display reset-reason、display reboot-info | 通过查看复位信息,确认无非正常复位 |
设备温度 | display temperature、display environment | 各模块当前的温度应该在上下限之间 |
风扇状态 | display fan | Present项为YES表示正常 |
电源状态 | display power | State项为Supply表示正常 |
FTP网络服务端口 | display ftp-server | 不使用的FTP网络服务端口要关闭 |
告警信息 | display alarm all | 无告警信息。如果有告警,需要记录,对于严重以上告警需并立即分析并处理 |
CPU状态 | display cpu-usage | 各模块的CPU占用率正常。如果CPU占用率如果超过80%,建议重点关注 |
内存占用率 | display memory-usage | 内存占用情况正常,如果Memory Using Percentage Is超过60%时需要关注 |
日志信息 | display logbuffer、display trapbuffer | 不存在异常信息 |
主用板、备用板的备份状态 | display switchover state | 主备板同时存在时,要同时有主备板的显示状态信息 |
设备接口内容检查
- 网络设备通过接口来交换数据报文,接口状态异常会影响到网络的功能
- 接口如果出现大量错包,并且在短时间内不断增加,通常是由于链路的问题造成的
检查项 | 检查方法 | 评估标准 |
---|---|---|
接口错包 | display interface | 业务运行时,要检查接口有无错包,包括CRC错包等 |
接口协商模式 | display interface | 接口协商模式正确,两边接口要一致,不能有半双工模式 |
接口配置 | display current-configuration interface | 接口的配置项合理,如接口双工模式、协商模式、速率、环回配置等 |
接口状态 | display interface brief | 接口的Up/Down状态是否满足规划要求 |
PoE供电 | display poe power-state interface interface-type interface-number |
业务运行状态检查
- 业务运行状态主要是指网络协议的运行状态
检查项 | 检查方法 | 评估标准 |
---|---|---|
MAC地址表信息 | display mac-address | MAC地址表信息正确 |
VLAN信息 | display vlan | 查看所有VLAN的基本信息 |
路由表信息 | display ip routing-table | 有默认路由或者精确路由,便于故障时远程定位 |
OSPF邻居状态 | display ospf peer | OSPF邻居状态:邻居状态State为Full或者2-Way |
IS-IS邻居状态 | display isis peer | IS-IS邻居状态:邻居状态State为Up |
BGP邻居状态 | display bgp peer | BGP邻居状态:邻居状态State为Established |
VRRP状态 | display vrrp statistics | 备份组中的设备的VRRP状态State不能同时为Master |
MSTP状态 | display stp brief | 指定端口和根端口的STP State为FORWARDING |
软件与配置的备份
备份的目的是为了在极端情况下恢复网络功能
备份的实质是把对应的文件传输到备份服务器上,通常将设备作为FTP或TFTP客户端,通过命令行将相应的文件传输到服务器上
- 对于配置文件的备份,建议每周例行进行;同时在设备的配置有变更之前,应进行配置文件的备份。
- 软件与配置都需要备份。备份的目的是为了在极端情况下恢复网络功能。
- 当设备因硬件故障无法启动,或更换同型号的设备后,如果没有备份的配置文件,业务将很难快速恢复。
- 软件版本也有必要备份,但同一个产品、同一个版本只需要备份一次即可;也可以从厂商官网获取对应的版本文件保存到本地。
- License文件是一类特殊的文件,它针对具体的产品进行了设置,一旦意外丢失,则需要经过厂商的流程重新申请,通常这个流程需要提供一些证明材料,因此申请周期也会比较长
- 如果有备份的License文件则可以快速地恢复到设备上
信息收集工具
信息中心
信息中心是设备的信息枢纽。设备产生的Log、Trap和Debug信息统一发往信息中心,通过信息中心的统一管理和控制,实现信息的灵活输出
- 通过配置信息中心,对设备产生的信息按照信息类型、严重级别等进行分类或筛选,用户可以灵活地控制信息输出到不同的输出方向
- 用户或网络管理员可以从不同的方向收集设备产生的信息,方便监控设备运行状态和定位故障。
信息类型 | 内容描述 |
---|---|
LOG信息 | LOG信息主要记录用户操作、系统故障、系统安全等信息: |
用户日志:记录用户操作和系统运行信息 | |
安全日志:记录包含账号管理、协议、防攻击和状态等内容的信息 | |
诊断日志:记录协助进行问题定位的信息 | |
Trap信息 | Trap信息是系统检测到故障而产生的通知,主要记录故障等系统状态信息 |
Debug信息 | Debug信息是系统对设备内部运行的信息的输出,主要用于跟踪设备内部运行的状态 |
信息的分级
设备产生信息比较多时,用户较难分辨哪些是设备正常运转的信息,哪些是出现故障需要处理的信息。对信息进行分级,用户可以根据信息的级别进行粗略判断,及时采取措施,屏蔽无需处理的信息
- 根据信息的严重等级或紧急程度,信息分为8个等级,信息越严重,其严重等级阈值越小
显示值 | 严重等级 | 描述 |
---|---|---|
0 | Emergencies | 设备致命的异常,系统已经无法恢复正常,必须重启设备 |
1 | Alert | 设备重大的异常,需要立即采取措施。如设备内存占用率达到极限等 |
2 | Critical | 设备的异常,需要采取措施进行处理或原因分析 |
3 | Error | 错误的操作或设备的异常流程,不会影响后续业务,但是需要关注并分析原因 |
4 | Warning | 设备运转的异常点,可能引起业务故障,需要引起注意 |
5 | Notification | 设备正常运转的关键操作信息 |
6 | Informational | 设备正常运转的一般性操作信息 |
7 | Debugging | 设备正常运转的一般性信息,用户无需关注 |
信息的输出
设备产生的信息可以向远程终端、控制台、Log缓冲区、日志文件、SNMP代理等方向输出信息
- 为了便于各个方向信息的输出控制,信息中心定义了10条信息通道,通道之间独立输出,互不影响

信息的过滤
为了使信息的输出控制更加灵活,信息中心提供了信息过滤的功能。设备正常运行后,各模块在业务处理时都会上报信息
当用户希望过滤某些不需要关注的业务模块/级别的信息时,可以配置信息在信息通道中的过滤功能
信息中心通过信息过滤表实现信息在通道中的过滤。信息过滤表是根据信息分类、分级、来源对输出到各个方向的信息进行过滤的
信息过滤表记录的内容如下:
- 信息模块号、Log信息输出开关状态、Log信息输出过滤级别、Trap信息输出开关状态、Trap信息输出过滤级别、Debug信息输出开关状态、Debug信息输出过滤级别
信息中心的应用场景

信息中心命令
1. 使能信息中心功能
[HUAWEI] info-center enable #缺省情况下,信息中心功能处于使能状态
2. 为指定编号的信息通道命名
[HUAWEI] info-center channel channel-number name channel-name
3. 配置对指定的Log或Trap信息进行过滤的功能
[HUAWEI] info-center filter-id { id | bymodule-alias modname alias } [ bytime interval | bynumber number ]
参数 | 参数说明 |
---|---|
id | 指定需要过滤的Log或Trap信息对应的ID信息 |
bymodule-alias modname alias | 指定需要过滤的Log或Trap信息对应的模块名称和助记符名称 |
all | 指定过滤所有Log或者Trap信息 |
4. 使能Log信息向Log缓冲区的发送功能
[HUAWEI] info-center logbuffer
缺省情况下,Log信息向Log缓冲区的发送功能处于使能状态
5. 配置向日志主机输出信息
[HUAWEI] info-center loghost ip-address{ source-ip source-ip-address } | transport { udp | tcp ssl-policy policy-name }
参数 | 参数说明 |
---|---|
ip-address | 指定日志主机的IPv4地址 |
source-ip source-ip-address | 指定发向日志主机的报文源IPv4地址 |
port port-number | 指定发送时对应的端口号 |
transport { UDP | TCP } | 指定日志报文的传输模式,传输缺省情况下,采用UDP模式 |
ssl-policy policy-name | 指定SSL [Secure Sockets Layer]策略名称 |
6. 配置信息输出时所使用的信息通道
[HUAWEI] info-center { console | logbuffer | logfile | monitor | snmp | trapbuffer } channel { channel-number | channel-name }
参数 | 参数说明 |
---|---|
console | 指定向控制台输出信息的信息通道 |
logbuffer | 指定向Log缓冲区输出信息的信息通道 |
logfile | 指定向日志文件输出信息的信息通道 |
monitor | 指定向用户终端输出信息的信息通道 |
snmp | 指定向SNMP代理输出信息的信息通道 |
trapbuffer | 指定向Trap缓冲区输出信息的信息通道 |
channel-number | 指定通道编号 |
channel-name | 指定通道名称 |
7. 使能终端显示信息中心发送信息的功能
[HUAWEI] terminal monitor # 缺省情况下,控制台显示功能处于使能状态,用户终端显示功能处于未使能状态
8. 使能终端显示Debug信息功能
[HUAWEI] terminal debugging # 缺省情况下,终端显示Debug信息功能处于未使能状态
9. 使能终端显示Log信息功能
[HUAWEI] terminal logging # 缺省情况下,终端显示Log信息功能处于使能状态
10. 查看Log缓冲区记录的信息
[HUAWEI] display logbuffer [ size size | slot slot-id | module module-name | security | level { severity | level } ]
11. 查看日志文件信息
[HUAWEI] display logfile file-name [ offset | hex ]
12. 查看信息中心Trap缓冲区记录的信息
[HUAWEI] display trapbuffer
13. 查看设备允许发送的调试信息
[HUAWEI] display debugging
14. 查看信息中心输出方向的配置信息
[HUAWEI] display info-center
报文捕获
当设备的业务流量出现异常,可以使用报文捕获功能,抓取业务报文进行分析,以便及时处理非法报文,保证网络数据的正常传输
- capture-packet命令用来在设备捕获符合设置规则的业务报文,并上送到终端显示,或保存到本地
capture-packet interface interface-type interface-number [ acl acl-number ] [ vxlan [ vni vni-id ] destination { terminal | file file-name } * [ car cir car-value | time-out time | packet-num number | packet-len { length | total-packet } ] *
参数 | 参数说明 |
---|---|
acl acl-number | 捕获VXLAN报文内层信息匹配到指定ACL规则的报文 |
vlan vlan-id | 捕获指定VLAN报文。 |
inner-vlan inner-vlan-id | 捕获指定内层VLAN报文。 |
destination | 将捕获的报文上送目的地 |
terminal | 将捕获的报文发送到终端显示 |
file file-name | 将捕获的报文保存在指定的文件里,文件名必须为*.cap格式 |
time-out time | 捕获报文超时时间,超时后报文捕获实例自动关闭 |
packet-num number | 捕获报文的数量,捕获指定数量的报文后报文捕获实例自动关闭 |
packet-len length | 报文在终端显示或存储在存储介质中的长度 |
total-packet | 在终端显示或在存储介质中存储整个报文 |
LLDP
链路层发现协议 [LLDP,Link Layer Discovery Protocol] 是IEEE 802.1ab中定义的链路层拓扑发现协议
能够准确定位诸如哪些设备附带有哪些接口,以及哪些接口与其他设备相互连接等信息,并能够显示客户端、交换机、路由器、应用服务器和网络服务器之间的路径
在实际组网中可以通过LLDP协议获取设备的物理连接信息
流量统计
流量可以帮助用户了解应用流策略后流量通过和被丢弃的情况,由此分析和判断流策略的应用是否合理,也有助于进行相关的故障诊断与排查
网络故障排除
数通网络故障排除方法
网络故障排除基本概念
网络故障是指由于某种原因而使网络丧失规定功能并影响业务的现象。
从用户的角度出发,凡是影响业务的现象都可以定义为故障。
常见的故障现象和分类如下:

结构化的网络故障排除流程

关于非结构化网络故障排除流程:
- 非结构化的网络故障排除流程,就只是凭直觉在这些步骤之间重复执行,虽然最终也可能找到解决故障的方法,但没有办法保证效率
- 在复杂的网络环境中,有可能会由于非结构化的网络故障排除流程而导致新的故障,从而使网络故障的排除变得更加困难
报告故障 - 主动沟通确认
事件信息 | |
---|---|
故障报告者 | 姓名、所在的部门、职位级别、所负责的工作内容、使用电脑的位置等信息 |
故障频率 | 故障是突发的、偶尔的、还是频繁的 |
用户操作 | 出现故障之前和之后,用户对自己的终端做了哪些操作 |
确认故障
-
确认故障的四个要素:
- 故障的主体:哪个网络业务出现了故障
- 故障的表现:故障的现象是什么样的
- 故障的时间:用户是什么时间发现的故障,以及专业人员推测的故障出现的真实时间
- 故障的位置:哪个网络组件出现了故障
-
对故障现象进行准确的描述
-
最后应确认该故障是否属于自己的负责范围,即自己是否被赋予了相应的权限来处理该故障
收集信息
- 需要收集哪些信息:收集信息阶段主要是收集与故障相关的信息,如文档、网络变更情况等
- 如何收集这些信息:使用设备自身的操作命令;使用信息收集工具,如抓包工具、网管软件等
- 获取授权:在信息安全要求高的网络环境中,对信息的收集是需要得到授权的,有时需要签署书面的授权文件
- 收集信息阶段的风险评估:
- 有些收集信息的操作,如对路由器或交换机执行debug命令,会导致设备的CPU占用率过高,严重的情况下甚至会使设备停止响应用户的操作指令,从而引入额外的故障现象
- 在收集信息的时候应评估这些风险,平衡引入新故障的风险与解决现有故障的紧迫性之间的关系,并明确的告知用户这些风险,由用户来决定是否进行风险较大的信息收集工作
判断分析
判断分析阶段是对收集到的信息进行分析整理
通过对故障信息、维护信息、变更信息的汇总,结合团队经验或个人经验进行综合的判断和分析,得到可能导致网络故障的原因列表

原因列表
在原因列表阶段,首先需要列出所有可能的故障原因,然后通过信息过滤,列出最可能的待排查故障原因,同时排除掉当前最不可能的故障原因,从而缩小故障的排除范围

故障评估:需要在逐一排查前进行故障评估工作
逐一排查
- 在逐一排查阶段同样需要平衡解决问题的迫切性与引入新故障的风险性之间的矛盾。所以,应该明确告知用户排查工作可能带来的风险,并在得到许可的情况下才能执行操作
- 有些情况下,通过逐一排查验证推断的过程涉及到网络变更,这时必须做好完善的应急预案和回退准备

解决故障:通过逐一排查找到了故障的根本原因,并排除了故障,网络故障排除的流程就可以结束
复杂的网络环境中,故障现象消失后仍然需要观察一段时间,一方面确认用户报告的故障已经得到了解决,另一方面确认故障排除的过程中没有引入新的故障

收尾工作:收尾工作包括相关文档的整理、信息的通告等
需要对之前网络故障排除流程中所有进行了变更的配置或软件进行备份,并做好故障排除文档的整理和移交工作。为了避免同样的故障再次发生,在此阶段应该向用户提出改进建议

网络故障排除的核心思想和方法
以业务流量路径为核心的故障排除思想:通常情况下,网络中业务流量的路径是在网络规划阶段就已经设计好的,只需要知道受到网络故障影响的业务的流量往返路径,跟踪此路径,逐步排除即可
- 确认业务流量路径 - 网络层:在数据包转发过程中可能存在多条路径,因此需要根据报文转发过程,确认业务流量的传输路径
- 确认业务流量路径 - 数据链路层:确认业务流量对应的数据帧在二层网络环境中是如何被交换机转发的
分层故障处理法
所有模型都遵循相同的基本前提:当模型的所有低层结构工作正常时,它的高层结构才能正常工作。一般建议在处理故障时,从参考模型自底向上进行故障排查

对比配置法
对比配置法是指对比正常状态与故障状态下的配置、软件版本、硬件型号等内容,检查两者之间的差异
分块故障处理法
华为的交换机和路由器等网络设备的配置文件具有清晰的组织结构,由此可以进行分块故障处理
当出现一个故障案例现象时,我们可以把它归入以下某一类或某几类中,从而有助于缩减故障定位范围 :
-
管理部分 [路由器名称、口令、服务、日志等]
-
端口部分 [地址、封装、cost、认证等]
-
路由协议部分(静态路由、RIP、OSPF、BGP、路由引入等)
-
策略部分(路由策略、策略路由、安全配置等)
-
接入部分(Console登录、Telnet登录、拨号等)
-
其他应用部分(DNS、DHCP、VPN配置等)
分段故障处理法
数据包转发过程可能经过多台路由器和物理链路,每段物理连接都有可能发生故障,因此分段处理的方法是有效的

替换法
替换法是检查硬件问题最常用的方法之一
当怀疑是网线问题时,更换一根确定是好的网线试试;当怀疑是接口模块有问题时,更换一个其它接口模块试试

网络割接
割接基本概念
割接项目:如果对网络执行的技术迁移动作会影响现网运行业务,则在技术迁移项目实施时需严格地遵循预先设定的操作流程和风险控制措施,一般将此类项目定义为割接项目
割接常见场景:
- 网络扩容:随着业务流量的增加,对网络进行扩容,增加网络设备、添加链路
- 网络改造:涉及对网络结构的调整,包括物理结构、逻辑结构
- 设备替换:将原有老旧设备升级替换为新设备,或者更换为其他厂家设备,或者使用其他类型设备代替
- 配置变更:在不改变物理拓扑结构的情况下,对设备配置进行变更,对正在运行的业务可能会产生影响
割接流程

割接操作流程
准备阶段
项目调研
在割接开始前需要与客户网络信息负责人、一线维护工程师、ISP的技术接口人以及设备厂家代表等多方进行沟通,同时进行客户网络信息的收集
- 信息采集分析:现网的静态、动态信息用于分析网络情况以及割接前后网络情况进行对比分析,判断割接前后业务量是否正常
- 业务模型分析:对客户的业务流量走向、业务流量大小进行观察,包括流量走向的变化和链路流量大小,可用于割接前后进行对比
- 现网硬件环境观察:
- 需要记录的内容:光纤接口对应关系、ODF位置、接口标识
- 对现网环境的观察便于割接时操作,同时相应的接口对应关系要进行记录,涉及到设备替换、线缆替换等割接操作便于割接完进行检查
项目分析
对客户的需求进行分析、梳理,分析客户对割接后网络的新需求,如带宽,网络KPI指标,新业务承载能力等,同时在该阶段将割接方案中的割接变更需求进行明确
风险评估
根据调研结果、需求分析结果,以及割接方案的框架进行割接风险分析与评估,针对可能出现的风险项目提前制定应对措施,并将对应的风险项对应措施责任人确认
输出割接方案
- 根据调研结果、项目分析结果、技术人员风险评估编写相应的割接方案
- 割接方案中需要将割接前准备阶段、实施阶段、收尾阶段的详细步骤、过程进行明确
- 回退方案:当割接失败时需要将网络退回到割接前初始状态,此时需要按照回退方案进行操作,将网络恢复
方案验证和审定
大型的、重要的割接项目,要求在实验室内搭建环境进行提前验证,将风险点进行测试,并对整个方案的可行性确认,使用实验室环境验证的被称为实验局测试
割接准备
割接准备是割接实施前的重要步骤,同时充分地准备也是顺利完成割接的基础
割接的准备分为环境准备 [硬件,软件,工具,备件等]、人员准备 [甲方,乙方,监理]和流程准备 [执行时间划分]


割接前快照
为方便割接回退以及割接之后对比业务是否正常,在正式开始割接之前需要对现网配置、现网数据再进行一次快照,具体包括以下内容:
- 现网配置进行备份
- 现网动态数据采集 [端口状态、流量、各路由协议状态、路由数量、STP协议状态、各端口ARP/MAC地址表项]
- 割接前对业务进行测试,确保割接涉及的业务在割接前属于正常状态
割接执行
- 现场割接人员按照提前准备好的割接步骤一步步严格执行,无特殊原因不能临时更改实施步骤
- 每一步骤的执行记录下割接实际操作过程的时间点、执行动作、执行结果
割接回退
- 如果在指定的时间前未完成割接,需按照提前准备的回退方案一步步进行回退,将网络恢复。
- 回退范围可根据实际情况,与客户协商部分回退或全部回退
割接测试
割接实施完成后为测试割接是否成功,需要从以下几个方面对网络、业务进行测试:
- 网络运行状态测试:对现网的动态数据在进行一次采集,与割接前进行对比
- 业务测试:通过PING、TRACERT或者客户侧的第三方软件测试网络连通性、延迟、抖动等指标是否到达业务要求
- 客户应用测试:测试由网络承载的客户应用,检查是否正常

收尾阶段
守局
割接操作完成且通过客户应用业务测试后,网络需进入一个特殊的观察期,在此期间工程师一般驻守在客户局点,观察网络运行状态,防止出现意外故障。
割接验收
割接顺利完成并在守局观察无异常之后还需要对客户进行维护培训以及资料移交