监控广域网
编者按:在看完这篇文章以后,非常迫切的想知道国内在SLA方面的情况。记者对中国电信、联通、吉通、网通三家公司分别进行了非正式的采访。得到的答案是,广域网的SLA在中国还是一片空白,所以在服务水平监控工具领域也是空白。这不仅仅是运营商现在没有提供,另一方面,中国的用户也还没有这一意识。当然一些运营商也在准备为他们的大客户提供类似的服务,但是近期还难以实现。
另一方面,信息产业部在今年年初颁布了电信服务质量标准的暂行规定,其中有对于DDN、帧中继、分组交换的相关标准。但标准的文案相对简单,并没有详细指出相应的测试方法。记者也向信息产业部咨询了相关的问题,电信管理局服务质量监督处的一位同志在回答记者提问时表示,信息产业部召集了业内专家正在制定相应的测试方法和规范,预计在年内出台。
服务水平监控工具在美国企业中,尤其是在“.Com”公司、在线经纪商以及其他面临由于每小时网络故障而遭受几万甚至几十万美元损失的公司中大受欢迎。在如此巨大的资产面临危险的情况下,企业IT经理需要将运营商提供的线路作为企业网络中不可分割的一部分来管理。他们需要得到当前有关可用性、性能和时延的详细信息,他们需要在容量规划和问题预先管理方面与运营商和服务提供商主动合作。
企业试图管理运营商线路的一个途径是执行服务水平协议(Service-Level Agreement——SLA)。SLA是一种合同,在这种合同中,运营商或服务提供商保证提供最低限度的服务水平,并且规定了违约所受的惩罚。但是,各公司越来越发现SLA充其量只是种不好使的工具。有人认为电信公司没有时间或技术手段在其SLA中支持更细的要求。
SLA是指线路可用性的一个百分比,它用运营商线路正常运行的时间比上一个特定时间段得出。IT经理们都知道,这使服务提供商具有很大的伸缩余地。例如,如果SLA 规定一个月中平均99%的运行时间,在运营商受到不遵守SLA指控前,其线路可以停止运行七个小时。如果这1%停机发生在年终的放假期间的话,你就遇到麻烦了。
此外,用户抱怨说,运营商制作的标准服务水平报告太笼统、太不及时,以至没有用处。例如,有人评价说,在AT&T和MCI WorldCom向该公司提交的报告中,“信息提供点间隔为平均15分钟,因此无法知道在任意特定时刻正在发生什么。"此外,标准运营商报告没有对协议使用带宽情况进行分类。
管理内部信息
监控性能的需要正推动IT部门对能够自己使用的WAN 服务水平监控工具的需求不断增长。据称,目前大多数Fortune 500公司都在对这类产品进行评估,并且40%到50%公司已经在使用这类产品。
60多家厂商提供了下列几类WAN服务水平管理工具:
运行在DSU(数据服务单元)/CSU(信道服务单元)上可以进行ATM、帧中继和T-1连接上的性能、带宽使用情况和时延实时监控的代理软件。
测量客户机与服务器之间的端到端性能与时延的桌面代理程序。
定期轮询网络设备上的SNMP和远程监控(RMON)管理信息库(MIB)的探测器。
采集、存储以及生成来自多种管理代理程序和系统的信息报告的平台。
这些不同类型的产品使网络经理可以监控一个SLA 所涵盖的所有关键领域中的服务水平,其中包括服务可用性、吞吐量和时延。一些工具还对像TCP/IP以及HTTP 这类具体第三层和第四层协议的带宽使用情况进行分类。
用户证实说,这类信息在定位和解决WAN上的问题时发挥了关键作用。例如,当用户报告网络反应速度缓慢时,网络管理人员可以检查带宽的使用情况。可能会发现某个人正在进行大型FTP文件传输,因此, 知道这是公司内部应用吞吐量的问题,而不是帧中继的问题。
如果问题发生在企业网络方面,公司内部的网络技术人员就可以自己解决这个问题。如果问题不在于企业网络一方,那么他们就将这一数据交给运营商。无论哪种情况,该数据都可以消除相互指责,加快故障查找的速度。
网络经理越来越希望做更多的事,而不仅仅限于对WAN 上的边缘路由器之间的数据流进行监控。他们需要能够像企业网络中一个组成部分那样来管理WAN线路,换句话说,能够测量客户机到服务器的端到端的网络性能,能够集中力量解决任何出现的问题。
直到不久前,这一行业还远未统一起来从而使这一目标实际可行,网络管理人员在为使不同工具和代理之间相关联,并将他们生成的信息互相之间进行翻译、解释而努力。一个公司可能会分别用多个产品管理网络服务水平。
用Lucent公司的VitalNet(以前叫Enterprise Pro), 该产品出于容量规划的目的对网络传输流进行监控和分析。
用NetScout Systems公司的NetScout Manager Plus, 该产品为容量规划执行特定协议传输流的趋势分析。
用Concord Communications公司的Network Health,该产品监控永久虚拟电路的使用情况以及帧中继接入设备上的其它临界事件。
用Paradyne公司的FrameSaver SLV DSU/CSU代理, 该产品执行帧中继链路上的实时传输流监控。
用Network Associates公司的RouterPM,该产品轮询不同路由器的MIB 并生成用于解决问题的错误、故障和使用情况报告。
而管理员需要一种可以使我们将所有信息综合在一起,了解所有情况的工具。尤其需要能够说明网络元素是如何影响服务水平和应用性能的,能够确定问题的根源。
据悉,服务水平管理厂商去年开始着手解决这种需要。
越来越多的服务水平监控平台将不同探测器和代理与数据库以及报告基础设施相结合,从而使用户可以从多种来源采集信息并将采集到的信息“正规化”,使它可以被分析,可以以不同的侧面表现在报告中。这类产品包括Concord 公司的NetworkHealth、DeskTalk公司的Trend、InfoVista公司的VistaViews、Lucent公司的VitalNet和NextPoint公司的S3。
代理软件
目前市场上有几种可以监控特定协议和应用(如Microsoft Exchange和SAP R/3 )的端到端性能和时延的桌面代理产品。
有两类可供选择的代理产品:被动式和主动式。
被动式代理安装在客户机上,对用户生成的传输流进行监控。例如,Lucent的VistaAgent运行在桌面系统上,对特定类型的事务(如HTTP或SQL 数据库查询)进行监控。服务器软件采集数据并确定问题的根源。First Sense 公司的Enterprise是一款类型相似的被动代理软件。
主动代理通常以一定时间间隔模拟应用事务来测试响应时间。例如,Response Networks公司的ResponseAgent询问服务器测试响应时间,然后再执行ping和其它基本测试来定位问题发生源。这类测试由一个被称为域控制器的中间件实体来启动。用户在Response Service Explorer 控制台上观察采集到的数据。所有这三件产品都是Response Center套件中的组件,该套件价格为5万多美元以上。
主动和被动代理具有潜在的缺陷。由于被动代理必须等待用户来生成传输流,因此,它们在用户没有使用桌面系统时无法工作。例如,在周末很难使用这类代理来测试用户是否完全解决了周五下午出现的问题。
另一方面,桌面代理依赖有关计算机运行的确切应用的精确信息才能有效地工作。这就迫使IT执行许多先期的发现工作,然后再定期复查看看发生了什么。下转28版)
(上接27版)一些公司正等待代理技术成熟后再采用这种技术。一旦专业服务公司完成了将其多数桌面系统向基于浏览器的软件的迁移,可能会部署通过小应用程序的基于客户机的响应时间报告技术。
合作协调
许多公司需要不仅能采集来自客户机代理的客户响应时间数据,而且还能将采集到的数据与RMON与SNMP探测器、DSU/CSU代理以及其它服务水平监控工具生成的网络性能和可用性数据建立联系的WAN管理平台。
这方面已经出现了一些很有希望的进展。
例如,Concord公司最近收购了销售主动监控代理产品的Empire 公司和销售被动代理Enterprise的First Sense公司。Concord已经承诺将这些工具集成到该公司的NetworkHealth套件中。
Lucent公司的VitalSuite 7.0提供了采集和报告来自桌面客户代理VitalAgent以及基于SNMP的WAN和LAN监控工具VitalNet数据的单一基础设施。
Visual Networks正在将Visual UpTime与该公司最近收购的两款产品相集成。这两款产品是Avesta公司的Trinity以及Inverse公司的IP Insight。前一种产品建立服务水平报警和其它事件之间的关系来确定问题发生源,后者为一款主要用于监控接入线路上时延的基于客户机的代理软件。
同时,Internet工程任务组中的一个工作小组正在开发应用性能测量MIB。这种MIB将为与测量网络上端到端应用性能相关的关键信息提供标准化的定义。网络管理员将能够采集来自不同厂商的代理应用的数据,然后将其与其它基于SNMP的数据合并到一个报告中。该标准计划在大约一年的时间中稳定下来供厂商使用。
随着服务水平监控工具功能更加强大,并且应用的范围越来越广泛,也就提出了这样一个问题:它们提供的信息是否会使企业网络管理人员与他们的运营商同行相争执。客户会使用这类工具来抓获违反SLA的运营商吗?不一定。
一些公司使用服务水平监控工具的目的非常明确,检查运营商是否达到了SLA的要求,并用于在与运营商之间的谈判中获得赔偿。虽然说利用服务水平监控工具可以从运营商那里得到赔偿,但是有人认为这一过程太过繁琐,他们更希望运营商提供的线路能够保证非常高的服务质量。有些网络管理人员建议,利用服务水平监控工具促进运营商能提供更好的服务,尽快的恢复网络畅通,这样做要比花大量时间去证明运营商没有达到SLA要实际的多。
产品篇
美国《网络世界》对五家厂商的SLA产品进行了测试,以下是他们对这几种产品的详细介绍。
Visual UpTime
Visual UpTime中的Visual Service Advisor组件精确地给我们提供了跟踪WAN链路SLA遵守情况所需的数据。它所显示的往返时延、吞吐量以及可用性统计数据及时并且令人难以置信地准确。Visual UpTime是一款了解WAN 链路带宽使用,确定SLA遵守情况,孤立WAN链路错误以及监控帧中继花费的理想工具。
Visual Service Advisor提供了当前和14天的几种关键SLA 符合标准的变化平均值,如帧中继提交(不包括超量猝发速率之上的传输流在内的、成功提交帧数与总提交帧数的比);测试包遍历网络的历时时间、PVC运行时间以及PVC吞吐量(CIR之上和之下的成功提交)。
Visual UpTime对PVC的实时和历史数据的报告提供了恰当的运行详细数据。由于Visual UpTime在所包含的Microsoft SQL Server 7.0数据库中保存网络设备的数据、临界值和统计数据,因此,可以通过简单地调用标准查询工具挖掘Visual UpTime数据库来生成用户自己使用的定制报告。
该产品还提供了全面的数据包捕获和协议解码功能以及具有很有用的规划功能的Visual Burst Advisor。Visual UpTime在帮助正确确定WAN链路所需带宽上发挥了很好的作用。通过该产品可以看到解释最短猝发活动的详细数据。在它的帮助下,用户可以精确测量WAN的使用情况,以各端口速度和各PVC的CIR 百分比形式显示了数据传输的峰值和谷底值。Visual Burst Advisor 利用该信息为我们提供了每条WAN链路应当使用带宽的建议。
测量和分析WAN时延是Visual UpTime的强点之一。该WAN 时延工具在每条电路的基础上以非入侵的方式确定端到端时延时间。该工具将客户端设备时延与WAN时延分离开,显示了网络在WAN链路上所经历的准确WAN时延。
OpenLane
如果你在WAN两端同时安装了Paradyne 公司的 FrameSaver SLV DSU/CSU的话,Paradyne公司的OpenLane是一款极佳的基于Java的SLA监控工具,但是,它在探测和显示其他厂商帧中继设备的详细信息功能上受到了限制。对于非Paradyne设备来说,OpenLane的精确性大大下降。例如,详细的本地管理接口统计报告、链接完整性报告以及PVC拥塞报告没有显示Visaul DSU/CSU的时延问题、信令错误、帧错误或丢掉帧的数量。
当FrameSaver DSU/CSU成对使用时, 它可以智能地相互协调来测量和记录重要SLA数据,如时延和丢弃包。该单元以带外方式监控活动帧中继链路,从而保证了发送的数据就是接收到的数据,并且该设备可以显示最细微的差异(在每个站点使用不同厂商设备的WAN链路上还不能提供这种水平的细节数据)。这种成对的设备相互共享信息, 从而使我们可以从任意一个端点监控链路, 并且它们可供 OpenLane 和NetScout Manager Plus使用。
此外,用户还可以直接将SLA 性能参数加载到FrameSaver SLV设备中。利用OpenLane,可以察看每个特定WAN链路的DSU/CSU所传输的报警。每台设备都以相当细的时间间隔跟踪包的CIR,记录链路两个方向的PVC统计数据, OpenLane可以显示这些数据。
FrameSaver单元包括帧中继诊断工具,如用于测试和校验DLCI配置的非破坏性 PVC回环。该单元提供了与Concord公司的Network Health软件包的直接接口,使我们可以将这些产品以更有趣的方式组合使用。
在存储网络设备、临界值和统计信息方面,Paradyne将CloudScape 关系型DBMS 与OpenLane捆绑在一起。它还可以与Oracle数据库连接。这些存储机制在我们的测试中表现良好,不过Oracle8i自然具有更大的可伸缩性。
OpenLane或NetScout Manager Plus的日程安排功能还满足了每天下载 FrameSaver的24小时统计数据缓存的需要,从而避免积存下来的性能和使用情况数据的损失。
VitalSuite
Lucent的VitalSuite是一款用于监控复杂网络的复杂软件。同Network Health一样, 它是一款包括跟踪SLA遵守性的通用网络监控工具。该套件由VitalNet 、VitalAnalysis、VitalHelp和VitalAgent构成。
VitalNet可以从安装VitalAgent的桌面机或者支持SNMP的设备上采集信息,然后将采集到的信息转送给VitalAnalysis和VitalHelp。VitalAnalysis执行服务水平监控, 进行系统和应用软件的性能和趋势历史分析。它可以在附带的Sybase数据库中,或可选地在一个用户另外购买的Microsoft SQL Server数据库中,保存一年的数据。VitalHelp可以对基于TCP/IP的应用的健康性进行评估。一旦确定问题的原因,它就向网络管理员发出警报。
Network Heat Chart是一种VitalSuite工具,它对于跟踪SLA遵守性特别有用。作为可用性和响应时间数据的历史报告,Heat Chart为五种VitalNet资源类提供了网络质量的可视的高水平概要。这五种资源是路由器、WAN、LAN、帧中继链路和ATM 链路。该报告显示每类资源中的可用性、使用情况、拥塞和错误等设备性能。每个Heat Chart单元都对应于一个资源类和一个性能标准。同使用WiseWAN 的WanXplorer一样,Heat Chart单元根据由每个相应资源类组成的基本资源的健康情况变化颜色。
Network Health
如果你喜欢可定制、灵活实用的网络活动报告的话,Concord公司的Network Health可以满足你的需要。该产品在发现网络上的所有设备方面性能超群, 并且其帧中继模块在WAN链路的DSU/CSU中有效、准确地采集了网络统计数据。该帧中继模块在自动为传输流拥塞和包丢弃分析WAN电路的同时,记录了敏感SLA活动并将结果保存在与Network Healt捆绑在一起的Computer Associates公司的OpenIngres数据库中。
Network Health的速查报告利用简要的图表提供了WAN链路的概况。点击每个图表可以了解更详细的情况。在运行Network Health一段时间生成基准数据后,就可以得到更有用的趋势和故障报告。该报告对目前数据和累计基准数据进行很有用的对比。为了取得一致性,报告使用了相同时间、日期和相同类型设备的基准数据。在其首次轮询网络后,则将帧中继设备的速度(包括CIR和猝发速率)告诉了Network Health。此后,对SLA 遵守性的监控只是如何安排用户希望看到的报告日程的问题了。服务水平报告汇集和提供了范围从IT管理员到经理的不同用户水平的每日报告以及长期报告。每份报告都提供了有关WAN链路的广义和特定信息。
WiseWAN
NetReality公司的WiseWAN软件和WiseWAN 200探测器除了监控WAN链路外,还可以对它们进行整形。整形技术是一种对基于可设置参数的WAN 传输流控制和带宽分配的委婉说法。这些参数表示探测器应当向不同类型传输流提供多少带宽。WiseWAN 200探测器利用参数对包进行排队、设定优先级以及重新发送数据包,使更重要的数据包首先离开该单元。可以动态地规定传输流的优先级。例如,用户可以强迫不太重要的包(如Microsoft Exchange电子邮件流)排在后面,同时允许关键应用传输流(如SAP R/3或Oracle数据库事务)总是一路通行:即成为第一批流经WAN链路的包。WiseWAN 200的基于整形算法的Adaptive Circuit 探测高速链路中的拥塞间隔并相应地对传输流进行管理。我们为探测器配置了NetReality 公司的基于 Java 的WanXplorer客户机软件。此后,WiseWAN 200自动地发现了可用的DLCI 并开始控制WAN传输流。当然,只有在传输流猝发是由低优先级和高优先级包组成的混合流,整形特性才有效。
WiseWAN的标准报告显示了WAN链路、顶级DLCI和DLCI使用的健康情况。网络协议分布报告提供了WAN协议的相对吞吐量水平。WiseWAN的历史报告显示了间隔更长的活动,而一般报告则提供了简单趋势分析的每日或每周的平均数据。主要SLA 报告为线路可用性报告、SLA违反情况概况报告和SLA违反情况详细报告。其它与SLA 有关的报告包括线路统计报告、DLCI传输流带宽消耗报告、PVC的CIR负载报告、DLCI性能报告以及响应时间报告。由于这些报告依赖WiseWAN 200探测器提供的数据,因此,它们同OpenLane的报告一样,包含的数据很少并且对其它厂商设备管理的线路没有太大的用处。
WiseWAN的报警特性可以被设置为向用户发出通知,例如,当发生WAN链路拥塞,链路全完中断或链路使用率增加超过了用户所配置的临界值时。
WiseWAN确定流经WAN链路的不同协议流并提供它们的概要,但它不捕获数据包也不对它们进行解码。它可以直接向Concord的Network Health输出数据,并可以将网络设备数据、临界值和统计数据保存在捆绑在一起提供的Sybase数据库中。
使用印象
Visual UpTime在连续的基础上以1秒钟的分辨率测量可用性。此外,它对往返时延的计算排除了路由器的串接和插入时延,因此得到的计算结果是每条PVC 网络时延的真正测试结果。
配置Visual UpTime自动为每条WAN链路采集、解译和显示SLA 管理信息的容易程度给我们留下了深刻印象。不过,使用NetReality 的WanXplorer 和Lucent 的VitalSuite界面深入查看探测器级的细节更容易。
VitalSuite以三种视图组织其网络使用情况报告:业务(Business)、 网络(Network)和报告(Reports)。用户可以根据自己的喜好将 Business 视图定制为 My Vital或My Business, 每种视图都提供了查看应用和网络统计数据性能测量结果的不同方式。
Network视图对标记(tab)索引的信息分类为Router(路由器)、WAN、LAN、ATM、Availability/Response Time(可用性/响应时间)、Servers (服务器)和Other(RMON统计)类型。每个标记索引都显示像速度、 平均使用情况、峰值使用情况、错误和丢弃等设备统计数据,这些数据使确定问题很容易。
Reports视图是一种由任务描述进行分类的可用报告高级菜单。这些描述包括管理、 应用监控、网络监控和容量规划。为了显示网络的使用趋势,VitalSuite的规划报告利用一个简洁的趋势箭头来指示当前平均使用情况以及一个月、三个月、六个月和一年使用情况的增加与减少。
VitalSuite的用户界面直观、易于使用。一旦熟悉了VitalSuite的许多选项和特性,应付它的复杂性也就不成为问题了。My Vital个人Web 网页高度可配置并利用口令字保护功能来限制对该网页的访问与配置。
VitalSuite的文件夹可以保存表示打算监控的设备的图钉形图标。这些图标本身就是关键接口和设备性能的速览图。点击图标就可以调出设备的详细统计数据。
同Concord的Network Health一样, VitalSuite 根据类型对设备分类(路由器、 WAN、LAN、服务器、帧中继链路或ATM链路)。如果用户创建定制类型组的话(也许根据IP地址或设备名),它允许类型组相互重叠。VitalSuite的类型组是动态的,易于管理,并受到用户授予或拒绝的用户权限的限制。
Network Health的报告工具可以选择多种形式来表示和描述WAN 链路统计数据,这些形式包括健康报告、服务水平报告、概要报告、趋势报告、TopN报告和吞吐量会计报告。吞吐量会计报告提供了网络节点和探测器的全面视图。通过Web浏览器,可以进入该工具的易于使用的界面来创建特定电路的运行时间和带宽使用情况的报告。然后,可以迅速创建显示WAN 链路综合情况的执行概况报告。仅仅点击几下鼠标就可很容易地将统计数据输出到Microsoft Excel之中。此外,Network Health 的用于实时显示最新轮询得到的性能数据的基于Java的LiveTrend报告组件是一种令人难忘的工具。同NetScout Manager Plus以及VitalSuite一样,Network Health 的用处远不仅限于监控SLA的遵守性。
通过SNMP,Network Health以非常节省带宽的方式轮询路由器、智能集线器和交换机、DSU/CSU以及RMON探测器。该产品使用户可以为每个网络设备配置轮询速率(快速、中速或慢速)。多数情况下,在一次轮询中,只有总长度为 250字节的两个小数据包穿过网络:即Network Health的SNMP请求和代理的回答。
Network Health通过使用户可以按类型或IP地址类来分类网络组件,从而在某种程度上使确定网络设备的过程很容易,并且它可以执行在网络上找到这些网络组件的发现处理过程。更重要的是,Network Health能够知道和解释用户要求它进行分析的每个厂商的管理信息库。
通过精心设计的WanXplorer用户界面,NetReality的WiseWAN 利用树形视图来显示WAN拓扑图形,该树形视图使选择和使用特定WAN链路易如反掌。可以利用拖/放移动对象,通过点击列标题对列数据进行分类,点击右键来显示直观的具有一致性风格的弹出式菜单。更妙的是,目前WanXplorer的颜色代码可以将报警设置为显示上升状态(红色)或下降状态(灰色)。
WanXplorer具有多种报告选项。实时报告在网络事件发生不久后,根据对每个远程探测器每隔60秒的轮询来显示这些事件。实时报告的暂停、倒带和重放功能在查找WAN链路的错误时给予用户很大的帮助。
WiseWAN报告工具有几种供用户选择的不同风格的图表,不过它没有提供其它产品中所具有的先进的趋势跟踪功能。
发布人:Crystal 来自:网络工程师联盟