当Tom Cignarella来到PlanetOut Inc.公司走马上任,担任技术运营副总裁的时候,他的大部分数据中心还在黑暗之中。
媒体和娱乐公司的San Jose数据中心的灯火通明,但是它的网络监控却是一片黑暗——只有20%的Cignarella的服务器拥有某种报告或者监控的能力。
“当我2006年第一次到达那里的时候,那里只有几台服务器是在监控中。只有很有限的历史图表——我们几乎是蒙着眼睛在飞行,” Cignarella说。一个客户构建的应用程序,诸如此类的,正在处理PlanetOut公司的将近40台混杂运行着Solaris和 Red Hat Enterprise Linux 4的服务器的监控和系统管理需求,他说。
那个时候他并不知道,他的几台Sun Microsystems Inc. T1000 服务器都运行了100%的容量。其它的服务器则在不知道的情况下崩溃了。网络的缓慢开始影响了业务。但是只有20%的系统是在管理下, Cignarella和他的IT员工真的无处了解这是为什么。“是客户告诉我们发生了问题,而我们自己都不知道服务器有问题,”他说。
Nagios的学问
在他到PlanetOut担任IT职责之前,Cignarella是在Symantec Corp.公司工作,位于加利福尼亚州卡布奇诺,在那里,他管理一个网络监控团队。
在Symantec, Cignarella渐渐熟悉了一个开源监控项目,叫做Nagios。Nagios是在2002年发布的,许可证是GPL。Nagios监控用户指定的主机和服务,并且在发生问题的时候提出警告,然后在主机和服务恢复之后继续监控。
“在Symantec的时候,我们对Nagios做了大量的扩展工作,并且能够将其扩展到整个企业范围,”Cignarella说。然而,因为 Nagios是Symantec赠予的,所以它需要一位系统管理员专家来充分挖掘它的潜力。“任何系统管理员都可以把Nagios启动起来,并且将其运行在自己的环境中,但是如果你想要进一步扩展,那么你就需要一位专家了,”他说。
PlanetOut没有这样的专家。幸运的是,Cignarella与其它一个名为GroundWork Open Source的监控公司熟悉,这家公司有一个产品,叫做监控器,由几个开源项目组成,其中包括Nagios。
“在PlanetOut,服务器环境需要我们能够快速启动并且运行起来,”Cignarella说。一个来自“四大”的产品——IBM, CA ,惠普,以及 BMC 软件公司——也是无法提供的,Cignarella说。“随着时间一点点过去,我们需要一些可以立即启动并运行起来的东西,”他说。
所以PlanetOut开始了对GroundWork Monitor 4.5的部署。Cignarella对于这项技术很满意,并且也很熟悉它的安装和维护过过程。成本也是一个问题,四大公司所有的产品的成本在每个监控上都要超过几十万美元。Cignarella没有详细描述他的部署成本是多少,但是说他获得了来自旧金山的GroundWork的标准支持许可证。
赢得全天候的服务器监控
GroundWork 监控器的安装是从8月份开始的,版本是4.5,并且在10月份开始使用之前升级到了5.0版本,这个版本可以让你在一个产品服务器安装,同时备份的服务器也具有高度的可用性。
Cignarella说,这个应用程序最初监控一个运行Tomcat的网络服务器,一个防火墙,以及一个运行客户应用程序的应用服务器。其配置保存为一个测试环境,在里面可以构建PlanetOut的 Sun T1000s的剩余部分的部署。
“GroundWork的职员进入,并且开始部署,然后我们让他们为我们看着警报,”Cignarella说。“他们确保每件事情都运行良好 (对于那三个服务器),直到我们将应用程序真正上马。然后我们开始每5分钟受到了一个警报。”例如,监控器立即识别出来,磁盘的利用率已经达到100%。
64位的升级噎住了
但2006年8月份部署Monitor 4.5的时候,进行得很顺利,在2006年年底升级到5.0的时候,可是走了一段“坎坷路”,Cignarella说。这是因为PlanetOut是 GroundWork第一个64位服务器升级的客户。许多的挑战,他说,都是关于PlanetOut的基础设施在针对特定应用程序的时候产生的。
“我们不得不拿来我们的高可用性机器,并且在基础上重新再来;我们不得不导出数据库,并且重新导入。谢天谢地,我们的高可用性机器又好用了,那段时间只用单独一台服务器可真是难办,”他说。
最后,升级以多种处理方式重新配置和部署了游泳池系列表上的50个点。GroundWork支持团队来到现场提供支持,Cignarella说。“我们非常期待达到GroundWork的最终升级目标,安装一个新的RPM,然后就对了,”他说。
今天,PlanetOut的所有基础设施都在100%的监控当中,此外还有一点:Cignarella说他甚至在监控数据中心外面的东西,例如远程办公室的网络设备。“我们已经通过了网络监控的本质的革命(Solaris 和 Linux的混合环境中)。我们从被动飞跃到主动,”Cignarella说。“这不仅仅是启动几台机器,这是运行在上面的应用程序在真正地发挥作用。”
from:http://www.chinaunix.net