首页 > 文秘写作 > 毕业设计 / 正文

XXIT运维监控管理平台建设方案

2020-09-05 20:05:56 ℃

IT运维监控管理平台建设方案 XXXXXXX 目录第1章概述 3 1.1 建设背景 3 1.2 建设目标 3 1.3 建设思路 4 第2章系统总体设计 5 2.1 总体架构 5 2.2 设计原则 6 2.3 运维管理体系架构设计 7 2.3.1 系统总体架构设计 7 2.3.2 监控采集层 8 2.3.3 数据处理层 8 2.3.4 运行展现层 8 2.4 系统技术路线 9 2.4.1 采用Java语言开发 9 2.4.2 采用J2EE框架 10 2.4.3 采用WebService进行数据互连互通 10 2.4.4 数据库技术 12 2.4.5 性能控制 13 2.4.6 开发、运行环境 13 2.5 应用接口总体设计 13 2.5.1 系统内部集成接口 13 2.5.2 与基础运维管理工具的集成接口 14 2.5.3 与ITSM系统的集成接口 14 2.5.4 与相关外部系统的统一身份认证与单点登录接口 14 2.6 系统安全设计及部署 15 2.6.1 输入检验 15 2.6.2 GET请求和Cookie中的敏感数据 15 2.6.3 防通过嵌入标记实现的攻击 15 2.6.4 防口令猜测功能 16 2.6.5 页面和字段级的权限控制 16 2.6.6 系统安全架构 16 第3章系统功能设计 17 3.1 动环监控 17 3.1.1 配电柜监测 17 3.1.2 配电开关及电流监控 17 3.1.3 发电机监控 18 3.1.4 ATS监测 18 3.1.5 STS监测 18 3.1.6 UPS监控子系统 19 3.2 统一门户子系统 19 3.2.1 信息主管领导内容展示 20 3.2.2 运维人员内容展现 20 3.2.3 一般用户内容展现 21 3.3 IT运行监控子系统 21 3.3.1 基础平台功能 21 3.3.2 网络设备管理 23 3.3.3 服务器监控管理 26 3.3.4 存储监控管理 29 3.3.5 数据库监控管理 29 3.3.6 中间件监控管理 30 3.3.7 web与应用监控管理 31 3.3.8 虚拟化监控管理 32 3.3.9 IP地址管理管理 33 3.3.10 信息点管理 34 3.3.11 告警监控管理与转发处理 35 3.3.12 综合监控管理 36 3.3.13 综合报表管理 37 3.4 IT服务管理子系统 38 3.4.1 功能特点 38 3.4.2 服务台管理 41 3.4.3 服务目录管理 42 3.4.4 服务请求管理 42 3.4.5 事件管理 43 3.4.6 问题管理 43 3.4.7 变更管理 44 3.4.8 值班管理 44 3.4.9 公告管理 45 3.4.10 IT运维报告 45 3.4.11 用户管理 46 第4章培训方案 46 第5章系统价值 47 第6章售后服务 47 第1章概述 1.1 建设背景随着近年来经济的进一步迅速发展，企事业机关单位IT运行环境日趋复杂，运行监控工作难度加大，尤其是随着信息化建设的不断深入，信息系统越来越多，各类系统越来越复杂，系统的关联度也越来越高。数据处理量成倍增长，而随着互联网应用的发展，网上应用系统也越来越多，使IT 系统运行环境变得更加复杂，造成了机房管理、系统监控、运行维护工作十分困难的局面。虽然信息中心各科室对已经有各的监控管理手段，但缺乏一个集中、统一的监控平台，及时发现与解决网络、硬件、安全设备、操作系统、数据库、中间件、应用系统、机房空调、UPS 等突然出现的问题。因服务对象的不同，使用产品混杂。怎样很好地解决以上问题，把各种类型的监控对象进行统一集中监控，并将其格式统一规范，并对其有效处理、分析，以直观的界面展现给各科室管理员、领导，成为目前面临最大的挑战。

1.2 建设目标加强信息资源的维护平台建设，提高信息资源的运行管理水平，通过运维体系的建设，结合构建集中式的服务热线、运维流程、系统监控和综合展示系统，通过系统联动，及时、准确、全面反映与掌握信息系统的运行状态，保障各业务系统的正常运行，应达成如下目标：
(1) 强化主动监控，实现集中管理。

以IT资源可用性监控为主线，构建统一集成的IT资源及应用服务监控平台，能够主动、及时地发现问题，并调度资源解决问题，形成IT运维管理主动服务的新局面。

(2) 帮助定位故障，快速恢复系统运行。

建立集中的告警分析及展现平台，提供灵活、自动化的事件处理能力。当故障产生时，可以进行故障的快速定位，发现故障原因，调度资源快速恢复系统服务，从而缩短故障解决时间，降低维护成本，提高系统整体可用性。

(3) 掌握运行质量与效率，合理利用资源。

建立IT运维平台后，可以实时了解全部IT资源的负载与使用情况，根据需要从整体角度考虑资源的使用，同时可以根据业务高峰期的不同来调剂业务系统对资源的使用。

(4) 规范运行管理，有序开展维护。

参照ITIL规范，对运维管理工作进行优化，对服务管理进行改善，将管理数据电子化，管理过程规范化。根据相关制度进行运行维护管理，对内完善流程，对外提高服务，加强管理，使流程更规范更合理，使技术人员具备更高的工作效率，提高业务技术能力和解决实际问题的能力。

(5) 共享运维经验，完善知识库。

把运维过程中产生的丰富经验进行积累和总结，形成有效的知识库，建立知识的共享机制，提供信息共享和交流的平台，提高运维人员的工作效率。

1.3 建设思路 IT运维管理理论、方法和标准，结合中心实际和建设需要，遵循立足需求、统一规划、保障重点、分步实施、务求实效的原则，建立一套融合组织、制度、流程、人员、技术的IT运维管理体系，建立组织机构，制定规章制度，规范管理流程，明确职责分工，强化技术支撑，实现对网络及信息系统的综合管理监控和日常技术支持，快速响应和及时解决信息系统运行过程中出现的各种问题和故障，确保所维护网络及信息系统正常、稳定、高效运行。

第2章系统总体设计 2.1 总体架构依据对IT运维管理体系的建设经验，以及对用户信息系统现状、需求的分析，我们提出三位一体综合运维管理平台框架图如下：
IT运维管理平台包括：“IT运行集中监控、IT运维流程服务、统一运维门户”三个部分。底层基础平台主要实现对底层数据的采集、存储、分析等工作，为上层监控及流程系统提供基础数据；
IT运行监控主要完成对基础设施故障、性能、配置等方面的全面监控管理，实现主动式的IT管理；
IT运维流程服务主要根据IT服务管理的国际标准ISO2000，并结合ITIL最佳实践，梳理出了事件管理、问题管理、变更管理等运维流程，实现对日常运维工作的流程化、规划范管理，提升IT服务的质量。统一门户主要实现对监控信息、运维流程信息进行集中展示。平台三个子系统关系如下：
(1) 以IT运行监控为“基础” 这部分的功能主要是对被管对象运行的状态以及其配置资产信息进行统一监控、管理、分析，实现对各种故障和性能异常的及时报警，对系统运行性能进行实时监控，对系统运行的各种状态信息进行汇总、分析以及预测。另外，还包括对IT系统的全部配置资产情况进行统一管理，对配置信息的异动提供检查及告警。

IT监控管理除了实现网管的告警、性能、配置几大基本功能以外，还从运维的角度提供丰富的数据综合分析和运维工具，例如综合报表、综合监控、信息点管理等。

(2) 以IT服务管理为“导向” 这部分功能主要依据ITIL架构进行建设，为IT系统的维护服务提供电子化的控制手段。系统通过事件管理、问题管理、变更管理、配置管理等功能，为IT维护人员提供以流程为基础的服务管理方式，规范管理模式，达到快速消除IT系统故障、解决潜在问题，减少不规范的系统变更引发的系统故障率和故障隐患等目的，实现对IT系统的主动式服务，提高服务水平。

(3) 以统一运维门户为“体现” 即是整个系统的对外界面，通过统一的权限管理和统一风格的B/S展现，为系统的操作使用人员提供统一的系统接口，做到一点接入，通观全局，能够以灵活的组织数据的展现方式，定义用户、角色、组织机构，并为每个不同角色提供不同的功能模块，为每个用户分配不同的展现内容，方便用户进行企业整体的运行维护管理。

2.2 设计原则 IT运维平台作为信息中心未来运维工作的核心支撑系统，需要系统本身具有高可靠、易扩展、易维护等特点，并且在系统功能应用上要具备一定的技术先进性和实用性。所以，本次项目的方案设计遵循以下设计原则：
（1）先进实用平台注重先进性和实用性的统一，以实用为目的，合理选用各类成熟、先进技术。在体系结构、功能算法等诸多方面都采用先进计算机技术和理论，应用功能体现实用性。

（2）可靠性在系统结构、设计方案、设备选择、技术服务等方面综合考虑，保证系统能够7*24安全无故障运行，系统有很好的容错功能；
对IT资源的监测应保证不影响相关设备和系统的正常良好运行，并实现最好的响应效率及最小的资源占用。

（3）安全性注重安全方面的设计，确保IT运维监控管理平台的稳定、安全运行。系统要保证数据的安全，不会增加现有应用系统的复杂性，更不会降低现有应用系统的稳定性。

（4）开放性采用符合国际国内标准的通用协议，为实现与其他系统监控软硬件互联或接入本系统进行监控提供接口，支持各种主流计算机平台、操作系统以及数据库厂商的各类软硬件产品。

（5）可扩展、易集成系统需具备很好的扩展性，能适应不断发展的业务需求。随着IT资源种类和数量的扩大，系统也应能适应新的系统的对IT运维管理的需求。系统具备高度集成性，可以和第三方产品进行集成，进行功能扩展。系统提供开发工具和接口，方便其他监控系统集成和统一管理。

2.3 运维管理体系架构设计与运维综合监控相关的运维管理体系架构主要包括以下内容：
1）资源监控与操作管理体系：面向资源，以统一资源配置库（资产与配置、监控数据库）为基础，建设面向被管理资源的监控管理与操作自动化管理体系。

2）数据综合分析体系：面向管理者，以统一资源配置库为基础，对资源监控与操作管理体系数据进行分析挖掘，建设辅助运营决策的数据综合分析体系。

运维管理体系架构是一个完整的IT系统运维管理架构，是IT综合运维管理的较高目标。

2.3.1 系统总体架构设计系统由监控采集层、数据处理层、服务管理层、运行展现层组成。

2.3.2 监控采集层监控采集层主要由网络监控模块（NCC）、应用监控模块（BCC）组成，实现对IT基础支撑系统的监控，包括：网络设备、业务服务器、存储设备、数据库系统、中间件系统、安全设备、业务应用系统、网络流量等。

同时，从第三方系统（如机房环境监控和视频监控系统等）抽取数据（包括资产配置数据、故障告警数据），实现对IT资源的全面监控。

2.3.3 数据处理层数据处理层由统一事件平台（Arbiter）、数据指标抽取模块（Bridge）、监控指标库（RDB）、可视化展现视图（Live）等模块组成。

监控指标库（RDB）存放了所有监控对象的当前运行状况、重要告警、重要KPI性能指标等数据，实现性能基线管理，并为监控对象的可视化展现提供数据支持。CMDB与RDB数据库的记录通过资源唯一标识ID（UUID）实现一一对应，并能够自动维护其相互关联关系。

数据指标抽取（Bridge）负责从底层监控工具和第三方系统抽取各类管理数据，如资产配置数据、性能数据、监控对象运行状态数据、故障告警数据等。其中故障告警数据送到统一事件平台进行处理，性能和状态数据进过处理后存放到RDB数据库中，资产配置数据经过数据清洗、调和处理后送到CMDB数据库中。

统一事件平台负责对来源不同的告警信息进行过滤、压缩和关联，以及对不同来源的性能数据进行规范、汇聚、分析等，并通过根源问题发现等功能，实现快速的故障定位，保证业务系统的监控运行。

灵动展现平台是一个个性化监控视图开发工具，可以根据管理需求，对各类资源进行灵活组合，生成各类资源展现监控视图。

2.3.4 运行展现层运行展现层有运维门户（Portal）、用户管理（ACM）、报表开发工具（Report）组成。

运维门户（portal）：向用户提供基于WEB的统一运维管理访问入口，使用户能够在统一登录、统一认证的情况下，实现对故障告警台、服务台、服务流程管理、监控视图、统计报表的访问。

报表开发工具能够根据管理需要抽取监控、操作、资产、流程等各管理层面的数据，并生成各类统计报表，为运行分析和管理提升提供支持。

用户管理实现组织架构管理、帐户管理、角色管理、授权管理等功能，实现整个运维平台的统一帐户和授权管理。

2.4 系统技术路线 2.4.1 采用Java语言开发系统采用JAVA和XML相结合的技术进行网站设计开发，由于Java的平台无关等特性，而在数据表示和传输方面，XML有着得天独厚的优势。Java与XML的组合提供了建立三层应用程序的最佳手段，开发的系统具有跨平台运行的能力，无论在windows环境下还是在其他主流操作系统环境下都能运行。主要特点：
平台独立性这是Java最吸引人的地方。由于它采用先编译成中间码（字节码），然后装载与校验，再解释成不同的机器码来执行，即“Java虚拟机”的思想，“屏蔽”了具体的“平台环境”特性要求，使得只要能支持Java虚拟机，就可运行各种Java程序。

面向对象的技术面向对象的技术是近年来软件开发中用得最为普遍的程序设计方法，它通过把客观事物进行分类组合、参数封装、用成员变量来描述对象的性质、状态，而用方法（成员函数）来实现其行为和功能。面向对象技术具有继承性、封装性、多态性等众多特点，Java在保留这些优点的基础上，又具有动态联编的特性，更能发挥出面向对象的优势。

多线程多线程机制使应用程序能并行执行，Java有一套成熟的同步原语，保证了对共享数据的正确操作。通过使用多线程,程序设计者可以分别用不同的线程完成特定的行为，而不需要采用全局的事件循环机制,这样就很容易实现网络上实时的交互行为。

动态性 Java的设计使它适合于一个不断发展的环境。在类库中可以自由地加入新的方法和实例变量而不会影响用户程序的执行。并且Java通过接口来支持多重继承，使之比严格的类继承具有更灵活的方式和扩展性。

安全性 Java有建立在公共密钥技术基础上的确认技术,指示器语义的改变将使应用程序不能再去访问以前的数据结构或是私有数据，大多数病毒也就无法破坏数据。因而用Java可以构造出无病毒、安全的系统。

2.4.2 采用J2EE框架考虑到系统的跨平台性和将来良好的移植性，并且考虑到系统能够将来很好地与其他业务子系统的集成，本系统采用J2EE平台，并且根据J2EE的中间件规范进行产品开发，本系统采用J2EE平台集成的标准中间件，并在数据交换和数据导出上支持XML标准。

平台比较目前，可作为开放式数据应用集成的规范和平台的技术主流有两种，一种是微软公司的Windows DNA平台,另一种是SUN公司的J2EE平台。虽然这两种集成平台和分布式计算技术都能满足实施开放式的数据应用集成的需求，但是从规范的开放性、支持异构性、可移植性、支持的广泛性、对现有系统数据的继承性和技术优势等方面比较， J2EE比Windows DNA具有优势。

平台优势 J2EE是一种利用Java 2平台来简化诸多与多级企业解决方案的开发、部署和管理相关的复杂问题的体系结构。J2EE技术的基础就是核心Java平台或Java 2平台的标准版，J2EE不仅巩固了标准版中的许多优点，例如“编写一次、到处运行”的特性、方便存取数据库的JDBC API、CORBA技术以及能够在Internet应用中保护数据的安全模式等等，同时还提供了对 EJB（Enterprise JavaBeans）、Java Servlets API、JSP（Java Server Pages）以及XML技术的全面支持，可以更好地与其他的分布式应用系统集成。因此J2EE是一种更理想的集成平台和规范。

2.4.3 采用WebService进行数据互连互通 Web服务是一个或者一组应用程序，向外界提供一个能够通过Web进行调用的API。Web服务的主要目标是在现有的各种异构平台的基础上构筑一个通用的与平台无关、语言无关的技术层，多种不同平台上的应用依靠这个技术层来实施彼此的连接和集成。

1．Web服务模型 Web服务体系结构是基于三种角色之间的交互，分别是服务提供者、服务注册中心和服务请求者。其中:（1）服务提供者：创建Web服务实体，为能实现一组特定任务的软件提供服务接口；
（2）服务请求者：发现和调用软件服务，请求者一般会调用服务提供者发布的远程方法，把参数数据发送给提供者并接收相应结果；
（3）服务注册表：管理和发布服务。当服务请求者需要调用服务时，它首先到UDDI注册中心搜索该服务，得到如何调用该服务的信息，然后根据这些信息去调用服务提供者发布的服务。在Web Service服务体系中，使用WSDL来描述服务，UDDI来发布、查找服务，而SOAP用来执行服务调用。下图显示了这些操作、提供这些操作的组件及它们之间的交互。

发布WSDL， UDDI 服务注册服务请求者服务提供者服务描述服务服务描述查找WSDL, UDDI 绑定 2．Web服务的相关标准在Web服务协议栈中，涉及了数据、消息、服务和注册库的描述定义，这些要用到具体的标准技术，包括XML、SOAP、WSDL、UDDI等。其中XML用来描述不同层次的数据，它使得不同平台、不同环境中的数据和消息得以互通；
SOAP协议用来交换XML消息；
WSDL用来统一描述服务；
UDDI提供了统一的框架和编程接口，与WSDL、SOAP相互结合来管理Web服务，提供服务发布和服务发现能力。

（1）扩展标记语言(XML) （2）简单对象访问协议(SOAP) （3）Web服务描述语言(WSDL) （4）统一描述、发现和集成协议(UDDI) 3．Web服务的协议栈为了实现上述Web服务模型中的发布、查找、绑定等操作，需要定义一系列分层的协议规范。

服务发现：这一层用来发现Web服务，来满足自己的需求。由UDDI来处理的。

服务描述：对Web服务进行自我描述。它使用WSDL来进行服务描述。

服务调用：这一层的实质是基于XML的消息传递。当前基于XML消息传递的行业标准是SOAP。SOAP是一种简单的、轻量级的基于XML的机制，用于应用程序之间进行结构化数据交换。SOAP可以和各种网络协议相结合使用。当然我们可以使用其他的基于XML的消息如XML－RPC等。

传输层：用来传送客户端和服务器之间的消息。这一层使用的协议通常是HTTP协议。理论上，我们可以使用任何网络协议，如FTP，SMTP，IIOP等，但目前使用最广泛的是HTTP协议 2.4.4 数据库技术数据库（Database）是按照数据结构来组织、存储和管理数据的仓库，它产生于距今五十年前，随着信息技术和市场的发展，特别是二十世纪九十年代以后，数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。数据库有很多种类型，从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

在选择数据库时，成本因素是主要要考虑的问题。采用J2EE作为系统的开发平台，在开发上使用ORM(Object/Relation Mapping)技术和JDBC技术，尽力去缩小数据的差异性，实现跨数据库平台。系统数据库初步采用Oracle 11g。

2.4.5 性能控制采用Jmeter做web系统压力测试，通过优化程序、优化数据库等方法实现系统性能要求。

2.4.6 开发、运行环境操作系统支持：Linux、Window Server 2003/2008 浏览器支持：IE6、IE7、IE8、Firefox 3.5 开发平台及语言：
J2EE平台、采用JAVA语言设计工具：
ProwerDesigner 15.0 开发工具：
Eclipse 3.1、Maven 3.0 版本控制：
SVN 1.5 项目管理：
Microsoft Project 2007 缺陷管理工具：
Bugzilla 3.2 web测试工具：
Jmeter 2.3、IETester 2.1 Web服务器支持：
Weblogic 10.3、Tomcat 6.0 2.5 应用接口总体设计 IT系统监控管理平台在实现IT运维监控管理等信息的采集、存储、处理、加工、传输、统计分析、应用、系统管理的同时，与相关外部系统有着密切的联系，包括：基础运维管理工具、机房动力环境监控系统、ITSM系统、短信平台等系统有着紧密的联系。

2.5.1 系统内部集成接口（1）接口功能设计本接口实现分级情况下支撑系统之间的告警、性能等数据交互。

（2）接口实现设计 1）接口服务：利用应用支撑层的数据交换接口服务来实现接口功能。

2）接口技术：Web Service、SOAP、文件、码流等。

2.5.2 与基础运维管理工具的集成接口（1）接口功能设计该接口对基础运维管理工具的网管、安管、主机管理、存储管理、机房动力环境监控等系统之间的事件、性能、告警等关键数据进行抽取、汇聚，以支持对监控数据的预警、统一展现。

（2）接口实现设计 1）接口服务：利用应用支撑层的数据交换接口服务来实现接口功能。

2）接口技术：Web Service、SOAP、文件、码流等。

2.5.3 与ITSM系统的集成接口本接口实现IT系统监控管理平台与原有ITSM（运维服务管理）系统之间的数据交互，满足监控数据的实时抽取、汇总、预警、统一展现的需求。

（1）接口功能设计 1）运维监控数据抽取、汇聚、展示该接口对IT系统监控管理平台的网络监测与管理、业务系统监测的告警、性能等关键数据进行抽取、汇总、预警、统一展现。

2）生成基于故障告警事件信息的故障工单信息 ITSM系统根据IT系统监控管理平台所产生的故障告警事件信息自动生成相应的故障工单信息。

3）故障工单数据和处理状态同步该接口辅助两边系统保持故障工单数据和处理状态的同步。

（2）接口实现设计 1）接口服务：利用应用支撑层的数据交换接口服务来实现接口功能。

2）接口技术：Web Service、SOAP、文件、码流等。

2.5.4 与相关外部系统的统一身份认证与单点登录接口本系统将对IT系统监控管理平台与基础运维管理工具、ITSM系统、机房动力环境监控系统等相关外部系统进行门户集成，从而在统一运维管理门户中实现这些系统的统一身份认证和单点登录，形成统一的运维管理运行机制，从而有效集成并利用各类运维管理资源。

1）统一身份认证：对IT系统监控管理平台与基础运维管理工具、ITSM系统、机房动力环境监控系统等相关外部系统的用户进行管理集成，纳入到统一运维管理门户访问控制体系中，实现对IT系统监控管理平台用户的统一身份认证。

2）单点登录：对IT系统监控管理平台的各模块，以及该系统与基础运维管理工具、ITSM系统、机房动力环境监控系统等相关外部系统在统一运维管理门户中的单点登录控制，使用户登录一次便可访问全部授权应用资源。

2.6 系统安全设计及部署采用Web技术实现，在具有方便实用优点的同时，存在一些安全威胁和隐患，在系统平台上构建应用时应充分考虑以下的安全问题。

在系统平台设计时充分考虑下列安全问题：
脚本语言的安全性问题，特别是用SQL查询时所书写的语句。

访问文件、数据库或其他网络连接时不应该接受未经检验的用户输入。

2.6.1 输入检验输入检验包括对来自外部数据源（非置信数据源）的数据进行语法检查，有时还要进行语义检查。根据应用的关键程度和其他因素，对输入检验结果采取的安全过滤处理。

2.6.2 GET请求和Cookie中的敏感数据就像CGI协议所定义的，把请求数据从客户端传输到服务器端最简单的方法是GET请求方法。如果要在客户请求中传输敏感数据，我们应该使用POST方法，再加上一种合适的加密机制（例如，通过SSL连接）。

2.6.3 防通过嵌入标记实现的攻击这种攻击通常包含一个由用户提交的病态脚本，或者包含恶意的HTML（或XML）标记，JSP引擎会把这些内容引入到动态生成的页面。这种攻击可能针对其他用户进行，也可能针对服务器。要防止出现这种问题要靠输入检查和输出过滤。

2.6.4 防口令猜测功能当用户试图多次猜测时，系统会不断增加响应的时延，并最终拒绝为用户提供服务。另外，建议对系统口令长度加以限制，并且不能取特别熟悉的单词，进一步提高猜中的难度。

2.6.5 页面和字段级的权限控制在建议的系统中，我们将在每一个页面中包含权限检查代码，检查用户是否有权限访问该页面。如果没有权限（如一般用户访问系统管理页面），则转到错误信息页面。如果没有登录，则转到系统登录界面，请求用户登录。

另外，还可以结合平台的安全控制能力，使系统的安全性进一步增强。对于某些复杂的页面，需施加字段级的安全控制，使得某些字段只有具有权限的人才能察看或修改，为应用程序提供更加细粒度的安全控制。

2.6.6 系统安全架构从安全方针策略、信息安全管理、用户行为安全、数据信息安全、应用系统安全、系统平台安全、网络平台安全、物理环境安全等几个方面予以规划考虑，并与行业关于信息系统安全体系建设的要求密切结合。

以完整的安全体系结构模型为依据，确保整个安全体系的完备性、合理性和适应性，为提供全面的、多方位的和合理的安全服务，切实满足各方面各层次的安全需求，在合理的代价下将各种安全风险降低到可以接受的水平，最终达到保证正常可靠运行和使用的目的。

第3章系统功能设计 3.1 动环监控 3.1.1 配电柜监测 3.1.1.1 监控对象各楼层市电输入柜、其他配电柜。

3.1.1.2 监控实现每一个串口总线回路的配电柜电量采集设备采用手拉手的接法将监控信号接起来连至区域汇总采集箱，最终接至监控主机。监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。

3.1.1.3 监控性能实时监测配电柜输出相电压、电流、频率、最大千伏安、输出功率（有功、无功、视在）、谐波率、功率因素等；
监测输出电压、电流、频率超限，过载，负载不平衡，交流电源失效等告警信息，监测到报警时主系统发出报警。

3.1.2 配电开关及电流监控 3.1.2.1 监控对象配电柜开关、输出配电柜支路电流。

3.1.2.2 监控实现将每一个串口总线回路的配电柜开关及电流采集设备采用手拉手的接法将监控信号接起来连至区域汇总采集箱，最终接至监控主机。监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。

3.1.2.3 监控性能通过配电柜厂家提供的协议，实时监测配电开关状态及各路开关的电流值。实时判断开关是否跳闸及各路电源的负载情况，当开关跳闸或者负载越限时，系统诊断为有故障（报警）事件发生，监控主系统发出报警。

3.1.3 发电机监控 3.1.3.1 监控对象发电机。

3.1.3.2 监控实现设备已经带有串行接口。将发电机组分为两组，每组智能接口采用手拉手的接法将监控信号接起来连至区域汇总采集箱，最终接至监控主机。监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。

3.1.3.3 监控性能实时显示并保存各发电机通讯协议所提供的能远程监测的运行参数和各部件状态。实时判断发电机的部件是否发生报警，当发电机的某部件发生故障或越限时，监控主系统发出报警。实时监测内容包括：输出相电压、输出相电流、功率、油压、水压等；
电池是否充电、电池工作模式、系统报警等。

3.1.4 ATS监测 3.1.4.1 监控对象 ATS 柜。

3.1.4.2 监控实现设备已经带有串行接口。按楼层、房间划分区域，将每一个房间内的 ATS 采用手拉手的接法将监控信号接起来连至区域汇总采集箱，最终接至监控主机。监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。

3.1.4.3 监控性能实时显示 ATS 柜两路输入的三相电压、频率、相序、切换开关位置及告警状态等。设定告警条件，当监测超过设定的允许值时，系统诊断为有故障（报警）事件发生，监控主系统发出报警。

3.1.5 STS监测 3.1.5.1 监控对象 STS 柜。

3.1.5.2 监控实现设备已经带有串行接口。按楼层划分区域，将每个楼层内的 STS 采用手拉手的接法将监控信号接起来连至区域汇总采集箱，最终接至监控主机。

监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。

3.1.5.3 监控性能实时显示 STS 柜三相电压、频率、功率、电能、负载率、旁路状态、开关状态及告警状态等。设定告警条件，当监测超过设定的允许值时，系统诊断为有故障（报警）事件发生，监控主系统发出报警。

3.1.6 UPS监控子系统 3.1.6.1 监控对象 UPS。

3.1.6.2 监控实现设备已经带有串行接口。将每一个串口总线回路的 UPS 智能接口采用手拉手的接法将监控信号接起来连至区域汇总采集箱，最终接至监控主机。

监控主机通过实时不间断的轮询采集将信息传送给监控平台进行显示、报警。

3.1.6.3 监控性能实时监测各 UPS 通讯协议所提供的能远程监测的运行参数和各部件状态。实时判断 UPS 的部件是否发生报警，当 UPS 的某部件发生故障或越限时，监控主系统发出报警通知。实时监测内容包括：输入相电压，输出相电压，旁路相电压，输入相电流，输出相电流，旁路相电流，电池电压，电池电流，输出频率，系统负载，电池充电程度，电池后备时间等，过载，电池工作模式，旁路工作模式，电池电压高/低，系统报警，整流器报警，逆变器报警，系统关机，旁路电压超限等。

3.2 统一门户子系统提供一个统一的综合运维平台入口，将使运维人员能够基于统一的整合管理界面，进行运维管理的信息查看和相关操作：
1) 用户管理：实现用户集中管理、单点登陆功能；
可为每个不同角色提供不同的功能模块，用户通过统一登录页面进入系统，访问权限范围内的功能模块。

2) 门户展现：提供基于WEB灵活多样的信息发布形式，将各功能（如监控、流程、知识库）产生的管理信息进行统一的发布。改善运维人员的使用体验，提升日常运维管理效率。

3) 门户管理：提供动态灵活的展现模型编辑工具，用户可按照自身需要随意拖动并保存最终布局。

3.2.1 信息主管领导内容展示 1) 运行维护统计报表，资源监控统计报表。

2) 重大故障信息、升级来的故障信息的展示。

3) 重要业务系统的拓扑展现。

4) 主管领导的其他展示需求。

3.2.2 运维人员内容展现 1) 门户针对不同的小组（如：网络、业务、安全等），展示不同的管理内容和操作配置界面，如网络维护人员查看网络的web拓扑；
业务系统维护人员查看业务系统的拓扑；
安全管理员查看安全系统拓扑；
机房管理人员查看机房方位图进行监控。监控图除了能够反映设备的状态外，还实时反映监控到的事件，在拓扑图上监控到的事件按照设备进行归类。

2) 各组维护人员可以查看自己类别的知识库记录，可以通过事件查看关联到的知识库记录，也可以直接通过搜索关键字来查找知识库记录。

3) 在维护人员的登录界面，醒目的位置提供公告信息。

4) 维护人员处理事件时，展现维护界面，维护界面包括维护人、维护时间、维护设备、事件内容、维护过程、维护结果、是否解决、转发给第三人处理等等，对事件处理完毕后能够对事件置状态，表示事件已经处理完毕，在维护人员的事件处理窗口，维护人员可以以灰色显示或不显示。

3.2.3 一般用户内容展现 1) 提交设备、业务系统的服务请求，可以跟踪服务请求的处理进度。

2) 可以检索知识库，能够自助解决问题，查询知识库可以按照关键字进行查询，显示知识库的编码、主题、故障现象、处理方法、联系人等内容。

3) 可以查询历史服务请求记录。

4) 在普通用户的登录界面，在醒目的位置提供系统公告信息。

3.3 IT运行监控子系统 IT运行监控系统功能包括故障、性能、配置等基础功能，以及面向网络设备、主机、存储、数据库、中间件、基础应用、IP地址、信息点等监控管理功能。针对以上各个功能模块详细说明如下：
3.3.1 基础平台功能 (1) 故障管理故障管理主要实现对IT资源故障的监视功能，包括对告警信息进行采集、配置、处理、呈现及相关的统计分析等功能。通过故障管理功能，用户可对网络中的告警进行实时的监控，对告警信息进行处理和查询统计等相关操作。系统提供了故障智能诊断功能，通过此功能，用户可以对网络中的故障进行实时的监控，提高故障发现、故障处理的效率，减小故障对网络造成的影响，更加有效的保障网络安全运行；
在故障诊断的基础上，系统提供网络预警的功能，通过对现有网络进行性能分析，根据预先设定的门限值，以预警的形式进行提示，使网络的维护工作由被动转为主动，从而实现网络运行维护的高级管理功能。故障管理应包含以下功能。

另外，故障管理支持对Unix、liunx、Windows服务器、各种网络设备syslog关键字告警功能，能够自定义日志消息告警的关键字，一旦在日志消息中发现有自定义的关键字，如Interface Down、UP等关键字，可通过告警快速通知运维人员进行处理。

(2) 配置管理 IT运行监控系统提供参数化配置功能，如配置历史数据在系统中保存期限等，提供对系统资源的配置管理功能。

本系统的配置数据采集支持自动采集、手工采集和数据导入等三种方式。

配置数据管理主要包括：
配置基本信息：包括配置的内部标识、名称、类型、IP地址、物理地址、厂商等基本信息；

配置管理信息：包括配置的管理分类、用途分类、管理部门、管理人、安装位置、购买时间、终止使用时间等；

配置属性信息：配置的附加配置属性，不同类型的配置的配置属性有所不同，例如网络设备的固件版本、设备模块组成、端口种类、服务器的操作系统类型、硬件配置、存储设备、软件配置的Licence、服务端口、模块组成等；

配置维护信息：包括资产编号、资产的负责人，资产的集成商，以及产品支持厂商、当前质保期、历次故障记录、历次购保记录、历次维护记录，为资产维护提供数据的支持。对于即将过保的设备配置进行告警通知。

(3) 性能管理 IT运行监控系统的性能数据处理与分析功能，提供了用户及时发现关键点的异常情况，从而有效的保障系统正常运行，并为分析优化工作提供必要的依据。

本系统支持多种协议、标准和接口方式采集各种性能数据，如SNMP、Agent、Telnet、JDBC、FTP、CORBA等。性能数据采集处理可以支持以下2种方式：
定时模式：采用循环定时主动式采集，定时时间间隔可配置；
系统对性能数据进行数据库保存，保留时间可定制；
系统采集到的性能数据可以根据配置定义，以多种方式进行显示。实现对数据的定时采集和呈现。

实时模式：由使用者通过界面操作，有针对性地（选择对象、数据内容等）对被管对象的性能数据进行即时的主动采集，获得对象的当前性能数据，采集的数据马上送回用户界面，由用户界面处理。

3.3.2 网络设备管理 (1) 设备自动发现系统支持思科、华三、华为、北电、锐捷、迈普等业界主流厂商网络设备的自动发现和性能采集，系统通过SNMP、ICMP、ARP等协议自动发现设备基本信息、设备接口配置信息、设备之间物理连接关系等，对于不同厂商不同型号的设备，系统可自动标识不同的图标。对于无法自动识别生产厂家及产品类型的网络，提供手工方式加以定义。对于网络设备提供设备面板视图的管理。

系统支持SNMP V1、V2、V3的拓扑自动发现功能，对于不支持SNMP的设备，提供通过telnet的方式，进行拓扑发现。对于路由时延、抖动等异常情况的监控和告警，提供路由监测功能，可由监控管理系统自动计算出任意两点间的最短路径。采集指标包括支持网络设备的CPU利用率、内存利用率、网络端口的吞吐量和丢包率、接收和发送的ICMP包率，端口ARP包率、单播包率、出入带宽利用率、出入丢包率、出入错包率、出入速率、广播包率、组播包率等指标。可对不同的网络节点根据影响程度不同设置不同的轮训时间。系统能够对某一网段、IP地址等限定条件进行拓扑发现，并且可以设定更新周期，自动排列生成网元设备图及网元设备之间的连线。

(2) Web网络拓扑管理支持网络节点的二层、三层和基于协议的三种视图的自动发现，自动生成不同图标，生成整个网络的拓扑结构图及各个节点的工作状态信息，网络节点状态可以不同颜色区别。对于自动发现的网络设备和不同平台的主机以不同的图标显示出来，便于直观的观察和监控。对于无法自动识别生产厂家及产品类型的网络和主机设备，提供手工方式加以定义。

对于不能监视的设备能够通过SNMP代理方式进行管理，支持加载其MIB的方式对其进行监视。

拓扑图能够显示设备、线路的类型，线路及设备的通断情况。故障设备和线路能够清楚地在拓扑图上显示。

可自动刷新网络拓扑结构图，当网络中网络设备数量发生变化时，能够自动添加或删除对应图标；
并动态监控网络设备的状态。

在拓扑图中，对每个管理对象，可提供详细的管理属性内容与当前告警与性能信息。对同一个管理对象，在不同的拓扑视图中，保持相同的状态。

(3) 网络拓扑链路流量监控基于自动生成的网络拓扑图，根据网络带宽利用率（单位时间流量/带宽*100%）不断地修改连接符号的填充百分比，使连接符号以不同粗细代表和数字标注方式显示当前时刻的流量情况，使用户对网络链路流量的了解变得更为方便和直观。当用户点击选中某连接符号后，可以显示该条链路的详细流量情况。包括：
1) 在拓扑图的线上（链路）可以标注对应的入带宽利用率、出带宽利用率、出流量、出流速、入流量、入流速、总流量、总流速等内容；

2) 在拓扑图的线上，以线条粗细直观显示链路的流量大小，以线条的颜色直观显示链路的告警状态等；

3) 流量阀值或者带宽利用率阀值设置，进行不断闪烁，生成阀值告警消息。

(4) 网络设备接口面板管理按照设备的实际接口情况，以模拟设备面板的方式，直观展现各个接口的状态，并可向下关联挖掘到所连主机情况。

(5) 网络设备树图与单点网元管理按日常维护习惯或指定的方式进行导航/查询，如按职能部门、按地理区域、按设备厂商、按设备类型等组织数据导航树。

并针对每个节点查看其配置、告警、流量、性能等相应内容提供一站式的综合监控管理，包括本台设备的基本配置、当前时刻主要性能指标、最近一天主要性能运行趋势、设备各个接口的状态与流量、设备实时与历史告警信息等。

(6) 网络性能管理系统能够周期性地自动采集性能数据，采集周期和采集时间可按照一天内的采集时间，和每周内的采集天数进行配置，最小的数据采集时间周期为1分钟，默认时间是5分钟。数据采集可安装不同的厂商，不同的地理位置，不同的职能部门进行批量的停止和启动。

对用户所关心的主干链路流量，可生成流量、流速、包数、会话数变化曲线表，并通过设定阀值产生告警消息。按照应用流量、端到端流量、主机流量、目标流量进行统计，生成日、周、月统计报告等。

(7) 网络故障监控网络故障监控，分为定时轮询和接收Trap两种方式。系统提供友好界面对各类不同对象，不同方式的告警进行不同的分组、描述已经不同告警级别的定制。

1) 定时轮询设置相应的时间对网络设备进行轮询监控。对不同的网络设备可以指定不同的轮询时间间隔。定时轮询能够通过ping方式看设备是否可达，通过SNMP去检索网络设备相关指标，形成各种报表数据。同时还可对不同采集指标进行阈值比对，当超过阈值后就会产生报警信息，转发到邮箱中或在上层界面呈现。

2) trap事件接收对于客户关注的设备接口通断，链路通断可采用Trap方式进行故障事件的发送和接收，此方式大大的提高了告警的实时性，在日常运维工作中广泛使用，将设备接口状态的告警控制在10秒钟之内。

3.3.3 服务器监控管理 (1) 服务器单点综合监控在一个界面中，综合展现某台具体服务器的配置、性能、历史数据和故障信息。服务器性能重点显示包括实时和最近24小时 CPU平均利用率、MEM利用率、文件系统利用率。

(2) 服务器性能管理实现对主机性能、故障、进程、磁盘、文件系统、日志的监控，并生成报表和告警信息，主要的性能管理内容包括：
服务器CPU性能（5分钟、小时、日、周）服务器内存性能（5分钟、小时、日、周）服务器磁盘性能（日、周）服务器流量性能（5分钟、小时、日、周）服务器CPU峰值分析 CPU峰值分析（小时/日）磁盘I/O繁忙分析服务器I/O性能统计（小时/日） (3) 服务器接口流量管理提供服务器小时、日、周、月流量趋势分析，并提供流量阀值告警，当服务器接口流量达到阀值时，产生相应阀值级别的告警事件。

(4) 服务器进程管理包括对服务器各进程性能的TOPN排名和进程性能趋势分析。包括进程占用cpu利用率、占用cpu的时间、驻留内存和虚拟内存的大小。

(5) 服务器监控管理主要指标服务器监控管理的主要指标包括：
1) 基本信息：主机名称、操作系统名称、操作系统版本、操作系统位数、机器开机运行时间等基本信息；

2) 性能：CPU利用率，内存利用率，文件系统利用率，磁盘IO，硬盘读写速率、虚拟内存使用率、网卡使用率、内存页交互速率等；

3) 进程：可对指定进程资源占用情况进行采集。可按应用监控多个进程的汇总的CPU、内存利用率。默认可对每个主机top10进程进行记录。可监控进程、服务是否正常运行，进程数量是否发生变化；
异常将产生告警信息；

4) 日志：实现日志关键字、日志文件大小、日志文件是否丢失等指标的监控，异常将产生告警信息；

5) 配置变更：当主机的硬盘、CPU、内存等信息发生变化时，系统会产生告警，发给指定的管理员；

6) 特定文件：监控系统中文件和目录的相关属性，包括名称、文件大小、拥有者、访问权限以及链接等。如发现文件被修改或其他异常时（包括非法访问、大小异常等）产生报警；

7) 用户：监测与用户有特定关联的信息，主要包括用户名、用户ID、登录时间、登录终端IP信息等；

8) 服务器网络接口监控：监控服务器网络端口的输入、输出、错包及各种可用统计参数，端口是否被停用或者删除等；

9) 交换空间：交换空间的大小、交换空间使用率等；

10) 热备系统：获得服务地址，获得接管地址、Cluster节点状态、Network端口状态；

11) IPC：共享内存、信号灯、消息队列；

12) 目录：指定目录的大小、修改时间及包含文件个数；

13) 活动目录：对活动目录帐号(windows)进行模拟登陆、验证帐户和密码是否有效；

14) UNIX SCRIPT：监控指定的脚本的运行情况，支持结果匹配。

3.3.4 存储监控管理系统被管对象主要包括磁盘阵列，磁带库设备，SAN光纤交换机及主机系统等。并支持异构环境下的统一存储监控，包括IBM、EMC、HP等主流厂商设备。能够自动发现SAN网络拓扑关系，实现动态拓扑自动更新，自动发现存储设备基本信息、磁盘信息、主机端口映射信息、阵列lun信息、阵列组等信息，通过对SAN网络监控，实现对FC-SAN透明化管理，对SAN网络流量异常，设备组件异常等监控、主动式告警，以及SAN存储网络的智能监控。此外，考虑到以后管理范围的扩展，系统除了可支持SMI-S协议标准磁盘阵列的监控，还对于非SMI-S协议标准阵列的监控做了大量尝试，通过相关命令行或脚本等方式实现必要的监控。

数据采集层由存储设备厂家提供支持SNIA认证标准的代理程序（Agent）以及补充监控代理程序。完全兼容其他监控事件平台，采用标准的技术规范、灵活的编程框架和丰富的“最佳实践”，可轻松实现对存储（如存储阵列、光纤交换机等）和主机获取的告警事件转发，具有一定的可定制性和可扩展性。

3.3.5 数据库监控管理数据库是业务应用系统的重要组成部分，数据库的响应、处理、负荷都将直接影响业务系统的可用性和最终用户感受。数据库运行管理对企业的ERP、财务、人力资源、OA等重要业务应用所对应的数据库Oracle、SQL Server、Sybase、Informix、DB2进行实时状态监听、性能瓶颈分析、空间动态分配、性能优化管理。全面采集和存储数据库负荷和性能数据，例如数据库的Cache命中率、表空间、字滚段、无效对象、无效扩展等，快速找出问题焦点，精确诊断问题产生的根源。同时通过故障诊断和运行性能分析，为数据库优化提供决策依据与支持。数据库出现故障、异常运行、越性能阀值时能够触发告警信息，并发送到IT运行监控事件管理中心中进行统一关联处理。

数据库监控支持采用ODBC、JDBC等方式，实现对Oracle、SQL Server、Sybase、Informix 、DB2等各种数据库进行实时监控。为用户提供更深层次的数据库运行性能分析和挖掘，帮助用户更进一步分析数据库性能，帮助用户得到系统当前的性能评估，同时根据这些信息为用户管理数据库提供专家建议。

数据库监测项包括以下内容：数据库性能监测、数据库空间监测、内存利用率监测、数据库用户连接监测等，掌握数据库的基本信息和当前的运行情况。包括数据库实例基本信息、连接信息、Sga/Pga区配置、锁、缓冲区命中率、联机日志、表空间&数据库文件、回滚段、Schema Objects等。

3.3.6 中间件监控管理监控范围包括各重要应用系统中使用的各类中间件，能够监视中间件系统的基本信息和运行状况，能够支持的中间件系统，包括Weblogic、Apache、WebSphere、Tomcat、Tuxedo等常用版本。

提供一个统一的图形界面，用于集中监视、分析、预测中间件资源利用情况，当有可能发生问题时，及时通知管理员解决问题。中间件监控指标包括：
1) 监控中间件运行状态；

2) 监控中间件连接池的情况：连接池的状态、连接池名称、当前使用的连接数量、等待池中连接的最大客户数、丢失的连接数、连接池最大连接数；

3) 监控J2EE各部件（如JSP、Servlet、Java Bean、EJB）的性能和资源消耗情况；
包括：Servlet、Java Bean、EJB中每个部件的平均执行时间、提交的交易请求情况等；

4) EJB、Servlet的多种统计数据，包括被分配的Beans、在使用的Beans、空闲的Beans、超时的Beans数、等待的Beans、Servlet响应时间；
TOPN Servlet和JSP的详细信息；
TOPN EJB的详细信息；
TOPN EJB方法的详细信息；

5) 监控中间件JMS情况：JMS的连接总数、JMS当前的连接总数、JMS的最高连接数、JMS Server总数、当前JMS Server总数、JMS Server历史中最高总数、JMS Session的总数、当前的JMS Session数、最高的JMS Session数、已接收的Jms 消息数、未处理的Jms 消息数、Jms 发送的消息数；

6) 监控JMX的运行情况；

7) 监控中间件执行队列的情况：执行线程的总数、当前空闲的执行线程数、队列中未处理的请求数、队列已经处理的请求数；

8) 监控中间件web应用:当前打开的Session数、打开的Session最高数、打开的Session的总数、状态、名称；

9) 监控中间件 Heap情况：当前堆的总空间、当前堆已使用的空间、HEAP名称；

10) 监控中间件服务情况：当前打开的Socket数量、打开的Socket的总数、当前连接数、监听端口、管理端口、管理服务监听端口、ServerIP地址、Server名称、Server版本。

3.3.7 web与应用监控管理对于IT系统中Internet服务质量的监控是通过远程模拟客户端访问服务应用的操作流程实现的。以定期轮询的方式获取其服务质量信息，以生成相应的性能报表，并可通过配置性能警戒值的方式生成相应的性能告警。

目前支持的协议有：HTTP协议、 HTTPS协议、SMTP协议、DNS协议、 POP3协议、 NTP协议、TCP协议。可查看监控协议的丢包率、最大时延、最小时延、平均时延等指标。

通过应用服务管理可以达到以下效果：
1) 通过定期访问应用服务，可以及时知道应用服务的运行状态。如果应服务出现运行故障，维护人员可以及时知道，并快速采取措施；

2) 根据用户配置的策略，模拟客户端周期性的访问应用服务，定期检测丢包率、最大时延、最小时延、平均时延等对应指标，生成服务可用性报表报表——维护人员可以预防应用服务发生的故障，实现主动式的监控管理服务；

3) 模拟用户行为访问应用服务，根据用户设置的阈值产生告警，维护人员可以及时排除故障，保障应用服务的稳定运行。

3.3.8 虚拟化监控管理虚拟化监控管理实现对虚拟化环境中各IT资源的运行状况检测、性能分析、报表管理、告警管理等功能内容，提供详细的资源对象配置数据、状态数据、性能数据集中显示；
支持对vSphere5.0、vSphere5.5虚拟化环境的拓扑呈现以及自动拓扑更新，从而为云资源的管控人员提供日常运行维护的技术支撑。运行状况的检测和分析自然而然的涉及到资源相互关系的掌握以及关联分析挖掘等。

虚拟化监控管理的主要功能内容包括以下几个方面：
1) 虚拟化资源管理：实现虚拟化资源的配置属性等以各类对象作为基本的 IT资源的管理；

2) 运行状态与故障管理：发现性能瓶颈，准确定位故障，提供性能优化保证业务服务水平的相关分析结果。提供告警与性能的关联展示，提供告警处理参考建议的新建、查询等关联分析；

3) 性能监控及数据报告：提供准实时的性能监控展示、相关排名分析及历史数据报告等；

4) 资源关系可视化监控展现：梳理建立虚拟化资源对象间关系模型，从业务视角整体监控展现虚拟资源的使用情况及状态。

3.3.9 IP地址管理管理针对局域网内部IP地址管理过程中遇到的种种与非法计算机定位、计算机信息非法改变等相关的问题进行监控管理。它将局域网内的IP地址、MAC地址、交换机端口等作为网络的重要资源并进行绑定，通过对之进行便捷有效的监控管理，加强管理人员对种种非法行为的监视和定位，同时将网络的有害影响范围控制在最小范围。实现的功能及解决的问题主要包括：
1) IP地址资源管理 ——快速获得未分配的IP地址列表；

——快速获得已分配的IP地址列表；

——能够监视已分配IP地址列表中的在线IP；

——能够实时获得在线的终端主机列表；

——以列表、饼图等形式直观地表示各种IP地址在总IP地址范围中所占比例。

2) 终端主机非法变更监视 ——主机机器名改变；

——主机机器名盗用；

——主机IP地址改变；

——主机IP地址盗用；

——主机IP地址冲突；

——终端主机所连的交换机物理端口的改变。

3) 非法接入设备的自动发现与隔离 ——自动发现非法主机的接入；

——手动/自动隔离非法接入设备，实时消息通知被封杀设备，保障网络安全。

4) 系统管理员的有用工具 ——给定一个主机的IP地址，能够显示该IP的MAC地址、机器名，并且能够显示与该IP地址连接的交换机物理端口；

——给定交换机的IP地址，可以得到此交换机的所有物理端口的信息，包括哪些物理端口是漫游的，哪些物理端口是级联的、物理端口号名等等；

——给出交换机可以准实时得到本交换机所连的所有终端；

——给定交换机的一个物理端口，可以得到与此物理端口所连的所有终端。

3.3.10 信息点管理信息点管理能够使想教室设备查询、教室机位统计、教室机位状态及变更记录等进行管理。信息点详细管理功能如下：
1) 提供用户（主机）、配线间、机架（配线架）、配线口、网络设备端口之间的一一对应关系。

2) 提供单项（单个属性匹配）查询功能和多项（多个属性组合匹配）查询功能。例如用户接入情况查询统计、墙面使用情况查询统计、配线使用情况查询统计、交换机端口使用查询统计。

3) 对不同用户的修改变更操作进行监控、记录。并对变更操作情况按照一定的时间范围和部门名称进行查询统计，生成相应的变更操作管理报表，如变更操作管理日报。

4) 记录新信息点入库或老信息点更改的操作。新信息点入库日志记录与当前基础数据库中的记录信息是否一致；
老信息点更改的操作，记录更改前和更改后的信息。

5) 通过三维仿真设计与效果制作，集中展现信息点物理布局、端口使用状态。直观展现数据中心机房的光纤、网线配线架使用情况。并且建立关联关系，拆除其中一条线缆时，整条链路的端口均自动标记为未使用状态。

3.3.11 告警监控管理与转发处理 (1) 告警管理与查询具体为用户提供了告警的实时监控浏览与查询统计，告警前转设置、阀值设置和告警分析，告警监控。

1) 告警列表实时更新监控：实时刷新新产生的告警信息，并且不同告警的严重程度可以设定不同的颜色。

2) 告警综合查询：提供告警源、告警级别、告警时间、告警类型、告警内容等不同条件的组合查询。

(2) 告警转发处理实现对故障的集中处理和邮件、短信转发。接收告警信息采集客户端的发来的告警信息，并根据所设置的告警前转条件，对告警信息进行过滤，把过滤后的告警信息通过告警前转参数配置程序所配置的Email和告警转发器信息，发送到网络系统维护人员的Email信箱和手机里，从而使得运维管理人员在第一时间内了解IT系统的运行状态、获知网络的故障信息，并及时地处理IT系统故障，最终，更好的维护和管理IT资源。告警转发处理提供：
1) 前转用户设置；

2) 网元组设置；

3) 告警条件设置；

4) 前转条件设置；

5) 告警前转参数管理和前转服务。

告警前转服务程序，是整个告警前转系统的关键和核心部分。无论是告警管理部分的告警前转条件设置还是告警前转参数配置程序都是为告警前转服务程序的正常、有效的运行提供相应的配置信息的。告警前转服务程序接收告警信息采集客户端采集来的网络告警信息，并把告警信息通过告警前转条件进行告警信息的过滤，把过滤后的信息通过告警参数配置程序配置的Email和告警转发器发送到管理员的Email邮箱和手机里。从而，使得管理员在第一时间内获知网络的运行状态和系统的故障信息，为管理员更好的维护管理网路提供更有效的方式。它提供了以下功能：
n 启动时从数据库里获取告警过滤条件，放入本地缓存；
从注册表里读取告警前转参数设置程序所设置的必要的参数。

n 当接收到告警前转条件设置模块的告警条件更新消息时，通过OLEDB去重新读取数据库，获取更新后的告警过滤条件；

n 当接收到来自MSIExtractor模块的告警信息，根据告警过滤条件对告警信息进行过滤，获得符合条件的告警信息，通过email、手机短信发给相应的运维管理人员；

n 提供了连接在计算机COM口的告警转发器发送短信的接口；

n 提供了连接Email服务器，发送Email的接口 n 提供了连接到声音告警程序模块的计算机，并把告警信息发送到声音告警的Socket接口。

3.3.12 综合监控管理 IT运行综合监控通过多种直观方式从多个视角提供对整个IT系统运行的综合、全面、集中监控展现。主要包括运行性能实时监控面板、设备一站式综合监控、综合实时巡检监控、TOPN综合排名监控等功能。

(1) 性能实时监控信号灯面板对IT资源进行分类，对每类中的主要设备对应的主要KPI性能指标进行实时监控，其中重点网络设备（核心路由器、交换机）主要监控入带宽利用率、出带宽利用率，广域网设备重点关注总流量、入流量和出流量，服务器重点关注文件系统空间利用率、全局CPU利用率、内存利用率等。模拟交通信号灯的方式，直观、实时监控展现各类、各组IT资源的关键KPI性能负载情况：
(2) 设备一站式综合监控通过仪表仪盘的方式直观地监控设备的CPU、内存、通断、时延等实时运行状态，同时支持每个指标的向下Drill Down数据挖掘，以方便地查看每个指标的分布情况。

(3) 综合实时巡检监控为网络管理员、系统管理员提供网络、系统等实时运行的巡检监控。

为网络管理员提供主干网络设备、主干网链路、局域网网络设备的运行情况实时监控/巡检。包括网络设备的通断和时延、带宽利用率、CPU和内存利用率、告警信息等。网络链路的通断、带宽利用率和告警信息等。

为系统管理员提供服务器系统或者某一个业务应用的运行情况实时监控/巡检。包括服务器系统的通断和时延、CPU和内存利用率、文件系统利用率、应用性能、告警信息等巡检监控。

(4) TOPN综合排名监控对当前整个网络中最忙设备、负载最大设备进行重点监控。将各个类别（按照主机、网络、数据库类别分组）按照某些kpi的当前值（最近5分钟）进行topN显示，包括接口带宽入利用率、接口带宽出利用率、接口输入速率、接口输出速率、网络设备CPU利用率、网络设备MEM利用率等排名，并且这些排名在一张综合视图中显示。在该图中，针对某个具体设备可再深入钻取。如图：
同时，支持在TOPN综合实时排名上面可直接挖掘到日、周、月TOPN综合排名。从TOPN排名挖掘到每台设备对应的综合树图。

3.3.13 综合报表管理系统提供灵活和强大的数据查询、统计、分析、发布及报表展现等功能，用户可以通过该模块获得网络、系统及业务应用的配置、状态、性能、安全等各方面的报表和图表数据。

1) 提供身份认证功能，可根据不同的用户（组）定义不同的报表，使网络、系统管理员、系统运行主管、领导等根据各自关注的重点通过浏览器查看报表系统。

2) 本系统报表可至少保存两年的主要运行数据，能够提供多种灵活、形象的分析图表。

3) 能够按照用户的要求对网络系统的端口流量、链路状况、设备运行状况、系统性能数据、故障维护数据、系统安全状况基础数据等自动生成相应的日报、周报、月报、年报等。

4) 本系统生成的报告全部是中文，在报告中包含对报告内容的说明，使管理人员可以清楚了解报告内容、报告数据的含义、数据量定义等；
在给出文字报表的同时，可生成多种形式的图表。

5) 通过定制以邮件方式自动转发用户指定人员。

3.4 IT服务管理子系统 3.4.1 功能特点 3.4.1.1 设计特色-面向构件的SOA工作流 SOA是一种架构模型，它可以根据需求通过网络对松散耦合的粗粒度应用组件进行分布式部署、组合和使用。服务层是SOA的基础，可以直接被应用调用，从而有效控制系统中与软件代理交互的人为依赖性。SOA的关键是“服务”的概念。

IT服务管理平台将ITSM设计理念与SOA工作流相结合，用户界面清晰易懂，操作简单明了，解决问题高效快速，为用户带来更多的价值回报。

IT服务管理平台采用面向服务的体系架构（SOA），可以方便的提供服务支撑的各种流程，而且符合SOA标准的流程平台也极其方便的建立流程之间的互相关联和跟经验库的关联，并且对于通用工具或模块进行了封装：数据库封装，导入导出工具封装，附件的封装，对象的定义封装，报表的封装，定时器的封装等。在系统管理中提供了各种服务（时限服务、通知提醒服务等），根据这些服务对流程提供服务级别管理(SLA)，较好地体现并落地承载了ITIL的理念。

IT服务管理系统能够快速构建高质量、灵活、易管控的业务应用流程，大幅度降低用户开发和维护企业应用软件的成本、提高用户业务运营的敏捷度，从而帮助用户提升其市场竞争力。

IT服务管理平台基于SOA的业务流程平台的设计思想：
对已有系统中的功能进行提取和包装，形成标准的“服务” 概念，然后把按照业务流程需求整合。满足复杂多变的中国特色业务需求，适应在管理以及业务执行过程中的各种复杂规则。

3.4.1.2 图形化流程定制模板在服务管理平台中的流程定义过程中，用户需要对每一个流程进行设计。同时在日常运维管理中，流程也会随着理解的深入或管理需求的变更而时常的变化或优化。针对此需求，×××自主开发了图形化流程定制工具，使流程的设计直观、清晰、操作简便，通过图形化拖拽的方式快速实现流程定制或变更。降低了流程定制的复杂度，帮助客户在日常工作中独立完成流程的定制或变更。

3.4.1.3 流程跟踪-随时查看流程运行状态图形化流程跟踪监控界面，以直观、简洁、可视化的方式跟踪和监控各服务流程的当前状态和需流转的环节，实现了服务工作的透明化管理。使客户和运维主管更深入了了解服务流程处理的整个过程，随时查看流程已经完成了哪些环节、目前流程到哪个环节、当前状态、当前处理人、预测流程完成的时间等，实现流程执行和展现的统一。保证流程的有序、高效、可控的运转，切实提供服务管理水平和客户满意度。

3.4.1.4 满足中国本土化业务需求 IT服务管理系统不仅支持ITIL 基本框架。服务台系统的帮助台、事件管理、问题管理、变更管理等管理；
以及远期的可用性管理、能力管理、连续性管理、财务管理等各方面均符合ITIL标准，与ITIL的结构、功能等各方面要求一致。

同时针对中国本土化业务需求进行扩展，更加适应中国特色要求，例如根据日常运维工作特点开发的作业计划管理、值班管理、公告管理。这些贴近日常运维具体需求的流程，切实帮助运维人员有序、可控、高效的完成日常工作。

3.4.2 服务台管理服务台管理包括自助服务台、个人工作台和管理控制台。自助服务台提供客户/用户根据服务目录在线提交服务请求，随时跟踪服务状态，并在线反馈服务满意度。个人工作台作为IT运维管理职能模块，根据不同角色权限提供个性化功能服务，如负责统一接收、支持和反馈各种故障、投诉等。管理控制台负责宏观掌控IT运维管理整体运行情况，提供仪表盘功能，并实时进行工作情况的统计、分析、报告。

(1) 自助服务台 1) 用户可以根据服务目录在线提交服务请求；

2) 在线提交的服务请求，用户可以随时查看历史工单及状态；

3) 服务请求处理完成后用户可以在线反馈满意度情况；

4) 用户可以在线查看个人基本信息、个人配置/资产信息。

(2) 个人工作台 1) 个人工作台作为IT运维管理体系的职能模块，负责统一接收、支持和反馈各种事件、故障、投诉等，同时根据具体管理需求生成事件；

2) 个人工作台能够创建、处理和关闭个人及工作组工单，可以实时统计个人和工作组工单，同时可以进行客户满意度调查。

(3) 管理控制台管理控制台负责宏观掌控IT运维管理整体运行情况，提供图形化分析（如仪表盘、树状图等）功能，并可实时进行工作情况的统计分析。

3.4.3 服务目录管理服务目录管理向客户/用户提供业务服务目录所有细节（如服务承诺时限、服务支持时间、服务描述等），同时业务服务目录由技术服务目录进行支撑，并将关联到提供业务的服务流程。服务目录管理能够生成和维护服务目录，服务目录中包含有关运营服务和为了实际运营所必须的准确信息，可以帮助调整客户/用户期望，从而有助于客户/用户和IT部门之间的流程整合。

3.4.4 服务请求管理服务请求管理是IT部门向客户/用户提供一系列常规性请求进行处理的服务管理流程，包括低风险、经常发生且成本低的微小变更（如重置口令、账号变更等）以及信息咨询等。提供发起服务请求、服务请求审批、服务请求提供、服务满意度调查等功能，体现IT部门常规性服务技术资源利用情况和工作效率。

3.4.5 事件管理事件管理是运维人员对IT基础架构故障进行响应、处理的服务管理流程。事件管理提供故障记录、分类、调查、诊断、解决，并监控、跟踪故障处理情况，以期尽快将IT基础架构所提供的服务恢复到正常范围，快速响应、快速恢复，使故障对业务的影响最小化。

1) 事件管理功能包括事件接收和记录、事件分类和在线支持、事件调查诊断、事件解决和恢复、事件满意度调查及事件关闭等操作；

2) 事件管理支持多种事件录入方式，支持与其它系统集成的派单方式。如监控平台中手工或自动派单生成事件，如支持WEB和其它管理软件自动派单等方式；

3) 提供事件处理模板，预先定义出事件处理的手段、步骤、期限等，保障处理的及时准确，实现可预期的服务承诺；

4) 支持对事件处理水平进行量化考核功能；

5) 支持事件单模板自定义功能。

3.4.6 问题管理问题管理是运维人员对IT资源故障根本原因进行分析、解决的服务管理流程。问题管理负责对IT资源中最常发生或具有重大影响的故障进行分析，帮助运维服务部门查找引起故障的根本原因，并生成变更请求(RFC)、变通方法或建议的预防性措施来防止故障的再次发生，变被动维护为主动预防。

1) 问题管理功能包含问题识别与记录、问题审核与分派、问题调查与诊断、提出变更请求或解决方案、问题回顾、问题关闭等操作；

2) 支持问题类别自定义功能；

3) 支持问题单模板自定义功能。

3.4.7 变更管理变更管理是为运维人员在最短中断时间内完成IT基础架构或业务服务的任一方面的变更而对其进行控制的服务管理流程。变更管理对故障管理、问题管理产生的变更请求进行响应，分析变更影响、评估变更风险、安排变更计划、调配变更资源。通过变更管理可以提高变更的安全性、可靠性、减少变更成本，控制变更风险。

1) 变更管理功能包含变更请求的发起和预审、检查与计划、变更审批、测试及方案验证、安排变更任务、变更实施、变更回顾、变更关闭等一系列管理过程和活动；

2) 支持变更类别自定义功能；

3) 支持业务类别自定义功能；

4) 支持变更单模板自定义功能。

3.4.8 值班管理对IT人员的日常值班工作进行统一的管理，主要功能包括：
1) 值班计划的配置功能：在前台界面提供值班计划的配置功能 2) 排班功能：支持自动排班和手动排班及调整 3) 值班表的派发：定制完成后派发值班表给相关人员 4) 交接班功能 5) 值班记事功能 6) 值班历史记录查询功能值班管理考核指标（KPI）包括：
1) 不准时到达值班岗位的次数及比例；

2) 未完成值班计划任务的次数及比例；

3) 可根据客户实际现状制定考核指标。

3.4.9 公告管理 1) 公告管理具备公告的发布功能，发布人通过手动录入标题、内容、有效期等发布公告；

2) 公告管理具备公告的审核功能，经过管理员审核通过的公告方可正式发布；

3) 公告管理具备公告查看历史记录功能，管理员可以看到有哪些用户看过了相关的公告；

4) 公告管理具备过期失效功能，过了设定的期限后，公告自动清除。

3.4.10 IT运维报告服务报告是针对运维部门领导对于运维管理的需求特点而制定的运维服务统计分析报告。服务报告以不同的视角和维度，对统计周期内运维人员的工作量、工作质量、客户满意度以及其他KPI指标进行统计分析并通过多样化的图形报表进行展现，最终形成PDF、EXCEL样式的服务报告。通过设置，服务报告可定期自动形成并通过邮件发送给运维部门领导，服务报告是体现运维人员工作量、衡量运维部门整体服务质量、明确运维服务改进方向的重要依据。

IT运维报告包括IT运维分析报告和统计报表两方面内容。

1) 提供IT运维分析报告的日报、周报和月报；

2) 系统各管理流程按照业务、组织、工作组等进行的查询、统计、分析报表；

3) 提供工单状态汇总页面，定时刷新，显示在大屏幕上。

3.4.11 用户管理用户管理实现不同的用户拥有不同的应用权限（包含菜单、操作权限）和数据权限。权限只与角色直接关联，角色和用户关联，实现不同用户拥有不同应用权限和数据权限。具体关系如下：
1) 一个用户可属于一个部门，但可属于多个岗位（工作组），每个部门可有0-N个部门管理员；

2) 用户和角色之间是多对多的关系，一个用户可拥有多个角色，一个角色赋予多个用户；

3) 用户和权限表是一对一的关系（引入权限表，主要是用于报表的关联查询）；

4) 应用权限包含菜单权限、界面操作等资源权限，而且可以扩展；

5) 数据权限主要是指流程数据操作的权限。

第4章培训方案提供完整详细的系统培训教材、操作手册、维护手册、网上教学录像，并搭建一个模拟环境供练习。 (1) 系统正式运行前对系统涉及的所有业务人员进行一次初始集中面授培训，在系统运行两个月内，再分阶段、分层次地对系统涉及的所有用户进行一次培训，使其充分掌握系统的操作。 (2) 对有关人员、专家进行至少一次集中面授培训，使其可以熟练操作系统，实现监管、评标等工作。 (3) 对买方全员进行培训，使其能够熟练操作系统；
并至少培养出2名师资型系统管理员，使其能够了解系统与网络的各种细节，完成包括软件安装、日常简单维护、培训教学、应用指导等工作，为今后业务开发、系统维护工作打基础。第5章系统价值通过此项目的实施，用户取得的主要成果有：
IT 资源及原有软件得到发挥。以前已购买但未真正发挥作用的其他监控软件的作用现在能得到完全发挥，真正意义上实现了从机房、视频、网络、主机、数据库、中间件、应用的集中统一监控平台，为下一步提供业务保障和 SLA 管理打下坚实的基础。故障定位非常准确和及时。快速收集各种告警信息，准确定位出根本原因，并提供智能告警方式如：短信、邮件及与现有 IT 维运管理平台进行集成，产生工单、自动执行脚本等，大大减少了设备的故障报错率，提高了应用系统的可用性。

展现精美，界面友好，充分考虑到各科室人员的管理水平和个性化。IT 集中监控系统以门户形式完美地展现在用户的面前，大大减少了管理者、运维人员、监控人员的工作时间，提高了工作效率。

第6章售后服务我方中标后，为保障采购方的业务正常运行，其售后服务主要包括如下几点：
服务响应我方对采购人提供7×24小时售后服务，包括邮件、电话、远程维护、驻点服务等方式。必须有足够的人员保障系统正常工作，并保证2小时响应，24小时之内解决问题。

驻点服务维护期内应采购人要求，我方可派遣技术工程师每年不超过50人天的驻地服务。超过部分另行协商。驻点工程师完全听从采购人的一切工作安排。

系统升级 (1)、每季度我方会对系统进行不低于一次的季度升级；
(2)、每年度制定不低于一次的年度系统升级计划。

(3)、每次评审项目结束后及时听取采购人对系统的评价及其改进意见，对改进方案及时升级。 (4)、如发现系统漏洞时第一时间对漏洞进行修补。

服务承诺对于本项目的售后服务我方特向采购方作出以下承诺：
1) 保证投标产品是成熟、稳定的最新版本。若项目实施过程中发现任何关于软件系统故障，均无偿提供技术服务；
2) 承诺投标产品中标后，15天内将合格货物交由甲方使用；

3) 承诺负责在软件安装过程及应用中，向买方及用户提供技术支持；
4) 承诺负责提供3年的质保服务，系统正式实施，我方将派项目工程师驻点服务；
5) 承诺提供软件的开发、安装及使用的文档，在保证安全性和质量的前提下向采购方提供技术咨询、技术资料等服务；

6) 承诺在项目期间： (1) 人员配置：为项目配备专门的开发组和应急组；
(2) 日常值班：专人7×24的电话或在线值班；
(3) 需求任务：在规定时间内保质保量完成新需求开发任务；
(4) 人员培训：培训系统相关人员，直至能独立进行操作；
(5) 项目支持：项目期间可根据需求远程或驻地维护；
7) 承诺在项目实施过程中，将采用规范的文档形式向采购人提交工作计划及总结报告，如系统说明文件、技术手册及系统配置数据等。 8) 只做技术支持等份内的事情，除非采购人需要并有采购人现场监督，在系统运行期间乙方不参与采购人的业务项目。 9) 且驻地服务工程师不私自更换项目负责人，如遇有特殊情况，则征求甲方意见。

按照招标文件要求，对以上承诺内容进行明确陈述，详细的供货产品及技术服务内容请参见本投标文件全文内容。同时，投标文件全文内容也是对上述承诺必要的补充及解释。

Tags：管理平台监控方案

首页 > 文秘写作 > 毕业设计 / 正文

XXIT运维监控管理平台建设方案

猜你喜欢