随着企业业务的高速发展,业务交付的功能多元化、复杂化。线上业务的普及等。应用交付设备在企业数据中心IT基础架构中扮演的角色也越来越重要。同时,应用交付设备也承担着网络与应用之间的数据请求枢纽的位置。高并发,高可用,高性能也是业务发展对基础架构提出的更高的要求。应用交付也从原来的网络运维中细分独立出来。因此,应用交付网络也值得我们思考如何使用更专业,更精准,更合理的运维管理工具。而非继续附属在传统网络监控系统之中。
在我们众多客户中,面对应用交付网络的运维也面临着很多繁琐且复杂的问题。包括:
异构环境,难以集中管理
由于历史遗留、发展方向、采购要求等等。企业数据中心的应用交付网络环境往往是多个品牌共存的异构环境。原生管理只兼容各自品牌,难以覆盖其他品牌设备。业务往往贯穿多个品牌设备,关联关系难以建立。运维复杂,效率低。
管理对象多,数据量庞大
应用交付设备的特殊属性及用途,包含了DNS和LTM以及SSL等方面的功能。各个模块中又有多种应用对象配置相互关联。负载均衡设备做为网元,其管理对象则是传统路由交换设备端口的几十倍。同时,设备上又存在许多类型的配置策略。由这些管理对象所产生的运维数据量更是巨大。
配置关系复杂,缺乏可视化
应用类型复杂,本地应用和广域网域名,http和https。不同应用需要配置的策略不同,对象和数量都不同。这些配置关系,错综复杂。对运维人员的熟练度要求极高。运维管理往往在工作中缺乏主动权。人为梳理工作量大,且缺乏时效性。应用交付网络的运维需要业务路径可视化工具。
用户种类多,技术门槛高
应用类型复杂,本地应用和广域网域名,http和https。不同应用需要配置的策略不同,对象和数量都不同。这些配置关系,错综复杂。对运维人员的熟练度要求极高。运维管理往往在工作中缺乏主动权。人为梳理工作量大,且缺乏时效性。应用交付网络的运维需要业务路径可视化工具。
原生管理不友好,缺乏用户视角
厂商原生管理系统可以详细的管理各自品牌的设备。但同样存在局限性,包括英文界面、配置过于复杂、数据保留时间受限、数据采集受限。难以与运维流程平台集成,缺乏业务视角等等。运维应用交付网络的视角与厂商的设备视角、网络视角都是有明细差异的。数据需要进行二次加工。
发布频繁,冗余配置待优化
伴随敏捷开发成为更普遍的开发运维模式。业务冲刺、双十一等越来越多的线上节日活动。对于业务的发布也趋于频繁。频繁的发布带来了常态化的变更。扩容,缩容,上线,下线。久而久之,过期无用的配置难免遗留,影响设备的资源,增加运维难度。我们迫切需要一个直观的配置优化功能。
缺失细分领域的专业化运维工具
长久以来,应用交付网络设备大多是附属在传统网络监控系统中。做为一个网络设备进行的粗暴式管理。在传统网络监控中针对负载均衡的监控往往是设备层面的可用性监控。再深一步则实现了应用的可用性监控。但对于这么一个如此重要的应用交付网络设备,这个层面的管理标准是远远不够了。有效的运维需要对设备包括及其应用的过去、现在、未来的各种数据全知全晓,才能掌握运维的主动权。
万昆科技ADAM(Application Delivery All-in-one Ministration)是专门为适应当前应用交付网络运维异构场景/多产商生态复杂环境,满足不同应用交付(包括不同角色)运维管理需要而自主设计研发的一款国产化运维工具软件。ADAM采用大数据架构和统一的框架设计,跨越了混合结构的应用交付网络4层与7层数据与设备之间鸿沟,实现了优化、简化、合规化、智能化、自动化和可视化运维,达到了更高效和更可靠的综合统一管理运维,进而赋能运维。
l 采集层
ADAM系统采集层支持多数据中心分布式采集模式。通过采集代理从远端发起数据采集请求。系统根据不同品牌,型号设备通过界面部署代理服务器。通过不同的代理程序对不同区域的设备进行合理、均衡、有效的数据采集。
l 消息队列层
不同区域设备之间可能存在广域网线路。为保证数据传输的完整性和顺序性。以及对线路带宽的最小占用。采集数据将通过消息队列的方式进行传输。并且,在传输过程中,不同类型的数据将被分别传输。为有效的进行数据消费处理。
l 消费层
消费层是系统主要处理加工数据的部分。数据消费规则通过系统维护策略的数据库中获取。可扩展的并发消费端程序将根据数据类型的不同,进行并发的消费处理工作。处理完毕的数据也将根据不同用途被分别存放到关系型数据库和时许数据库之中。
l 数据存储层
数据存储层包括了存储性能明细数据和日志明细数据的时许数据库以及存储对象配置的关系型数据库。
时许数据库通过合理的设置索引,将明细数据长久地存放。并且,历史数据仍可以快速地被系统调取。而对于交互和更新频率较低的配置数据则通过关系型数据库维护。
ADAM平台通过多种数据接口,科学合理的进行数据的接入。采集协议包括SNMP、REST、SYSLOG、HSL等。并且在每种协议中通过合理的获取方式对目标数据进行采集。实际运维证明通过单一协议进行数据获取是存在缺陷的。为避免对设备本身的正常运行产生影响和运维复杂的问题,结合采集法是最合适应用交付网络设备的方式。
功能模块 | 子模块 | 功能描述 |
设备管理 | 设备台账 | 对纳管负载均衡设备进行归类管理 支持设备台账的导入导出 自动发现设备及应用配置信息 |
硬件信息 | 设备状态 启动时间 电源、温度、风扇 网络接口 | |
资产统计 | 提供按不同机构自动统计纳管设备型号、品牌、ios版本、设备属性等信息 | |
设备审计 | 提供根据AUDIT日志审计时间区域内不同账号的操作明细 | |
网络配置 | Self ip Vlan | |
配置管理 | 配置备份 | 备份记录 备份任务 配置比对 |
业务管理 | 提供根据业务的应用归类及重要性标签 配置业务联系人 | |
本地流量 | Virtual Server Pool PoolMember Node Monitor Profile Persistence Irule Snat Pool | |
智能域名 | Wide IP Pool Server DataCenter Link Listener Monitor Topology | |
SSL证书 | 提供统一SSL证书信息,包括类型、版本、到期时间等 | |
性能分析 | 性能图表 | 设备性能图表 应用性能图表 |
状态视图 | 应用状态视图 业务状态视图 | |
应用拓扑 | 提供应用配置关系拓扑图 | |
性能排名 | 设备性能排名 应用性能排名 | |
应用分析 | 提供根据HSL的应用请求分析,包括源目地址、请求类型、响应码、服务器延时等 | |
日志洞悉 | 日志查询 | 提供原始设备日志查询界面,包括组合关键字查询条件、日期选择 |
日志库 | 提供各品牌设备的日志说明知识库。包括日志编号、触发条件、影响范围、建议措施、处理记录等 | |
日志审计 | 提供按规则归档的原始设备日志下载 | |
智能告警 | 告警通知 | 当前告警。自动压缩、恢复 历史告警。历史明细告警回查 |
性能阈值 | 设备性能阈值 应用性能阈值 自定义阈值 智能基线 | |
日志策略 | 提供根据设备用途不同订制差异化的日志告警策略 | |
到期提醒 | 设备维保到期提醒 SSL证书到期提醒 | |
告警推送 | 邮件告警 其他方式(短信、微信、钉钉、ITSM等需订制) | |
自动化 | 自动巡检 | 巡检报告自动生成 巡检模板定义 巡检任务配置 |
任务管理 | 任务看板 任务场景 发布模板 配置回退 | |
应用启停 | 提供应用对象的批量启停服务 | |
应用克隆 | 提供应用对象的快速克隆复制功能 | |
指挥舱 | 可视化 | 提供特定场景的可视化页面 提供集成第三方可视化页面 |
系统管理 | 用户管理 | 提供新增/删除系统账号,修改密码。关联用户组 |
用户组管理 | 提供定义用户组,关联用户及角色权限 | |
角色管理 | 提供按需的系统菜单权限及设备权限 | |
操作日志 | 提供系统用户操作记录及回溯 | |
Logo设置 | 提供替换系统logo标志及系统名称 | |
通讯录 | 提供设备、应用、厂商、维保方人员通讯录 | |
连接设置 | 提供系统组件分布式配置界面 |
ADAM系统平台主要从应用交付网络的设备、配置、性能、日志、告警、自动化、可视化角度全方面的帮助用户掌握整体运维的过去、现在和未来。
作为ADAM平台最重要的基础功能模块。具备自动发现识别设备品牌、类型、型号、硬件和许可等有用信息,摸清用户家底,梳理运维台账。为多维度、自动化和智能化运维提供了重要的数据基础,为庞大且复杂的应用交付网络环境的有效安全运营提供了保证。
设备台账
按需分配归划设备管理单位。自动获取设备配置对象信息。
硬件信息
通过平台检测设备物理硬件的运行状态。
资产统计
对不同机构单位、网络区域的节点纳管设备进行统计分类。
设备审计
对设备历史的操作记录、内容、用户进行追溯和统计。
配置管理模块是运维自动化的地基。对应用交付网络设备的配置备份、LTM的应用对象配置、DNS的应用对象配置及SSL证书进行集中管理,可维护配置的应用属性。可以快速查询和定位应用对象,关联应用对象的性能及拓扑关系,是ADAM平台的核心。
配置备份
配置备份可对所纳管的负载均衡设备进行定期的自动备份任务。备份的归档以及配置文件的比对工作。
业务管理
业务管理是ADAM系统为用户提供的第三种视角维度。用户可根据业务组成情况将应用组合成业务。以业务视角进行运维管理。同时,为业务标注重要性程度。
本地流量
集中管理了负载均衡设备本地流量(LTM)中的各类对象,包括虚拟服务Virtual Server、池Pool、成员Pool Member、节点Node、健康检查Monitor、配置策略Profile、会话保持Persistence、源地址转换SNAT、Irule。可按需进行多维度查询或配置参数调整。
智能域名
集中管理了负载均衡设备智能域名(DNS)中的各类对象,包括数据中心Data Center、广域网池Pool、监听Listener、链路Link、域名WideIP、服务器Server、Topology。可按需进行多维度查询或配置参数调整。
证书管理
集中管理设备SSL证书信息,包括证书名称、证书类型、版本以及到期时间。
性能图表
性能图表包含了设备性能指标和应用性能指标的运行情况。用户可以通过历史的指标趋势变化对容量进行合理规划。对可能发生的性能瓶颈隐患进行提前地处理干预。性能的查询方式友好灵活。
状态视图
在应用交付网络运维中可用性状态一直是保障运维的第一个也是最重要的个环节。能够实时全面地掌握整体环境中各类对象的可用性状态是非常必要的。由于应用数量众多,如何快速定位关键对象的方法也至关重要。ADAM状态视图也考虑设计了这方面的需求。
应用拓扑
应用交付网络中配置的层层关联关系是一个非常显著的特点。能否有效掌握业务路径是故障排查定位的一个重要指标。因此,ADAM也为用户提供了可视化的应用拓扑,可动态根据设备配置的变化自动更新。帮助用户更轻松地进行故障分析和配置优化。
性能排名
在一定数量负载均衡数量的应用交付网络运维中,用户常常需要对设备或者应用的性能开销进行排名,了解负荷最大的设备,以提前做扩容准备。同时,也基于相关连接数、吞吐量的变化情况,对业务活跃度进行了解。
应用分析
应用的情况分析也是应用交付网络中用户不得不关注的部分。单纯的应用性能指标往往还难以全面地反应业务规律或者是一些安全隐患。这个时候,我们就需要从应用层获取更详细的活动细节。包括请求来源、目的、方式、结果、渠道、分布等等。
日志查询
日志是运维故障分析的重要手段,传统的故障定位第一步就是锁定故障发生区间内所产生的日志,根据日志推测故障的根因。但是,传统方式需要根据发生故障的应用,所部署涉及的设备,逐台登录,人工检索日志关键字。过程繁琐且容易出错,效率低下,影响故障分析时效。ADAM提供了统一的日志检索平台,可在一个页面中完成所有的日志查询需求。
日志库
通过日志查询解决了日志检索的需求,但是,检索后的日志翻译和解释的问题也同样重要。ADAM的日志库作为一个应用交付网络的运维知识库,既提供官方的日志解释和措施,用户也可维护自己的维护经验,心得。通过平台积累经验,让运维可持续进行,知识可被继承。
日志审计
运维合规审计现在也是所有运维工作中的常态化事项。合规审计中的一项重要指标同样是设备日志的归档和管理。设备自身的日志保留时间有限,无法满足审计要求。因此,运维也需要工具可以自动按照不同的要求对设备原始日志进行归档管理功能。
智能告警模块是ADAM平台的决策大脑。系统采集设备、接口中的大量各种类型的数据,通过一定的加工、筛选之后提炼出对运维管理有警示作用的事件,并根据ITIL的管理指导,对不同重要程度和优先级的事件,采取相对应的智能实时处置,排除故障。
告警通知
告警通知是用户查看当前整体应用交付网络运维状态的主要窗口。通过这个模块用户可以直观的看到当前网络中什么对象正在发生异常情况。可以及时干预。同时,告警也按照严重程度区分级别。方便用户快速设定问题处理优先级。告警同样是智能的,ADAM系统具备自动对重复告警进行压缩,故障自动恢复等功能。
性能阈值
性能阈值根据负载均衡设备的特点进行了精细化的设置。ADAM系统提供了根据设备品牌型号的设备基础性能指标阈值,应用性能指标缺省阈值以及针对不同用途个性化对象的性能阈值。通过三种设置模式可满足各种场景的性能指标告警需求。
到期提醒
在日常运维过程中设备的到保、SSL证书的过期都是非常重要,但又非常容易被忽略的细节。ADAM系统也提供这类事项的提醒告警。用户可根据自身运维需要,设置提前X天进行提醒,并选择是否每天进行重复提醒。
日志策略
设备的运行日志除了在故障发生后进行分析和排查的作用,另外,日志也是告警的重要的来源。在实时运转的日志信息中,我们可以通过ADAM平台对已知的关键字进行告警。同时,也可对日志中的一些隐患,敏感类字眼进行触发告警。负载均衡设备根据不同的用途和位置,对于同类型的日志所触发的告警在实际场景中也是应予以区别和分级的。日志策略模块就是帮助用户进行日志类数据的精细化告警模块。
自动巡检
ADAM平台提供对纳管的负载均衡设备进行自动化巡检功能。巡检内容根据巡检模板配置执行,巡检任务可界面化配置执行时间。巡检完毕后,系统自动生成PDF巡检报告。针对异常项,巡检报告自动进行标记提醒。
巡检模板根据配置合规性、基础配置完整性以及运维巡检三大类型。模板可根据用户实际需求进行二次订制。
任务管理
任务管理是ADAM平台自动化配置下发的核心模块。任务管理模块主要分为任务看板、任务场景、发布模板以及配置回退四个子模块。任务看板主要是记录查询所有执行的配置下发任务,包括执行的结果、过程的记录等等过程细节。任务场景是以原子化的作业进行自动化配置流程的编辑。用户可以以任意的单个对象对其进行增删改的作业节点操作。任务是多个作业的组合,并按编排的顺序自动执行。发布模板则结合业务应用场景,抽象了关键配置项,用户可以在模板中批量、快捷的进行多个同类型业务发布。最后,通过ADAM平台下发的配置,系统支持对每个任务、作业、模板的回退。
指挥舱模块是ADAM平台的可视化模块,具有可扩展,可订制的特性。产品本身提供监控运维及分析的可视化工具页面,同时,用户也可以按需进行可视化大屏的开发嵌入。指挥舱模块也可与Granfana等可视化工具进行集成。
支持对用户应用交付网络环境的多个品牌负载设备进行集中纳管。对不同应用对象进行抽象化提取归类。在一个平台中完成不同品牌,多个设备的全方位运维管理。包括物理设备或虚拟设备。
随着业务的发展,应用交付网络上的对象数量会越来越多,关联关系越来越复杂。基于已可预见的发展趋势,运维平台势必需要考虑的问题是地基架构的选型。不光是可扩展,更需要易扩展。同时,针对应用交付网络数据类型多,数量量巨大的运维特点。一套合适的软件架构更是由于功能。
因此,平台的分布式、高可用、消息队列、高并发等特点是决定运维可持续发展的重要考量因素。
由于平台的集中管理,不同厂商设备的故障指标也集中起来。这些指标定义,解释、级别也各不相同。但是,用户的运维规范和标准是统一的,标准的。因此,就需要ADAM平台来进行转换和对接。
系统具备集合厂商的原始说明及翻译功能。使得前人的运维经验可通过平台不断的积累,传承。这同样是运维系统可持续发展的另一个重要考量因素。
系统支持对设备、应用对象,性能指标、日志指标等关键的维护对象和告警指标进行精细化的告警策略设置。实际的运维环境往往是复杂的,差异化的。由于应用的多样化,使得应用交付网络的运维区别于传统网管系统,精细化的管理策略才能保障运维系统告警的准确性,减少误报和“噪音”。
基于未来对安全运维及合规运维的要求越来越高。运维系统的功能再单单是实现设备或应用的监控,同时,对于配置的变更、策略的修改等运维过程中发生的“事件”都需要进行一一记录。同时,设备本身的安全漏洞是否及时修复,设备是否正暴露在安全风险下,这些都需要进行整体的掌控。
ADAM平台提供了系统账号本身的操作记录日志,设备安全合规类巡检,设备日志归档等等功能。帮忙用户轻松应对合规运维要求。
系统充分考虑了负载均衡设备对于应用发布的各种场景及运维习惯。通过任务场景和发布模板的方式可自由定义应用发布的流程。实现自动化的发布功能。单个或者批量的执行方式、定时的自动化执行等等。从单个对象的参数修改,到一个完整域名的跨设备发布都可以轻松地实现。
在简化应用发布的同时,也保证了作业的合规性和可控性。系统自动记录每个环节的执行结果、耗时、执行用户等过程信息。还具备与发布功能相对应的回退机制。使用户可以放心的进行自动化作业。
ADAM平台是基于公司多年深耕应用交付网络领域,结合运维服务团队积累的丰富经验,厂商建议以及对大量企业客户的深入了解和调研。100%自主研发,自主可控的一款运维管理软件。完全符合创新及信创发展理念的完全国产本地化运维管理软件。不依赖与任何国外商业化组件开发。更适合长期规划发展
公司名称:上海万昆科技发展有限公司
地址:上海市浦东新区长清北路53号中铝大厦502
公司传真:021-68582193
公司传真:021-68582193