首页> >新闻中心
数据源端应用管理分析—大型医院
-2018/05/24-
大型医院在信息化管理过程中,以下几类事件经常出现:>
1. HIS系统在业务高峰期的运行缓慢或应用阻塞事件>
这类事件在日门诊量超过5000的大型综合医院中非常普遍,且多发生在业务量繁忙时,每隔一段时间总会造成几次影响时间和范围比较严重的事件。此类问题主要与应用代码质量、后台数据结构不合理或系统间相互访问相关。>
2. 系统频繁出现各类作业失败事件>
以sqlserver为核心数据库的应用系统此类事件最为突出。Oracle数据库的任务异常或失败多表现为备份任务。>
3. 空间不足造成业务挂起>
空间管理表面上看是一类非常简单的管理指标,但在真实环境中我们发现,即使是有预警监控系统,空间不足造成的各类的(造成各类)性能和可用性问题依然不少。分析原因则与人员的持久关注度、业务特征的变化、空间隐性边界易被忽略等因素相关。>
4. 其他各类非硬件原因造成业务失效>
诸如误删除、非法变更、索引失效或缺失等。
>
除了以上四类常见事件外,医院的IT管理人员还一直为两种情况所困扰,即>
一、应用出了问题确定不了关键责任方。>
二、缺乏衡量代码质量、系统资源和行政手段的依据。>
以上这些事件的共同特征是:都发生在数据源(库)端访问环节,且都与部署在数据库之上的应用悉悉相关,这些事件造成的影响都会使业务应用的可用性或性能受损。>
数据源端的应用问题之所以会成为大型医院最头疼的一类问题,主要原因是这些问题的根源通常不是一个简单的故障点而是诸多因素共同影响的结果。>
造成各种数据源端问题的因素不仅多且彼此互相影响>
例如:造成HIS系统上的一次应用阻塞事件与HIS的代码质量不佳,当前的高并发访问量和服务器所拥有的系统资源不足等因素都有关系。因此,一次小小的应用阻塞事件就是多因素共同影响的结果,而对应的解决方案也会是个多选题。我们可以从优化代码的方向着手解决,但在有些应用环境中,可能增加系统资源,或者干脆用管理手段实现错峰访问也是可选项之一。>
总之,应用问题的复杂性决定了问题的解决方式也不会是唯一性的,可以有多种解决途径。>
在面对这类多因素相互影响产生的问题,任何管理工具或辅助程序都无法直接给出对问题的简单判定。这就使得IT管理者在面对这一层次问题时,不能像对待设备类问题那样,通过简单的状态报警就能确定问题源。 他们往往是依靠经验一点点的、抽丝剥茧的、手工分析理清问题的来龙去脉,综合考虑后确定解决方案。这样就使管理的效率、时间和业务的持续性都大受影响。>
那么,如何才能够有效应对和管控数据源端的问题呢?>
我们来看一个例子。>
观察下图,这是一次某三甲医院HIS系统影响重大的堵塞事件,此次事件一共有274个进程受到了影响,有3个头锁进程(最左侧的3622、9955、12541),我们靠人工很难在短时间内分析出这么复杂的堵塞事件,但如果我们能够从下图这个视角去观察,我们几乎一眼就可以确定,真正造成大范围堵塞的根源是编号9955这个进程。>
堵塞链图,最左侧的矩形色块为头锁进程>
视角!视角!视角!重要的事情说三遍。>
如果IT管理者在进行问题分析的时候获得这样一个上帝视角,他就能够迅速看清事件的来龙去脉,以及此事件所播及到的所有环节。对于管理者来说,之前纷繁纠结的应用管理立刻变得清晰起来,他就可以轻松的按照视角提示积极推进问题的解决。>
给予管理者一个上帝视角,用IT的术语来说,就是管理的可视化。这其实并不是一个新概念,但以前似乎从未有人强调过可视化对于数据源端应用管理领域的重要性。>
数据源端应用管理的重要性在于这个环节的问题通常会影响整个业务的运行,而这个环节难于管理的根源是问题往往是多因素共同影响的结果,问题源和解决方案通常都是不唯一的。应对数据源端应用管理的一个主要手段是借助工具来实现在这一管理领域的充分可视化管理,从而清晰把握事件的来龙去脉,辅助IT管理者最终决策。>
就目前的认识,我们认为要实现这一层次充分可视化至少要包含三个视角,即:>
视角一:统一管理的全局视角>
这个视角首先是IT统一管理的需要,具体到数据源端的应用管理,还需要考虑两个特征:>
1、应用类问题的系统关联性。企业和机构的核心业务都是彼此关联的,例如:发生在电子病历(EMR)系统上的一次操作,可能会影响HIS系统的性能。所以当我们要能看清应用事件的问题源时,需要的是一个以业务服务为展示单位的跨业务视角。>
2、应用类问题的早期预警。应用类问题不同于硬件故障,硬件故障的发生一般是没有征兆的,而应用问题通常都会有一个从出现异常到产生严重结果的发展趋势。所以在问题刚刚出现异常时进行警示非常有意义,可以避免在问题严重之前即时处理。>
我们仍拿HIS系统的阻塞来说,一般医院的阻塞问题往往是在业务端无法忍受之后通知IT部门,IT部门再响应去解决;但这时阻塞事件已对业务端产生不利影响,如果我们能在堵塞发生之初进行警示,则完全可以在事件对业务造成影响之前进行处理。因此,我们需要一个视角是承载实现早期预警。>
最终,面向数据源端的统一管理视角,应该是这样的:它不同于网管类监控产品提供的网络拓扑图,而是以数据源为展示节点的统一管理视野,同时事件的预警提示应该早于业务部门的感知。>
一批大型三甲医院的守护星全景大屏截图>
视角二:发展趋势的时间视角>
关于这个视角,我们比较容易联想到的是沿时间轴呈现每套应用系统的使用特征和趋势,从中了解业务的特征、规律和异常。如下图:>
对业务历史运行的多角度呈现>
但这只是时间视角的一方面,还有不少重要分析结论是来自于时间视角的。比如:对于应用代码质量的分析和应用资源使用量的分析,本质上都是在对应用进行一段时间的跟踪分析后得出的结果。>
因此,我们认为时间趋势的视角应该至少包含三类信息的呈现:>
1、应用系统的使用特征分析>
2、应用代码的质量分析>
3、各种资源使用量的趋势分析>
视角三:突发问题分析的全局视野>
这可能最难的部分,每一类应用问题的原因,表现非常不同,其溯源方式也不样,如果要针对每一类问题梳理出一套能够自动溯源的问题链,需要借助大量的、复杂的算法叠加来展现问题的全景。唯一值得庆幸的是企业经常遭遇的数据源端应用类问题主要就那么几种,所以针对每一类主要问题梳理问题链从成本上还是可行的。例如在之前的介绍中,堵塞链的梳理就是一类典型的问题链自动追溯过程。>
问题链、堵塞链等功能浓缩了守护星对问题的自动追溯能力>
总而言之,我们认为如果能够从全局、时间、具体问题三个视角来观察数据源端的应用状况,IT管理者就能够清晰把握这一领域事件的来龙去脉,能够实现对于这一领域管理IT管理工作的完全掌控。>
以上就是守护星智能管理软件的主体设计思想。守护星AG于2014年推向市场,这款产品需要借助大量的、复杂的算法叠加来展现问题的全景,这造成了守护星的代码中用于算法的代码要远比普通监控类产品多的多。>