手机浏览器扫描二维码访问
对照图5-1的数据管理和处理体系,关系型数据库属于结构化数据库,NoSQL数据库和实时数据库属于其中的灵活存储范畴。
医疗大数据并不能采用单一的存储方式,而是需要根据数据特点及应用的需要综合运用关系型数据库、NoSQL数据库、实时数据库、分布式文件存储等多种存储技术。
2.大数据处理技术
针对不同数据类型及应用要求,大数据需要不同的处理技术。
例如:在医疗领域,有对时效性要求不高的居民诊疗和健康管理数据,也有高流量的医院信息系统日志,也有可以实现医保诈骗分析的实时数据。
针对这些数据就可以分别采用图5-1所示的大数据处理层的批量计算、流计算和实时计算技术来处理:
(1)批量计算:
2004年谷歌公司提出的MapReduce以及目前最流行的HadoopMapReduce是最具代表性的批量处理模式。
(2)分布式流处理技术:
分布式流处理是主要适用于日志类流数据处理的技术。
(3)实时计算处理技术:
实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。
3.大数据整合技术
目前国际主流做法是基于HL7和IHE等标准进行医疗大数据共享整合。
其中,HL7基于消息的交换,实现医疗信息系统或医疗机构之间的信息共享和系统协同;基于文档的交换和整合,实现电子病历和健康档案。
IHE定义为在医疗信息系统之间进行信息共享和系统协同的流程规范和数据格式。
4.大数据挖掘技术
大数据时代下的信息具有体量大、复杂性高、更新速度快的特点,从具有如此复杂特性的信息中挖掘出用户所需的情报,难度较以往有了很大的提升,需要对传统的数据分析与挖掘技术进行改进。
(1)数据挖掘算法:
常用的数据挖掘算法主要有关联规则算法、分类算法和聚类算法等,这些数据挖掘算法的分类及其在医疗领域的应用示例见表5-1。
表5-1常用的数据挖掘算法
(2)数据挖掘工具集:
目前,大数据的数据挖掘工具集主要有R语言体系、机器学习体系和挖掘开发包等,这些工具包对一些数据挖掘算法分别进行了并行化改进。
(3)文本挖掘算法:
在医疗大数据领域,文本挖掘算法是一项非常重要的技术。
医疗数据包括各种结构化、非结构化和半结构化的数据。
要想对这些海量数据进行有效的处理,必须先对非结构化和半结构化的数据进行处理,使其能够被系统快速地识别和应用。
医疗领域面临的非结构化和结构化数据主要包括:医生医嘱、出院小结和各种描述性质的分析报告。
针对这些数据,首先需要进行分词,之后再利用医学领域的知识库对分词结果进行概念的识别,最终形成一个机器可读的数据。
在这个过程中,所用的技术包括中文分词、文本挖掘和语义分析。
一部奥地利的复兴之路,一部哈布斯堡家族的奋斗史!!!既不神圣,也不罗马,更不帝国的神圣罗马帝国复兴了!!!已完本老书地中海霸主之路,新书逐道在诸天,欢迎大家加入。欢迎加入新海月1书友群,群聊号码688510445(本故事纯属虚构,揭露帝国主义黑历史)...
硬汉高手回归都市,一路张狂帅气,锋芒毕露,冷艳绝色总裁看之不起反被征服!友情提示纯洁男女勿入!...
一场属于全世界的危机来的莫名其妙,黑夜的背后隐藏了多少未知的危险...
三百根盘虬卧龙的铜石巨柱,星罗密布,遮天蔽日,高达数十丈,在这片石柱林之上,乃是黑压压的一片,那是嘉雁城最宏伟的三大建筑之一,曾经的天门,如今的北宫武馆。今日的北宫武馆,云台登天处人群密集,而平时用...
叮!武林外传位面的七侠镇饱受雌雄双煞的残害,是否前往该世界帮助白展堂阻止雌雄双煞?确认叮!乌龙闯情关的刘病已两位奶娘被母亲所擒,是否帮助他打他母亲,拯救出自己的两位奶娘?确认??打他母亲?...
我踏过九幽黄泉进入这个世界,步步登向那万层诸天,成为世上最强武修。如果这天要阻拦我的武道之路,那我便要覆手翻天!...