当前位置:大学毕业论文> 论文摘要>材料浏览

关于数据存储论文范文写作 大数据结构化数据存储检索系统相关论文写作资料

主题:数据存储论文写作 时间:2024-03-30

大数据结构化数据存储检索系统,这篇数据存储论文范文为免费优秀学术论文范文,可用于相关写作参考。

数据存储论文参考文献:

数据存储论文参考文献 大数据时代论文关于大数据的论文大数据杂志有关大数据的论文

摘 要:本文结合大数据结构化数据存储检索系统的设计思想并借鉴了云存储中常用的数据管理方式,建立面向结构化大数据存储检索系统,系统支持结构化数据的高效加载、分布存储和复杂条件的查询等功能,进一步改进的方向,建立分布式环境下面向复杂条件的高效查询规划.

关键词:大数据;倒排索引;高效检索

建立面向结构化数据的海量数据存储检索系统,具有明显的优势,不仅提高了数据存储的效率,还具备较多的功能,例如高效加载功能、分布存储功能以及复杂条件的查询功能.结合具体的应用,综合利用分区索引条件、列存储结构等技术,会显著提高海量结构化数据的查询效率;充分利用、挖掘分布式环境下的并发、并行计算能力,是提高面向大数据集、复杂查询条件查询效率的主要途径.MDSS系统在查询效率方面虽然取得了一定的成效,对数据存储发挥了重要的作用,如何提高元数据的管理、访问效率;如何建立分布式环境下面向复杂条件的高效查询规划,减少中间结果集的传递、结果集汇总等时间消耗,都是进一步提高系统查询效率的关键所在.

1.大数据存储检索系统的工作机理

“大数据集”要求较高的数据加载效率、数据存储效率以及数据检索效率,目前主要的解决思路是利用多机协同的分布式存储环境提高系统处理效率.大数据的处理对数据的加载效率、存储效率和检索效率提出了更高的要求,因此为了满足大数据的需求,需要利用多机协同机进行分布式存储,进而提高系统对数据的处理效率.对于海量结构化大数据存储检索系统而言,其中包括加载机集群、查询机集群、元数据节点集群以及存储点的集群.加载机集群系统的数据加载端,以进程为单位,在多台设备上同时建立多个并发加载客户端,通过并发加载提高系统整体加载效率,在MDSS中,加载机集群同时缓存近期入库的数据,经过固定的时间周期,把缓存数据通过千兆写到数据存储管理装置中.用户在查询机上发出查询指令建立查询规划,查询机根据元数据节点集群保存的元数据信息,向存储节点分发查询任务,最后汇总多个存储节点返回的查询结果,提交给用户.元数据节点集群是用来协调整个集群的工作,保存整个系统工作所需的元数据信息.存储节点集群是持久存储长期保存的历史数据,把数据源进行分块存储,通常把一次或几次从加载机刷新到集群中的数据作为数据分块单位.

2.结构化大数据存储检索系统的检索方法

2.1查询条件的分解

分区查询条件属于目标索引文件,这样查询目标为指导,可以大大的缩小海量数据的查询范围,降低了查询的难度,因此在系统的应用中,需要先执行分区查询条件,对每一个表空间设置一个分区查询条件,实现对数据库的有效索引;过滤查询条件是在逻辑运算符号的衔接下,形成多个逻辑组合并进行查询,因为多个字段共同构成了结构化数据的记录,并且其属性支持模糊查询,利用过滤查询条件机械能比较查询等模糊查询,提高了查询的针对性;统计分析查询条件是指对经过前两个环节的查询后,对返回的结果集的查询,是对全集数据集的统计和分析,一般来说,统计分析查询主要包括数据分组操作、排序操作和统计函数.为了对二维表空间的操作起到积极的促进作用,推进结构化数据的统计和检索,需要设计新的分析语言,既要符合一般的语法规则和标准,同时还要取消关联查询、嵌套查询和视图等一些复杂的检索功能.多个查询的语句共同构成了一个查询任务,因此为了提高查询工作的效率和准确性,需要将查询条件进行分解,在MDSS的作用下,查询条件一般分为三个基本的类型,并且每一个基本条件都等同于一项查询子任务.

2.2查询子任务的执行

在分布式环境下,不同的层次会执行不同的子任务,分区类查询条件结合元数据信息在具体的存储节点上进行索引文件级别的查询;过滤类查询条件针对目标索引文件内的具体记录进行过滤,这两类条件在多数据存储节点中并发执行.在对海量化大数据进行查询时,为了简化查询的工作,需要把一个复杂的查询任务进行细化,分为几个查询子任务,对于查询子任务的分解,可以根据上述的分类进行查询.统计分析类查询条件在查询机上,针对过滤类查询条件返回的结果集进行汇总后再进行统一计算处理,保证查询语义的正确性.统计分析类查询是对有具体分组和排序的数值分析,是建立在对全部的结果集进行统计的基础之上的,只有对全部的数据集进行统计和分析,才能够得出正确的查询结果.一般而言,对分组和排序的操作主要是在查询机上进行,在此环节中,Bloom Filter算法起到了加速分组的操作,并且消除了重复的计算过程,这样就极大的提高了数据查询的效果.不同的查询条件要对应相应的查询机和合适的查询时间,MDSS中的查询机制主要有两种,即在线查询和离线查询,前者的数据查询时间响应的要求很高,在几秒内便反应出查询的结果,用户可以花费较短的时间得到查询的结果,后者的数据查询模式比较复杂,主要是对数据的挖掘和分析,甚至有时候需要对全部的数据进行统计和分析,只有经过这些必要的程序才能够获得查询的结果,这就需要较长的数据查询响应时间.上述的两种查询机制在MDSS中得到了广泛的应用,为了充分发挥两者的优势,需要引入分批返回机制,即在执行子查询中,设置子查询检索结果集的闺值,如果检索到结果集超过阈值,返回当前的检索结果,同时存储节点保存当前的检索状态、缓存剩余的结

果集.

3.结束语

本文结合具体的应用,综合利用分区索引条件、列存储结构等技术,会显著提高海量结构化数据的查询效率;索引分片数据作为基本的调度和计算单位,持久存储到存储节点上,当数据从加载机刷新到存储节点集群时,根据设置的副本冗余度和集群存储节点列表,按序选择可用的存储节点,写入数据,当设置副本冗余度时,加载机会选择不同的节点分别写入数据,在数据检索时,一个索引分片检索结果如果超过返回时间限制,可以选择对应的索引分片的副本重新执行检索操作,实现数据容错功能.

参考文献:

[1]信俊昌,基于海量数据高效查询处理方式研究[J].企业文化,2013

[2]王小芳,大数据分区管理模型及其应用研究[J].科技传播,2014

结论:关于本文可作为数据存储方面的大学硕士与本科毕业论文大数据存储解决方案论文开题报告范文和职称论文论文写作参考文献下载。

基于云计算和大数据的可视化环保设备监管系统
摘 要:该系统通过云计算服务与环保设备进行数据交互,并通过大数据服务进行数据分析、汇总,直接将数据以可视化界面进行展示或以告警和建议的方式进行展。

广播节目数据存储备用系统解决方案和实施
【摘要】我台播控中心节目数据存储备用系统设备老化,技术落后,容量不足问题凸显,2013年12月对其进行升级改造,本文对改造工程进行了分析总结,值。

电力大数据可视化系统开发关键技术趋势
摘 要:在大数据的时代背景下,电力大数据及其系统面临前所未有的机遇和挑战。为使电力大数据能够更好的满足资产管理、生产营销等系统的需求,文章介绍了。

论文大全