“石梓元”通过精心收集,向本站投稿了10篇云计算环境下的分布存储技术研究论文,下面是小编给大家带来云计算环境下的分布存储技术研究论文,一起来阅读吧,希望对您有所帮助。
- 目录
篇1:云计算环境下的分布存储技术研究论文
摘要:云计算是一种全新的计算模式,其在科学计算以及商业计算领域发挥的作用不可估量,当前在学术界以及企业界等都受到了非常广泛的关注。云计算环境下的分布存储技术?整体而言,它研究的主要内容是在数据中心上对于数据的相关管理和组织,是云计算环境的核心内容和最基础设施。通常来说,数据中心是由上百万级别的节点综合组成的,因此这也就自然造成了数据失效的经常发生,这就对云计算的推广和应用造成了向大限度的限制,基于上述一些层面,对于云计算环境下的分布存储技术进行研究意义重大。
关键词:云计算;分布存储技术;数据
随着信息技术的飞速发展,社会和科学也已不可估量的速度飞速行进着,与此同时,在各行各业中不断推进和广泛应用的信息化向信息技术发出了更新一轮的巨大挑战,对信息技术向前发展起到了促进作用。云计算随着存储、通信技术以及计算等的发展而出现并得以广泛应用,使得用户能够更便捷、适时地访问云服务提供商提供的信息资源,整体来说,云计算同时具备着高可靠性、虚拟化、超大规模、价格低廉等特性,极大程度上满足了海量数据存储要求。在这一环境下的分布存储技术作为云计算的基础,虽然功能强大,然而从当前形势看来,它面临着巨大的挑战,因此需要不断地做出分析和研究。
1云计算技术
云计算是一种为了能够更好地满足相当数量的数据信息的计算以及存储等相关服务,同时跟随当下形势呈现出非常流行趋势的通信技术而产生的新型的、能够为各行各业进行分享基本数据资源的一种计算模型。云计算服务提供商基本上是不参与相关流程的,云计算机能够保证用户实现随时、便捷且放百度呢存储服务、访问网络服务、计算服务等一系列资源。源头上看来,云计算服务提供商是将庞大的数据节点以及相关网络设备进行科学有效的有机结合,继而就可以形成一个或者是一些具与一定规模的数据中心,进而由这一数据中心向有所需的用户提供到他们需要的服务,最大程度上满足了用户的使用要求。
关于云计算这一方面做出的相关研究表明,云计算具有最为显著的属性包括高稳定性、可扩展性以及规模超大灯,因此就可以在相应的环境下很好地实现庞大数据信息的存储操作,存储的位置多为不同数据中心的不同节点之上,即存储在这些节点之上的数据信息都是透明的、共享的,因此一旦用户有哪一方面的需求,只需通过云计算服务提供商提供出的数据访问接口就可以满足自己需求,获取到其中心内部存储的数据信息。然而当前看来,基于云计算环境的分布存储技术显然也是遇到了一些巨大的挑战,云计算数据中心的数据量、数据信息的规模是非常可观的,无疑会为数据中心的相关有效成本费用、容错性以及可扩展性等方面带来挑战,需要我们不断地做出分析研究。
篇2:云计算环境下的分布存储技术研究论文
2.1可扩展性研究
经济发展迅速的今天,在各行各业都会应用到数据信息处理技术以及计算机技术、通信技术等对相关数据做出一定的有效处理,当下看来,海量信息显然单靠计算机无法满足其处理操作,类似存储、计算等,这一背景下,基于云计算环境的分布存储技术研究应运而生,首先研究其可扩展性。研究之前先分析传统的数据存储计算,其通过冗余的磁盘实现相关要求,那种采取与流行时进行提高数据存储可扩展性的方式虽然确实实用了一定时间,它在一定程度上实现满足了数据的存储空间,只是基于云计算之中的庞大的海量的数据节点,其存储的数据规模以及相关数据中心的规模仍然处在不断扩大的趋势之上,不断增长的需求存储容量显然不能由磁盘预留方式来实现了。因此,云计算环境下的分布存储技术又到达了一个致高点。云服务提供商的数据中心不可能采取冗余磁盘预留的方式来扩展存储空间,并且它也不可能在建立之初将所有的操作都完完全全规划好,譬如说谷歌当前看来,已经在全球的数据中心就有36个,并且每一个数据中西所包含的计算机节点达到了数百万个;再譬如微软的数据中心,对外宣称其将会在全球建设多余二十个数据中心,同时在九月份已经在芝加哥形成了全球最大的模块化数据中心,其中包含了二百二十多个集装箱,同时每一个集装箱中机器数都在两千作用,其服务器还会以十四个月为周期进行成倍增长,赶超摩尔定律增长速度,因此,基于数据中心的网络可扩展性进行研究意义十分重大,以期能够适应当下不断增长、扩展的应用需求。
2.2容错性研究
云计算提供商仅仅依靠传统的提高容错性的方法进行操作显然满足不了当下的需求,这是因为传统的容错性提高办法是经由高性能的服务器、RAID技术或者是专用的存储设备来进行相关操作,完成这一内容的成本十分高昂,根本无法满足现今云计算提供商的要求,除上述之外云计算之中庞大的节点以及数据规模注定了极高的失效概率。在云计算这一大环境下,操作失效非常常见。譬如在谷歌公司中,就曾在零六年做出过一份报告,即在云计算环境的分布存储技术的数据中心内部,平均每一个MapReduce作业的运行过程之中就包含了五个失效的节点;每一个拥有着四千个节点金星运行的MapReduce作业的相关数据中心中,几乎平均六个小时中就有一个小时的磁盘失效时间,这无疑会给云服务的提供商和资源应用者带来不同程度的麻烦和损失。除了上述之外,还有很多情形下会造成失效的结果。总而言之,云计算环境下分布存储的频频失效必将带来不同程度上的损失,其程度不可估量,因此当下而言,容错成为云计算环境之下分布存储所面临的一项巨大挑战,同时其亟待解决。关于云计算环境下的分布存储,想要更为彻底有效科学的提高其容错性,单研究节点之间的相互关联关系,以提高在屋里拓扑结构上的容错性是远远不够的,与此同时,必须同时研究在节点上存储着的数据的相关组织和管理操作,以提高数据容错性,达到最终目的。
2.3成本控制方面
云计算环境下的数据存储技术之所以需要在成本控制方面做出一定的研究,是因为传统的分布存储所需要管理组织的节点和数据的规模都非常显,能耗相对也自然比较小,同时于企业而言,低消耗下他们是愿意通过成本输入来交换可靠性能以及效率的。然而,在云计算环境下的分布存储,其能耗是非常大的,同时为了使设备处在正常运转的状态之下,能耗还要增加很大一部分。在24*7的运行模式下,在数据中心的存储开销中非常重要的一个组成部分就是能耗。曾有研究人员作出相关研究发现,基本上每一台服务器四年的能耗与其相关硬件的成本不相上下,而且一旦能耗有所降低,在很大程度上还可以提高磁盘等一些硬件设备的运行寿命,这些都会大幅缩减整个数据中心的成本,因此就可以说,当下云计算环境下的分布存储面临的又一大挑战就是如何降低能耗进而降低成本,相继会产生的优良效果就是能源得到节约,环境得到保护。总而言之,云计算环境下的分布存储需要研究的重大内容即尽可能多角度的对设备的制冷消耗进行研究,从而期望在更大程度上降低云计算的成本费用。
3数据中心网络构件技术
3.1以服务器为中心
之所以会研究到数据中心网络构件技术,是因为数据中心是使得云计算得以正常运行的基础所在,通常来说,它主要的包括着两个部分,分别是软件和硬件,软件即数据中心提供出服务时所应用到的`软件;硬件即数据中心的相关计算机设备以及支撑系统的一些基础设施。以服务器为中心的结构,主要即是在每一个数据中心的相关服务中都会安装网卡,且数量较大,然后运用网线把网卡和服务器进行连接,继而成为一个完整的网络整体,这样做的目的之一是增大数据中心的存储功能。以服务器为中心的结构在结构的组成以及线路的连接两个方面都比较简单,从而达到确保网络底层与服务器之间的有效数据交互,当前看来还有功能更甚强大的路由算法,然而这一结构自身也存在着一定的不足,即由于数据信息会占据相当大的服务器计算资源,就会导致存在一些链路无法实现功能,继而使得服务器的数据压力更大,服务器的计算速率自然受到一定程度的影响,成本的费用以及功能的损失两方面来说都产生了一定的消极影响。
3.2以交换机为中心
以交换机为中心的网络构件结构其实最主要就是对于交换机的应用,交换机将每一个服务器的数据中心有效地连接,再通过交换机进行数据包转发,当然,云计算环境下的分布存储,相关的服务器负责的功能有所不同,其只是对于数据信息的存储以及处理负责。通常以交换机为中心的网络构件被交换机分成了三层,最为主要的分别是核心层、边缘层以及聚合层。云计算环境下的数据中心中,经由交换机作为中心的网络构件结构具有的优点有操作简便,稳定高效,同时还可以通过交换机的应用实现一些扩展功能,然而,这一结构也存在着一些难以避免的缺陷,比如由于交换机的使用,导致整个数据中心的操作具有不够良好的灵活性、较低的服务器利用效率以及交换机资源的浪费等,通常而言,这一结构在传统的数据中心网络构件中应用较多。
3.3混合模式
混合模式顾名思义就是将上述两种数据中心网络结构进行有机的结合,进而形成一种功能上更加强大,实现互补的新型结构。在混合模式的结构中,主要是将交换机作为将服务器进行连接的节点,同时配合安装在服务器中的多个网卡,除此之外,混合模式的网络结构中实现了特定场景下的网络结构,它综合上述两种结构的优势,因此比其更加的灵活自由,同等性能的条件下,对于数据中心的成本而言有一定的降低功能。
4结束语
总而言之,云计算中庞大的数据节点以及相关的网络设备进行有效的有机结合,进而就形成了一个或者是一些较为大规模的数据中心点,从而达到向用户提供一些基本性质的服务,使得客户的使用需求得到满足。总而言之,云计算环境下的分布存储技术使得庞大的数据信息得以存储,存储位置即为数据中心内部中的众多节点中的不同节点之上,更为甚者会存储到在不同数据中心的不同节点上。整体来说,基于云计算环境的分布存储技术它所研究的主要内容即上述内容,如何实现有效地组织和管理在数据中心中进行存储的大量数据信息。
参考文献:
[1]陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009(09):56-57.
[2]张莉.浅谈云计算技术国内发展现状[J].计算机光盘软件与应用,2012(23):78-79.
篇3:云计算环境下大规模数据处理技术研究论文
1.1大规模廉价计算平台
利用虛拟化技术,能够实现大规模廉价计算平台,将存储、应用程序、网络、计算等资源作为虛拟化实体。对闲散的计算资源进行抽象,使之形成相互之间完全独立的虛拟服务器实例,从而独立的完成数据处理和计算。通过这种方式,就能够实现底层硬件的虛拟化。构建可扩展计算节点资源池,并在其中实现集成管理虛拟计算流程和计算节点。这样,大规模数据子处理任务就能够完成实时迁移、资源转换、系统监控和任务部署。
建设大规模计算平台的过程,也是云计算环境下大规模数据处理的一个重要步骤。具体来说,首先要对数据处理需要的资源进行参数化的配置,根据相应的.要求进行定制。通过这一过程,用户能够获取自己需要的资源。在不同的操作模式下为用户提供参数服务。在设置参数完成定制之后,以此为基础,在大规模数据处理的时候,部署存储和计算资源,设定计算流程和数据处理方案。将相关参数设置信息在存储和计算资源的配置文件当中进行写入之后,以此对计算流程进行分配,从而在计算节点中启动相关的资源,并且管理和部署计算节点的定制处理服务。
部署工具通过网络连接到目标计算节点和计算流程,然后执行大规模数据处理方案。然后根据相应的方案,通过代码对存储和计算资源进行分配和执行。将部署在计算节点进行进行启动,利用网络在各个计算节点发送数据处理命令,从而完成调度和部署计算流程的工作。
1.2Map Reduce技术的支持
采用Map Reduce分布式和并行式编程模型,从而在模型内部对任务容错处理、计算节点负载均衡、空间局部性优化、并行任务调度等方加以实现。在Map Reduce的开发过程中,只需对Map、Reduce两个接口进行定义,通过计算机集群,对用户编写程序进行运行,拆分大规模数据集合,使之形成若干数据片段,从而得到一系列键值对[4]。然后向一个Map任务中分配一个数据片段,在Map Reduce框架下,向大规模计算集群中的节点进行子任务的分配。最后,结合得到的键值对进行计算,生成键值对集合,向Reduce当中进行输出。
Reduce当中每一个Reduce任务,都会向二元组集合当中进行分配,输入集合片段,运行Reduce函数,输出二元组键值对。如果数据处理任务失败,也能够自动重新进行计算。在大规模数据处理当中,是高度并行操作Map的,这一步骤对于大规模数据的高效处理来说,具有不可忽视的意义。基于云计算环境下,对规模数据信息大都能够达到TB级别或GB级别。在长时间处理大规模数据的时候,如果发生数据处理任务失败的情况,能够防止发生计算任务重新执行的情况。由于数据块是被复制的,因此在容错性方面,还会关系到负载均衡的情况。
篇4:云计算环境下大规模数据处理技术研究论文
在大规模数据资源和计算资源当中,对云计算技术、计算机网络技术进行引入,建立大规模数据处理框架模型。主要包含了两级结构,其一是虛拟资源体系、大规模廉价计算机集群,其二是大规模数据处理分析的处理监测管理体系、数据处理服务请求、以及相应的基础架构。利用限制的计算机资源,对虛拟资源层和物理设备进行构建,从而形成最底层的物理资源,形成同构的数据处理资源池或接近于同构的数据处理资源池。在第二级结构当中,最为重要的就是软件体系,能够为大规模数据处理提供服务。采用Hadoop核心技术,对数据处理接口进行编写。通过这种方式,在不同的学科和领域当中,能够提供相应的大规模数据处理服务,从而使用户能够享有良好的计算平台软件支持。
在这一框架的设计与实现当中,对Hadoop分布式开源计算机框架进行了应用,对其中的HDFS分布式文件系统,以及Map Reduce进行应用,从而对大规模数据处理业务进行处理和协调。在计算节点当中,对放置在Map Reduce任务进行映射,对大规模数据进行划分,使之形成若干子块,并对数据块的数量、规格等参数加以掌握。通过HDFS功能,可以在每一个计算节点当中,对数据块副块进行智能的放置,同时针对各个节点,对具体的角色进行设计。在大规模数据处理的过程当中,需要利用Reduce函数、Map函数、以及相关的程序进行分布化处理。在Hadoop当中,为了对Map Reduce进行运行,提供了一个API进行支持。
3结论
在当前信息化的时代背景当中,计算机和网络的广泛应用,使得各个领域中的数据量和信息量与日倶增。而对于这些海量的大规模数据来说,利用传统的数据处理方式,往往难以取得十分理想的处理效果。基于此,可在云计算环境下,开发和利用相应的大规模数据处理技术,以此来支持社会各个领域当中的大规模数据处理需要,从而数字化的时代当中,始终保持较高的工作效率和良好的工作效果。
篇5:云计算环境下网络技术研究论文
引言
云计算是一种比较全面的互联网计算模型,其主要作用是灵活自如地调用每一种IT技能。伴随着大数据时代的到来,云计算作为一种新兴的技术,对提升、优化大数据及信息的处理有着巨大的作用,云计算环境下的网络技术发展又向前迈进一大步。
篇6:云计算环境下网络技术研究论文
3.1虚拟机本地互访网络
目前状况下,对同一台服务器内部虚拟机之间的交互连接使用虚拟交换机就可以完成。虚拟机一般单靠软件实现网络互联,不需要硬件设施的运行[2]。虽然这种网络交互发生在虚拟机之间,其互访简单易行,但存在不少隐患:(1)虚拟机之间的流量得不到有效的监控,传统的系统已不能适应现有的云计算;
(2)当虚拟机通过虚拟机的流量增大时,服务器信息数据中心的负担加大,会影响虚拟机的性能。针对以上两个问题,现已有了解决的方案。IEEE的802.1QgbEdgeVirtualBridging和IEEE的802.1BrBridgePortExtension,就是针对这两个问题提出来的。两者方案各有优劣,802.1Br需要硬件的支持,802.1Qgb需要修改交换机的驱动。在具体应用中选择哪一种方案,还需要进一步的实践检验。
3.2数据中心二层互访网络
当前,数据中心普遍采用的是树状三层网络架构,分别为接入层、汇聚层以及核心层。出现两个服务器位于树状结构的不同分支时,就需借助核心层来实现运行,但在这期间耗费了大量的时间,云环境下对横向流量增加的性能需求已完全不能得到满足。若采用增设防火墙的方式,相当于在整个计算过程中增加了一个VLAN,但虚拟机也会因超出VLAN的范畴导致运行出现问题。解决方式是减缩树状结构(三层变两层,删除汇聚层)。对数据中心的影响是结构实现扁平化,服务器能力得到强化,从而实现虚拟机的正常运行[3]。数据中心的结构扁平化的过程中也会出现一系列的问题。多台通过虚拟化技术虚拟出的服务器,增加了数据信息中心的网络规模。传统的方法通过树状协议绕路解决,很明显这种方法已不适用现有的需求。控制平面和数据的平面虚拟化技术产生,解决了这个难题,同时对宽带的利用强化。
3.3数据中心跨站点二层互访网络
大数据时代到来后,随着互联网技术及其应用的发展,如何保证数据信息的安全成为信息时代的主题。传统方法在解决这个问题时,选择对数据扩容以及备份,但备份的内容牵扯到数据信息中心时,就需要对数据信息中心进行备份操作。在云计算的环境下,需要构建跨数据中心的的二层互访网络(即进行分布式计算机以及对虚拟机跨点迁移),在目前看来,实现数据中心直连的状况很少,主要还是选择二层互联(通过在IP网上打隧实现)的方式。最新的技术仍为个人私有,传输过程中实现数据信息中心相互独立,确保IP互联的永续性[4]。
3.4用户接入网络
在云计算环境下,数据中心二层互访网络的构建使得用户在接入网络时会遇到以下情况:
(1)多站式的分布计算,让用户在选择数据信息中心时产生困惑;
(2)如何快速在业务虚拟机与数据中心之间切换、迁移。在实际具体操作中,用户大多会选择DNS技术,对新技术LISP使用率较低。DNS技术主要是分散IP地址,用户与数据信息中心的交联就是通过分散出来的IP实现的。我们可以假设一个条件:虚拟机跨数据中心转移,IP地址保持不变。在这种情况下,NAT设备就可以发挥作用,它可让IP地址转化为多个虚拟IP以便用户切换。
3.5SND技术
SND是与当前网络技术发展相适应的技术,主要用于控制和分离的分离。传统技术中主要通过拆分控制层实现三层架构。SDN作为最新的网络技术受到广泛的欢迎,当前数据中心的网络互联就是靠它来实现,整合信息资源,从而使得网络虚拟化以及虚拟机之间的迁移实现[5]。
4云计算网络发展的展望
在云计算环境下,对网络技术的发展提出更高的要求。一种网络技术的需求可能会出现多种解决办法,因此在实际应用中,需要根据实际情况实际分析。目前国外通过数据中心间的光纤直连,来解决数据中心之间的数据互联剧增的问题,这对中国来说有着相当大的借鉴意义。通过多种技术而实现不同设备之间的数据共连是网络技术发展的新方向。
5结束语
社会的发展催促着网络技术的更新换代,传统技术在新形势下逐步暴露出自身的不足。云计算环境下,需要更高层次的网络技术做支撑,以满足社会发展对网络更新换代提出的要求。新的网络技术层出不穷,如上文中提到的SND技术、虚拟网络技术等等,以适应新的社会需求。但是要注意新的网络技术并不成熟,还要进一步投入研究。随着社会以及网络技术的不断发展,基于云环境下的网络技术定会有新的突破,以服务于现代化建设。
篇7:云计算环境下网络技术研究论文
云计算的计算方式是利用互联网,在各种网络技术(如计算机、网络、通信技术)的综合应用下实现的。云计算获得数据及信息的方法主要是利用与互联网相连接的硬件设备。“云”是对网络的一种形象表达,多的意思。网络技术的发展也推进着云计算技术的发展,被越来越多的人熟知和应用。云计算主要是建立一种随时变化的信息源数据库,主要是通过分布计算与虚拟化的手段,将许多相对分散的信息数据聚集而形成[1]。云计算形成的信息源数据库是随着自身所使用的网络资源不断变化的。云计算中转嫁硬件设备的方法为企业极大地节约了经济成本,同时也节约了人力成本。客户与任务之间主要靠互联网联系在一起,这是信息技术发展的趋势,云计算则适应了这一趋势。
2云计算网络技术体系框架
信息处理硬件负责云计算的主要工作,云计算市场呈现一种蓬勃发展的态势,促使着处理硬件需求量的增加。互联网信息处理的规模化、模拟化都受到信息处理硬件发展的'影响。信息处理平台基于横向和纵向的两种交流实现,在以前的处理平台中主要采用纵向交流,随着大数据时代的发展,横向数据交流量不断增加,云计算网络的体系骨架进一步完善。云计算网络骨架(从工作任务到最终的客户)一般可以分为四种:
(1)在虚拟机之间的网络交互;
(2)服务器之间的网络交互;
(3)数据中心之间的网络交互;
(4)用户与数据信息中心之间的网络交互。其中发生在数据信息中心内部的是服务器、虚拟机之间的两种网络交互方式。网络交互是发生在虚拟机之间的,主要是在虚拟交换机中进行。网络交互发生在服务器之间的,利用交换机进行交互,在服务器中通过纵向和横向两种流量交互实现。网络交互发生在数据中心之间的,可分情况对待:同城时,可选用城域网解决;不同城时,可选用骨干网解决。数据中心可能因数据量的增多而不能及时完成操作,需要增设数据中心进行操作,由此出现二层网络的搭架。网络交互发生在用户与数据信息中心的,主要通过城域网完成交互。现实生活中,升级的业务、剧增的信息数据、流量增大的用户与信息数据中心之间,都促使着更大型、更智能的网络宽带的出现,从而更好地进行数据信息的传输。多个数据信息中心的出现也为我们带来了新的问题,例如:如何快速地进行数据信息中心的转换。
篇8:云计算环境下的大数据可靠存储关键技术概述论文
云计算环境下的大数据可靠存储关键技术概述论文
呈指数级增长的大数据需要被可靠存储,而云计算环境下的大规模分布式存储节点和数据,极大地提升了数据丢失或失效的几率,该文从云端数据中心拓扑结构的设计、数据容灾技术的相关策略及系统节能减耗等三个方面进行了系统的阐述,为大数据的可靠存储技术研究提供了一定的参考依据。
关键词:云计算;大数据;数据容灾
1概述
当代云计算数据中心的存储节点数量少则几十万多则上百万,在规模如此庞大的海量存储系统中,节点失效或磁盘损毁已然成为一种常态,此外,由于网络设备或者传输线路故障等原因导致的数据丢失或短时不可用现象也常有发生。如果用户或企业不能随时随地存取自己所需的数据,甚至发生数据丢失的现象,将大大影响客户满意度,甚至给企业带来巨大的经济损失,因此,必须采取有效措施及相关技术策略来保证云端数据的可靠存储。
2云端数据中心拓扑结构
云端数据中心是大数据存储的基础平台,数据的可靠性及访问效率与网络节点的'拓扑结构紧密相关。按节点功能类型的不同,可将数据中心节点的拓扑结构分成三种类型[1]:①以server(服务器)为为中央节点的星型结构;②以switch(交换机)为中央节点的星型结构;③混合结构。三种拓扑结构的特点如下:
以server为中央节点的结构将多台server通过传输介质直接互连起来,在这种结构中,server兼任switch的角色,一方面承担数据的加工处理工作,另一方面承担分组的存储转发工作,以server为中心的结构增加了服务器之间的网络带宽,摆脱了对交换机的过度依赖,提高了吞吐量;但是server之间的链路带宽的不均衡增加了布网的复杂度。
以switch为中央节点的结构将各台server通过switch进行互连,switch和server各司其职,switch负责分组的路由转发,server负责数据的存储加工,这种结构布网简单,操作方便,可扩展性强,在现代企业数据中心应用较广泛;但以交换机为中心的结构存在底层server利用率低、switch资源浪费较为严重、网络带宽容量有限、灵活性差等缺点。
混合结构是以上两种结构的一种扩展,其设计融合了这两种结构的优点并有效避开了各自的缺陷。
3云端数据容灾技术
容灾技术是云端大数据可靠存储的一种关键技术,良好的容灾策略不但能有效提升大数据存储系统的可靠性,还有助于提升系统的访问效率。容灾策略一般都采用冗余备份技术来实现,以确保当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地访问冗余数据来维持系统的稳定运行[2]。一般来说,容灾技术按策略的不同主要分两种:①复制冗余策略;②纠删编码冗余策略。
3.1复制冗余策略
复制冗余策略为系统中的每一个数据都建立一个或多个副本,并把若干个副本分散存储在不同的网络节点上,当遇到某个数据损毁或失效不能正常使用时,可通过访问最近的存储节点来获取与原件完全一致的副本数据[3]。基于复制的冗余策略主要关注2个方面的问题:(1)副本数量设置;(2)数据放置方法。
3.1.1副本数量设置
副本系数设置主要采取两种方式:①静态设置副本数量,目前主流的分布式文件系统Hadoop的HDFS、谷歌的GFS都采用3副本策略,这种静态设置方法操作简单,但灵活性差;②随机动态设置副本数量,即系统根据数据的访问频率、出错概率及网络状况等动态因素随机地确定副本系数,动态地删除或添加副本,这种动态机制能大大增加存储空间的利用率,但动态计算过程增加了系统的开销;
3.1.2数据放置方法
巧妙的数据放置方法能通过提高并行访问量来提升云端大规模数据的访问效率,目前,数据放置方法一般采用顺序放置和随机放置[4]。
①顺序放置方法把数据副本按顺序分布存储在不同节点上,使得排列数目相对较少,针对系统的随机失效有一定的防护性,顺序放置方法技术简单、易于实现和维护,但在具体应用时,因失效具有很强的相关性,局部的网络故障或节点失效就有可能导致整个机架的数据不可访问。
②随机放置方法是在可放置节点中随机地选择一系列节点来存放数据副本,此方法能够降低关联对系统可靠性带来的负面影响,但在实际应用中,由于节点的存储、计算能力各不相同、数据的访问热度也不尽一致,往往达不到理想的均衡负载效果。
3.2纠删编码冗余策略
3.2.2LDPC编码
LDPC码是从蒙特卡洛及图论演进而成的编译码技术,因其稀疏检验矩阵(少量元素是1,其余部分全是0)特性,被研究者广泛用于设计复杂度低的解码算法,LDPC码可以有效提升系统的容灾能力,但是构造不规则码字的难度也相应成倍地增加。
3.2.3阵列编码
阵列码的编译码过程只涉及基础的二进制异或运算,技术实现相对容易,而且在采用同等编译码的前提下,阵列码比RS码更能有效地提高系统的可靠性,与此同时保持其计算域不变大,阵列码技术一直是大数据可靠存储关键技术的研究热点,被广泛的应用于磁盘阵列及网格存储系统中。
3.2.4RS编码
RS码是一种高效的纠错码,既可以纠正突发错误,又可以纠正随机错误,在通信领域中有极其广泛的应用,近年来,随着大数据存储技术的快速、多元化发展,有研究者对RS编码行了改造,并将其应用于数据存储领域以提高系统的容错性。
4云端系统节能减耗技术
数据存储是各种云计算服务赖以施展的基础,在云计算环境下,底层数据中心节点的规模庞大,使得数据存储成本极高,主要源于添置各种网络硬件设施(大型服务器、交换机、路由器等)以及支付各种存储设备的高额电能消耗等。高涨的能耗开销不但增加了系统的运营及维护成本,更催化了大气温室效应,严重破坏了自然界的生态环境,因此,不论从服务商盈利的角度,还是从环境保护的角度出发,节能减耗技术都显得尤为必要。
当前,分布式存储系统的节能减耗技术主要集中在两个方面:①硬件节能策略,主要致力于降低存储系统中的硬件设备能耗;②软件节能策略,通过使用一些专业软件来实现系统资源的有效分配及使用。
参考文献:
[1] Popa L, Ratnasamy S, Iannaccone G,et al. A Cost Comparison of Data Center Network Architectures[Z]. 2010.
[2] 吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011.
[3] 郭仁东.网络数据容灾备份技术及其应用浅析[J].电脑知识与技术,2012(31).
[4] 王意洁,孙伟东,周松等.云计算环境下的分布式存储关键技术[J].软件学报,2012,23(4):962-986.
篇9:分析论文:云计算环境下大数据
分析论文:云计算环境下大数据
1大数据处理流程
基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。
1.1数据采集
大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。
1.2数据处理与集成
数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。
1.3数据分析
在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的`重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。
1.4数据解释
数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。
2云计算与大数据分析的关系
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。
3基于云计算环境的Hadoop
为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。
4实例分析
本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。
5结束语
基于云计算的大数据分析已经成为解决大数据问题的主要手段,云计算环境中的大数据分析平台部署需要综合考虑硬件、网络、软件等各方面的集成,使大数据的海量信息积累体现价值,显示云计算的性能优势,而没有云计算技术的支撑也不能进行高效和准确的大数据处理分析。最后本文通过一个例子来分析了基于云计算的大数据分析给企业带来的价值,由此可见,大数据需要云计算技术的深入挖掘,同时也促进了云计算技术的不断发展。
篇10:云计算环境下的网络技术及其发展论文
云计算是以互联网技术为基础的,进行信息资源的整合和优化,进而通过云软件进行统一的数据整理。在云计算环境下,扩展、延伸了用户资源,使用户信息不在受到限制和制约,起到一定的积极作用。但是,云计算的应用也为网络安全技术带来了一系列问题,不容忽视,我们要予以正确的处理方法,从而推动网络数据大时代的稳定发展。
1云计算在信息时代实施的特点
1.1虚拟化技术
云计算就显著的特征便是虚拟化特点,是一种虚拟化资源。具体包括了资源虚拟化和应用虚拟化两个方面。利用虚拟化技术的形式实行监督与管理,更利于操作过程中的扩展、移动以及备份等等方面。
1.2延续扩展性
目前,众多的软件与硬件都对虚拟化有了一定程度上的应用,而且可以同时运用不同硬件厂家的产品和低配的机器物件,都可以获得高性质的效能。
1.3高度依赖性
虚拟化技术可以对客户的应用程序进行开放式管理,就算是单独的服务器发生故障,也会有其他的配置来应用,重在确保应用程序的正常运作。
1.4信息资源的共享性
在云计算业务中,可以提供对计算、存储、社交以及软件等多种IT基础设施资源的服务,使信息资源更加清晰、透明,保证了网络技术信息资源的共享性。
★ 云计算报告
云计算环境下的分布存储技术研究论文(锦集10篇)




