博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
什么是分布式数据存储
阅读量:4292 次
发布时间:2019-05-27

本文共 924 字,大约阅读时间需要 3 分钟。

传统的集中式存储对搭建和管理的要求较高。由于硬件设备的集中存放,机房的空间、散热和承重等都有严格的要求; 存储设备要求性能较好,对主干网络的带宽也有较高的要求。

而在信息爆炸的时代,人们可以获取的数据呈指数倍的增长,单纯在固定某个地点进行硬盘的扩充在容量大小、扩充速度、读写速度和数据备份等方面上的表现都无法达到要求; 而且大数据处理系统的数据多是来自于客户,数据的种类多,存储系统需要存储各种半结构化、非结构化的数据,如文档、图片、视频等,因此大数据的存储宜使用分布式文件系统来管理这些非结构化数据。

什么是分布式数据存储

分布式数据存储,即存储设备分布在不同的地理位置,数据就近存储,带宽上没有太大压力。可采用多套低端的小容量的存储设备分布部署,设备价格和维护成本较低。小容量设备分布部署,对机房环境要求也较低。分布式数据存储将数据分散在多个存储节点上,各个节点通过网络相连,对这些节点的资源进行统一的管理。这种设计对用户是透明的,系统为用户提供文件系统的访问接口,使之与传统的本地文件系统操作方式类似。这样的设计解决了传统的本地文件系统在文件大小、文件数量等方面的限制。

传统的分布式计算系统中通常计算节点与存储节点是分开的。当执行计算任务时,首先要把数据从数据节点传输至计算节点( 数据向计算迁移) ,这种处理方式会使外存文件数据 I/O 访问成为一个制约系统性能的瓶颈。为了减少大数据并行计算系统中的数据通信开销,应当考虑将计算向数据靠拢和迁移。如MapReduce模型采用了数据/代码互定位的技术方法,该方法让计算节点首先尽量负责计算其本地存储的数据,以发挥数据本地化特点; 仅当节点无法处理本地数据时,再采用就近原则寻找其他可用计算节点,并把数据传送到该可用计算节点。

从各厂商的解决方案来看,面对目前互联网应用PB级的海量存储的存储需求,频繁的数据传输,都是通过应用分布式存储系统,实现在普通PC机上部署节点,通过系统架构设计提供强大的容错能力,针对大型的、分布式的、大量数据访问的应用给用户提供总体性能最高的服务。

ETHINK数据智能分析平台提供本文 http://www.ethinkbi.com

转载地址:http://chggi.baihongyu.com/

你可能感兴趣的文章
归并排序
查看>>
STL常见问题
查看>>
time_wait和close_wait状态
查看>>
STL中vector、list、deque和map的区别
查看>>
Linux下多线程查看工具(pstree、ps、pstack)
查看>>
PID PPID LWP NLWP
查看>>
查看线程CPU占用情况
查看>>
查看个线程的CPU 内存占用
查看>>
svn中设置文件夹链接
查看>>
find ./ -name "*.cgi" |xargs -i cp "{}" ./cgi-bin/
查看>>
svn st | awk '{if ( $1 == "?") { print $2}}' | xargs svn add
查看>>
mysql事务处理用法与实例详解
查看>>
Python模块——struct
查看>>
mysql中select * for update
查看>>
linux vmstat 1 ,watch , pmap -p,
查看>>
MYSQL 相关
查看>>
python 构建client 程序
查看>>
c++ 加载so动态库中的资源
查看>>
加解密 签名
查看>>
linux top 命令分析
查看>>