毕业论文课题相关文献综述
一.系统开发背景
对于信息的记录我们经历了:传统纸笔磁盘磁带光盘单机时代独立文件服务器存储服务器/设备分布式文件系统传统的存储架构方式,有存储区域网络(Storage Area Network and SAN Protocols,简称?SAN)和网络附属存储(Network?Attached?Storage,简称?NAS)等。NAS是采用直接与网络存储介质相连的设备实现数据的存储,对于NAS其扩展性受到设备大小的限制,存储空间的扩容存在上限,而且无法将数据的存储管理和搜索结合在一起。SAN是将各种存储设备相互连接,然后再与一台服务器或服务器集群组成的网络。可以分为 FC SAN和IP SAN,前者采用光纤通道,SAN的存储方式需要购买网络设备和主机适配卡,成本较高。
网络文件系统(NFS)?最早由Sun微系统公司作为TCP/IP网上的文件共享系统开发。使用其早期的unix和nethud也是一种网络操作系统,网络操作系统和网络文件系统是一种包含关系。在之后出现了Andrew文件系统(AFS)结构与NFS相似,由卡内基梅隆大学信息技术中心(ITC)开发、现由前ITC职员组成的Transarc公司负责开发和销售。AFS较NFS来有所增强。而现在使用的分布式文件系统(DFS)是AFS的一个版本,作为开放软件基金会(OSF)的分布式计算环境(DCE)中的文件系统部分。分布式文件系统(Distributed file system,?DFS),或是网络文件系统(Network File System),是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。
当前比较流行的分布式文件系统包括:Lustre、Hadoop、MogileFS、FreeNAS、FastDFS、NFS、OpenAFS、MooseFS、pNFS、以及GoogleFS。
二.国内外相关研究
在国外从最开始的网络文件系统(NFS)、Andrew文件系统(AFS)到分布式文件系统(DFS),国外已经有了如:Lustre、Hadoop、MogileFS、FreeNAS、MooseFS、pNFS、GoogleFS等各有所长的多种分布式文件系统,就如在大数据时代广泛应用的Hadoop中分布式文件系统也占据着核心地位。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
国内应朝晖等人在1995年对分布式文件系统的概念进行了综述性的描述。杨德志等人在2005年设计并实现了蓝鲸分布式文件系统,弥补了国内分布式文件系统的空白。余庆在淘宝设计并实现了分布式文件系统FastDFS,并被国内很多互联网厂商使用。刘立坤等人设计了一种面向校园网的分布式文件系统CorsairFS。郝向涛基于Hadoop Distribute File System设计并实现了可以实现文件上传,下载,新建文件夹等操作的云盘系统。
其中的FastDFS是一个开源的分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务, 如相册网站,视频网站等等。FastDFS服务端有两个角色:跟踪器(tracker)和存储节点(storage)。跟踪器主要做调度的工作,在访问上起负载均衡的作用。存储节点存储文件,完成文件管理的所有功能。
三. 该课题研究内容
