分布式文件系统中元数据操作的优化

摘 要:分析了PVFS2中的元数据操作流程,以remove操作为例,通过测试发现其瓶颈之处,提出一种将判断过程放置到服务器端来减少通信次数的优化方法,这些方法同样可以应用于其他元数据操作.在PVFS2中实现了该优化方法,并将其同原来的remove操作耗时进行了对比,结果表明,该元数据操作的性能提高了10%左右.

关 键 词:分布式文件系统;元数据操作;优化处理;PVFS2

中图分类号:TP316.4

文献标志码:A

Metadataprocessingoptimizationindistributedfilesystems

LIULian,ZHENGBiao,GONGYi-li*

SchoolofComputerScience,WuhanUniversity,WuhanHubei430072,China

tract:

ThispaperanalyzedthemetadataprocessinginPVFS2,andtooktheremoveoperationasanexample.Tofindoutthebottlenecksintheremoveoperation,thetimeofeachstepwastested.Andanoptimizationmethodtoreducethemunicationnumberbyplacingjudgmentalprocessontheserversidewasproposed,whichisalsosuitableforothermetadataoperations.TheoptimizationmethodwasimplementedinPVFS2.Comparedwiththeoriginalremoveoperation,thisproposedmethodshowsabout10%improvementinperformance.

英文关 键 词 Keywords:

distributedfilesystem;metadataoperation;processingoptimization;PVFS2

0引言

随着网络应用的迅速发展,网络时代数据规模越来越大,海量数据存储和大规模并发的I/O成为了分布式系统中的瓶颈.单机环境下的文件系统已经不能满足当前网络时代的大容量、高可靠性、高性能、高扩展性等需求.为了有效解决这一问题,工业界和学术界开发出基于各种设计架构和理念的分布式文件系统[1-5].

元数据的管理是分布式文件系统中一个重要的研究内容[6].元数据是描述文件系统组织结构、文件属性和文件数据的数据,在分布式文件系统中,与元数据有关的操作占到了所有操作的60%以上[7].元数据处理的有效性和高效性将影响整个系统的正确性、可靠性、可扩展性和性能提升[8-9].

1相关工作

PVFS2是由Clemson大学开发的一个能在Linux机群上进行并行I/O和并行文件系统研究的实验平台.PVFS2是一个开源的、可扩展的并行文件系统,内部各个部件的模块化程度很高[10].PVFS2支持多个数据服务器和元数据服务器.在文件系统内部进行元数据处理时,包含对以下4种类型对象的操作[11]:

1)元数据文件对象(MetafileObjects).存放文件的所有者和权限,以及对应的所有数据文件对象的句柄,数据文件分布情况,数据文件句柄和数据文件的个数.

2)数据文件对象(DatafileObjects).存放文件的实体数据.

3)目录对象(DirectoryObjects).存放所有者和权限等信息,也存放目录数据对象的句柄.

4)目录数据对象(DirectoryDataObjects).以“文件名:元数据文件句柄”这样的格式存放一个文件的信息,来区分文件和目录.

可以通过图1来说明PVFS2文件系统内各个对象的关系.在文件系统根目录下有一个目录dir,路径为/dir.dir的目录下有一个文件File1,路径为/dir/File1.假设每一个方块代表一个对象.File1被条带化(striping)分成3块部署到3个数据服务器上[12],其中,前两块的大小是PVFS2中默认的64KB.另外,从用户的角度看,目录对象和目录数据对象是相同的,因此只用一个图表示.系统通过句柄来访问这些对象,每一个对象都由唯一的句柄来标识.

句柄是系统中唯一的、类似于整型的标识符,用来标识PVFS2文件系统中的对象.系统中每一个文件、目录都有一个句柄.在客户端与服务器通信时,指明句柄即可处理相应的对象.句柄在本质上就是一个非常大的整数,系统指定句柄值的范围来把句柄空间划分成各个子集.这个子集就是所谓的句柄范围(Handleranges).下面的代码段是句柄范围在源码中的定义,它在文件系统创建时被静态地分配[13].

每个服务器上的PVFS2文件系统负责一部分的句柄空间.在整个系统中,每个服务器上的PVFS2文件系统都有一个唯一的标识符,即文件系统ID.文件系统ID在文件系统创建时由管理工具设定.当发送一个元数据操作请求时,通常需要指定文件系统ID和句柄.句柄范围定义的数据结构如下所示:

参考文献:

[1]MENONJ,PEASEDA,REESR,etal.IBMstoragetank:AheterogeneousscalableSANfilesystem[J].IBMSystemsJournal,2003,42(2):250-267.[2]KARAMANOLISC,LIUL,MAHALINGAMM,etal.Anarchitectureforscalableandmanageablefileservices[R].PaloAlto:Hewlett-PackardLabs,2001.

[3]钱迎进.大规模Lustre集群文件系统关键技术的研究[D].长沙:国防科学技术大学,2011.

[4]李晖,范志华,熊劲,等.机群文件系统DCFS2的高可用性研究与实现[J].计算机工程,2006,32(7):69-71.

[5]WEILSA,POLLACKKT,BRANDTSA,etal.Dynamicmetadatamanagementforpetabyte-scalefilesystems[C]//IEEEComputerSociety2004Conference-BridgingCommunities.NewYork:IEEE,2004:523-534.

[6]杨德志,许鲁,张建刚.蓝鲸分布式文件系统元数据服务[J].计算机工程,2008,34(7):4-6,9.

[7]ROSELLID,LORCHJR,ANDERSONTE.Aparisonoffilesystemworkloads[C]//Proceedingsof2000USENIXAnnualTechnicalConference.Berkeley:USENIXAssociation,2000:4.

[8]胡雨壮.分布式文件系统吞吐率优化研究[D].北京:中国科学院研究生院,2002.

[9]陈欢,范志华,熊劲,等.影响文件系统性能的若干因素的实验[J].计算机工程,2007,33(8):74-76.

[10]PVFS2DevelopmentTeam.Parallelvirtualfilesystem,version2[EB/OL].[2012-05-20].http://.pvfs./cvs/pvfs-2-7-branch.build/doc/pvfs2-guide/pvfs2-guide.php.

[11]KUHNM,KUNKELJ,LUDWIGT.Directory-basedmetadataoptimizationorallfilesinPVFS[C]//Proceedingsof14thInternationalEuro-ParConferenceonParallelProcessing.Berlin:Springer,2008:90-99.

[12]赵铁柱.分布式文件系统性能建模及应用研究[D].广 州:华南理工大学,2011.

[13]DEVULAPALLIA,OHIOPW.Filecreationstrategiesinadistributedmetadatafilesystem[C]//Proceedingsofthe21stInternationalParallelandDistributedProcessingSymposium.Washington,DC:IEEEComputerSociety,2007:1-10.

[14]王梅,罗秋明.PVFS代码结构及并行Meta服务研究[J].微计算机信息,2006,22(16):292-294.

[15]LIAOWK,CHINGA,COLOM,etal.Animplementationandevaluationofclient-sidefilecachingforMPI-IO[C]//Proceedingsofthe21stInternationalParallelandDistributedProcessingSymposium.Washington,DC:IEEEComputerSociety,2007:1-10.

[16]KUNKELJM.Towardsautomaticloadbalancingofaparallelfilesystemwithsubfilebasedmigration[D].Heidelberg:Ruprecht-Karls-UniversitHeidelberg,2007.

[17]CARNSPH,LIGONIIIWB,ROSSRB,etal.PVFS:AparallelfilesystemforLinuxclusters[C]//Proceedingsofthe4thAnnualLinuxShowcaseandConference.Berkeley:USENIXAssociation,2000:28-28.


类似论文

2000—2023年我国电子文件管理元数据综述

摘 要:本文通过文献分析法,对2000——2011年我国有关电子文件管理元数据的论文进行分析总结,以进一步了解我国电。
更新日期:2024-12-12 浏览量:156890 点赞量:34084

分布式文件系统的应用

【摘 要】分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地。
更新日期:2024-10-1 浏览量:17224 点赞量:4805

浅释分布式天线系统

爱立信室内覆盖系列(二)目前爱立信在诸多国内外的室内覆盖项目上都采用了DAS解决方案,大规模地应用于2G和3G室内覆盖项目中 分布式天。
更新日期:2024-10-5 浏览量:17453 点赞量:4771

2000—2023年我国电子文件管理元数据综述

摘 要 :本文通过文献分析法,对2000——2011年我国有关电子文件管理元数据的论文进行分析总结,以进一步了解我国电子文。
更新日期:2024-10-15 浏览量:132590 点赞量:29126

图书馆信息管理中元数据的应用

[摘 要]随着信息技术的不断发展,元数据的应用也越来越广泛,其在图书馆信息管理中也发挥越来越大的作用,很。
更新日期:2024-2-21 浏览量:33496 点赞量:8561

元数据标准MODS的应用

【摘 要】本文论述了元数据标准MODS的内涵、特点及其使用的基本原则,介绍了国外MODS近期应用的一些项目 【关 键 词 】元数据;MODS。
更新日期:2024-2-6 浏览量:7678 点赞量:2771