运用Hadoop高效存储海量碎片文件的方法

来源：化拓教育网

数据库技术·Ｄａｔａ　Ｂａｓｅ　Ｔｅｃｈｎｉｑｕｅ　运用Ｈａｄｏｏｐ高效存储海量碎片文件的方法　文／刘扬刘冰　实现，故选取稳定的Ｏｐｅｎｊｄｋ一８－ｊｄｋ版本进行　要放在内存中。其中，ｓａｖｅＦＳｌｍａｇｅ方法（　Ｉ妻篓　萎曩萎　窆萎量差　粪　Ｊａｖａ环境的配置。　完成伪分布式ｈａｄｏｏｐ部署后启动　数代表内存元数据将要保存的位置，磁盘ｆ　有块空间，对元数据进行持久化存储，　ｈａｄｏｏｐ将预先准备好的７５Ｋ个文件从本地存　ｆｓｉｍａｇｅ，如果直接读取磁盘文件，速度｛　储到ｈｄｆｓ分布式文件系统中，在一次性存储　跟不上，内存中也要放一些元数据信息，　如此大量文件时，虚拟机出现了短暂性死机情　况，几分钟后，ｓｈｅｌｌ出现大量警告，如图１。　着手开始分析出现警告的原因，使用ｈｄｆｓ　ｓｈｅｌｌ命令查看ｈｄｆｓ分布式文件系统上存储数　据的文件，发现只有部分文件被成功的从本地　存储到分布式文件系统，这说明所执行的命令　没有错误。那究竟是什么原因导致还有大量的　很容易丢失，但可以提供查询服务，实际　是读写分离．由读写分离就有了数据一致ｔ　问题，因为写入数据，没有写入内存中，　的元数据记录在哪呢？实际上是记录在‘　小的文件中，这个文件不提供修改，只提ｆ　加，以日志的形式记录，一直都保持着，Ｌ　大小，名为ｅｄｉｔｓ＊＊＊．１ｏｇ，比如在卜传‘　文件没有被成功存储到分布式文件系统上？带　【关键词】Ｈａｄｏｏｐ碎片化　存储文件的相关资料。　首先，ｈｄｆｓ分布式文件系统的存储分　件时，先对ＮＡＭＥＮＯＤＥ进行询问，往哪里！　信息记录ｅｄｉｔｓ＊＊．１ｏｇ，当完成一个副本的！　工作后，通知ＮＡＭＥＮ０ＤＥ，被认为是写　功，这时，将ｅｄｉｔｓ＊＊．１ｏｇ的数据更新至内　着这个疑问，开始查询ｈｄｆｓ分布式文件系统　ＮＡＭＥＮ０ＤＥ一边分配一边记录，将空间　为元数据存储和真实数据存储，元数据存　在日前　位使用的综合管理信息系统中，　储在ｎａｍｅｎｏｄｅ节点上，真实数据则存储在　此时，内存中的数据是最新的，即使现在断　ｄａｔａｎｏｄｅ节点上，结合本次实验环境，所部署　最新的元数据在ｅｄｉｔｓ＊＋．１ｏｇ也有保存。　的是ｕｂｕｎｔｕ下的伪分布式ｈａｄｏｏｐ，ｄａｔａｎｏｄｅ　既然如此，之前遇到的警告就是因　　节点和ｎａｍｅｎｏｄｅ节点在同一台虚拟机上，所　存的原因使得件没有全部都存储到ｈｄｆｓ以元数据和真实的数据都是存储在同一台虚拟　式文件系统中，有一部分存储成功，很容　机上的。在分析原因的过程中，我注意到了　一应用层中体现为多用户并发访问系统出现数据　传输过慢造成大量的数据延迟，系统卡死以及　用户掉线的情况。在系统底层体现为ＣＰＵ和　内存使用率长时间保持　较高状态。　为Ｊ，优化并提高系统整体效能，从根本　ｌ二解决系统碎片化处理问题，找到解决碎片化　人联想到是不是因为内１字不足导致的呢？　Ｎａｍｅｎｏｄｅ元数据在内存中所占空间自　个地方，就是ｈｄｆｓ分布式文件系统不适合　处理的方法和机制，所以我们进行了本次实验。　实验环境如衷Ｉ所示。　实验选取功能相对ＶｉｒｔｕａｌＢｏｘ更强的　　做的事一一存储大量小文件。因为ｎａｍｅｎｏｄｅ　算方法如表２。元数据在内存中所占空间包禽文件　要存储ＨＤＦＳ的ｍｅｔａｄａｔａ（比如目录的树状　结构，每个文件的文件名、ＡＣＬ、长度、　ｏｗｎｅｒ、文件内容存放的位置等等信息）会受　到ｎａｍｅｎｏｄｅ内存的。分析到这里似乎找　到了出现警告的根源。　根据分析得知ｎａｍｅｎｏｄｅ节点的元数据需　两部分，由于实验环境为伪分布武Ｈａｄｏｏ　文件块的副本数目为一，忽略文件名长度　算结果的影响，分步计算过程如下：　文件所占内存：　７５０００＊】００＂ｌ０００Ｂ≈７５０ＭＢ　ＶＭｗａｒｅ　Ｗｏｒｋｓｔａｔｉｏｎ虚拟机软件，以学院服务　器使用的Ｕｂｕｎｌｕ】６．０４作为虚拟机的操作系　统，同时使用稳定的Ｈａｄｏｏｐ一２．７－４部署伪分布　式Ｈａｄｏｏｐ实验环境，Ｈａｄｏｏｐ的源代码由Ｊａｖａ　图１　１６６·电子技术与软件工程Ｅｌｅｃｔｒｏｎｉｃ　Ｔｅｃｈｎｏｌｏｇｙ＆Ｓｏｆｔｗａｒｅ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｄａｔａ　Ｂａｓｅ　Ｔｅｃｈｎｉｑｕｅ·数据库技术　ｌ　ｌ　Ｉ　＼　＼［¨ｅ　ｌ　．　／Ｉ　Ｆ　ｅ　Ｉ　ｅ　毒　Ｉ　图３：归档丈件建立成功　图２：ＨＡＲ　Ｆｉ　ｌ　ｅ布局图　块所ｌＩｉ内存：　５０００　（２５０　１　０００Ｂ＋２４　１　１≈７５０ＭＢ　优化前内存　使用情况　优化后内存　使用情况　汁ｔ算无数据需要总内仃：　７５０ＭＢ＋７５０ＭＢ＝１．５ＧＢ　然而这｝｛足＇卡｝｛略计鳟，　ｒｆ】并没有包禽　块信息和其他信息．实际情况会比所汁算的结　果彩　｝　多。通过使用ｈｄｆｓ的ｏｉｖ和Ｉｓ这两　口　圈４　个命令测得ｎａｍｅｎｏｄｅ　际使用内存大约２．２Ｇ，　而　实验环境ｒ｝】分给虚拟机内存『哪ｒ足２．５Ｇ。　直到现舀　，之　ｄ遇到的Ｍ题才真Ｊ　得到【Ｊ　确　的解答。训：我更进‘　地ｒ解ｈｄｆｓ分布式史　什系统行储的机制。ｈｄｆｓ分布式丈件系统无法　舟效完成对海最碎片文件的仃储，仔细想　想　的足这样，Ｌ　个文什会【　据２　２Ｇ内仃的　硬件资源，那七ｒ‘万个文件，７，　七亿个文件，　访ＩＵ铒‘个史　：，ｆ【Ｊ足＿ｊ｛汝彳Ｊ‘　ｊ　门　缩的Ｊ：　能，　除此之外，ａｒｃｈｉｖｅ艾什　Ｉ　ｆ刨建就厄法Ｌ　变，　这就意味这你硬改　创建ａｒｃｈｉｖｅ丈件　提高　并　ｆ１：系统响Ｊ、　币【】ｊ１：技响Ｊ、　ｔＩ　也彳丁』，｝　人的提－　，这样　来我们－　以行…十勾建　ｊ炙　ｑ的Ｉ．　，你　雨　ｒ】　力　ｘ　Ｊ＿】　Ｊ　化处Ｊｑ！ＪＢ￣』　数｛ｌ　ｆ¨　ｅ化｝‘分仃　ｌ效，也址找ｆｆｊ找…Ｊ　这样　策系统优化ｆ¨提　ｎ勺新思路．．　Ｈａｄｏｏｐ　ａｒｃｈｉｖｅ　ｌＩ１包禽　将会　据多少的内仃硬什资源，而‘个夫型的　分佑式系统，　存储大文件时所，　，｝　的“碎片”　文件的数量足　叮预估的，　务之急足针对这　个问题提出‘种行之有效的解决，Ｊ法。　１　提到的Ｎａｍｅｎｏｄｅ元数据所需内存　的计静公式　｝ＩＩ注意剑所需内存大小　文件名　长度彳『很人笑系，那么，如果能够找到‘种方　法，能够像ｗｉｎｄｏｗｓ和ｌｉｎｕｘ操作系统７ｊ『５样吱　现对艾什的　缩，魁／ｆ　是能够仃效的解决这个　问题呢？　两种文什，分刖屉　数据和数　艾什，兀数据　以两利』形式仃　：一文ｒｆ－，　从　一ｉｎｄｅｘ手¨ｍａｓｔｅｒｉｎｄｅｘ　ｉｎｄｅｘ丈什ｔＩ　包　Ｊ　ｌ』　丈　一所　】２所示彳１　局　巾　Ｕ以　…，　参考文献　［１］查礼．基于Ｈａｄｏｏｐ的大数据计算技术［Ｊ　科研信息化拔术与应用，２　０１　２（Ｏ　６）．　丈什的史川：　车¨位置　息。　Ｍａｓｔｅｒｉｎｄｅｘ指１６Ｊ　ｉｎｄｅｘ．ｉｎｄｅｘ的捋个部分则　指向ｄ－：同的数拥，这种　局他　ｒ类似ｊ　卜｛录的功能，而　件埘ｒ用　，来说义是透叫的，用　丈什吱现　什ｒ㈨Ｉ　数捌逻　ｊ　作者简介　刘扬（１　９８　２－），男，山东省济南市人．　大学　本科学历，初级职称　研究方向为软件工程，　叟件后仍然能够商接访Ｍ　ｌＪ』！Ｊ　的数据迎仆，唯　－ｆ内缺点就是没有实．ｆ！Ｊ【！．数据迎加的功能，　‘　档文件被创建，ｆｃＩ＝ｌ果想　实现划０　｛义什　容的调整，就　３能蘑新创建　］档史什。　通过　４所示效能比埘　我们－　以　…　越系缆憾　繁峨ｒ　Ｈａｄｏｏｐ　Ａｒｃｈｉｖｅ玛｛羞辱　！　照原有系统　砰”哈数据处理　惭行ｒ较大的　现从事一线教学工作　刘冰（１　９　９　７一），男，山东省雄坊市人．．山东　这　就要探讨‘种ｈｄｆｓ存储海量“碎　片”文件的解决方法　ＨａｄｏｏＤＡｒｃｈｉｖｅ。　它足通过ａｒｃｈｉｖｅ　Ｉ：具来将多个史件建立为　文件，这种归档文什并不同ｊ－．ｗｉｎｄｏｗｓ和　电子职业技术学院大二学生　作者单位　山东电子职业技术学院　山东省济南市　２　５　００００　ｌｉｎｕｘ操作系统卜的　缩定件，荫’先９１档文件　的扩展名足　．ｈａｒ，≯¨１．　归　后还ｕＪ以直接　Ｅｌｅｃｔｒｏｎｉｃ　Ｔｅｃｈｎｏｌｏｇｙ＆Ｓｏｆｔｗａ　ｒｅ　Ｅｎｇｉｎｅｅｒｉｎｇ电子技术与软件工程·１６７　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文