您的位置: 网界网 > 评测 > 正文

大数据可以很简单

 ————知意图Hadoop-Based大数据一体机评测

2013年04月21日 16:27:27 | 作者:《网络世界》评测实验室 董培欣 | 来源: | 查看本文手机版

摘要:在这海量的数据面前,我们要如何应对?是像扔垃圾一样将其丢弃,还是通过深度的分析整理,从中将有用的信息挖掘出来?这个答案是不言而喻的。但是我们要通过什么手段,才能将如此繁杂并且大量的数据进行整理呢?Hadoop或许是目前较...

标签
知意图
大数据
大数据一体机
Hadoop

评测亮点:

自动化的集群部署

全系统的高可用性

高效能的处理能力

大数据[注]的应用需求

伴随着互联网、物联网的飞速发展,我们已经进入到了一个数据化的生活时代:从医疗购物,到航空航天,数据无时无刻不伴随在我们左右,从网络购物,到手机通讯,我们的一举一动均会有大量的数据产生。

在这海量的数据面前,我们要如何应对?是像扔垃圾一样将其丢弃,还是通过深度的分析整理,从中将有用的信息挖掘出来?这个答案是不言而喻的。但是我们要通过什么手段,才能将如此繁杂并且大量的数据进行整理呢?Hadoop或许是目前较为理想的一个选择,Hadoop可以通过利用高性价比的x86服务器集群,在一个简单的网络环境中,搭建出一个并行处理、分布式存储的基础平台,实现大数据的存储、分析和管理。

Hadoop是一个技术专业性很强的开源项目,系统的规划、部署及运维等工作极其繁琐,但由于相关专业人才的相对匮乏,造成hadoop在企业用户中的建设、落地举步维艰。

如果不能有效的提升Hadoop的易用性,在现有的市场、技术环境下,企业用户很难基于Hadoop完成大数据平台的部署建设。面对这样的现状,预置了hadoop环境并对其进行了调优的一体机类的产品,就成为了企业用户的首选。为此,《网络世界》评测实验室,特别针对hadoop一体机的代表性产品,Etu知意图推出的“知意图Hadoop-Based大数据一体机(Etu Appliance)”(以下简称“知意图一体机”),进行了部署易用性、系统高可用性以及平台整体性能三方面的评测。


知意图Hadoop-Based大数据一体机

简便快捷的集群部署功能

知意图一体机架构清晰,大数据的存储与计算全面集成于一体,这样处理前的原始数据、数据萃取处理后的知识结论,可以统一放在 Etu Appliance 集群中,以供随时调取,通过独家的软、硬件集成设计,数据处理流程与系统软件的全程优化,实现高效并行计算,同时,为了更加适应企业用户的需求,知意图一体机还特别注重了高可用性、自动化部署、线性扩容、易于维护,以及开放应用等多种功能及特性。为了对知意图一体机的功能及应用性能进行验证,《网络世界》评测实验室对知意图一体机进行了一次系统、全面的功能部署及处理性能的验证性评测。在测试过程中,我们对知意图一体机的部署时间,及数据处理性能分别进行了测试与记录。(测试拓扑参见图1)


图1:知意图Hadoop大数据一体机测试拓扑

网络部署应用评测

安装或部署过开源的Hadoop集群的用户可能会了解,成功搭建一个Hadoop集群并非是一件简便容易的事情。首先要安装操作系统、集群服务、监控服务以及 Hadoop 相关的各种服务组件,其次还要修改各类的参数配置文件……这一切均顺利完成了,还要在心惊胆战中祈求可否顺利启动,因为一但失误还要再反反复复的进行纠错。可以说Hadoop开源系统目前尚未能向用户提供一个十分友好的安装部署机制,只能靠用户自己去不断的进行摸索。知意图一体机在部署上是否也是如此呢?我们对知意图一体机的集群部署工作进行了一次实地评测。


图2:知意图Hadoop-Based大数据一体机部署实拍

知意图一体机采用了渐进式扩容模式进行运作。最小集群仅须3个节点(1个Master Node+2个Worker Node)就可以满足用户Big Data处理任务的需求,在保证用户业务连续性的同时,还可以不断增加Worker Node实现集群的横向扩容。

在测试过程中,我们将所有被测设备恢复出厂默认设置后,连入了一个独立的二层千兆网络。为了准确测试设备的部署时间,我们在知意图一体机网络连接好后,对其Master节点和两个Worker节点分别加电,并从接通电源开始计算一体机的部署时间。此时知意图一体机的简便部署特性被充分的体现了出来:接通电源后,利用浏览器进入其默认分配的http://192.168.70.199管理页面,在这里我们先将License进行了导入。再对知意图一体机所需使用的集群信息进行设置,然后在无需再对知意图一体机进行任何设置的情况下,其Master节点用时3分12秒顺利配置完毕。(具体过程参见图3、图4)

图3:知意图Hadoop-Based大数据一体机License界面

图4:知意图Hadoop-Based大数据一体机集群设置界面

随后,我们分别对两个Worker节点设备进行了添加操作(知意图一体机的多个Worker节点可以同时进行添加操作,但为了准确分析,我们在测试过程中采取了逐台添加的方式进行测试)。由于在Master节点部署时已经导入了相应的License,因此同样在无需任何设置的情况下,开启电源后用时5分22秒第一台Worker成功上线,开启第二台Worker电源后用时3分44秒第二台Worker上线。至此,知意图一体机1+2 的Hadoop集群系统完全部署完毕,逐台顺序部署共计用时12分18秒(如果两个Worker节点同时开机,总部署时间将更短)。

HA应用部署评测

Hadoop集群做为企业大数据存储及分析处理的核心平台,必然需要在“高可用性”(High Availability)方面预先做好充分的准备。而作为企业用户Hadoop一体机的首选,知意图一体机在高可用性部署及HA切换时,有什么样的性能体现呢?为此,我们同样对知意图一体机的高可用性同样进行了测试。在hadoop.apache.org的开源网站上也有Hadoop HA的参考官方文档,我们在网上收集了一下Hadoop 开源系统的HA部署关键步骤,除了这些步骤之外,还需要自己定制化编写代码来控制除了Namenode 以外所有的服务,如各项集群服务,网络服务,海量资料处理组件的服务,如果一切顺利的话,用几周的时间才能将一个Hadoop 集群的HA功能完整实现,而一但在调试中出现问题,部署时间更将难以进行估计。相比来看,知意图一体机的HA部署过程就简单了许多:在部署知意图一体机HA时(+本站微信networkworldweixin),我们采用了2+4节点的部署方式(2个Master节点、4个Worker节点)。在进行HA部署时,我们只需要将这些节点的License预先导入后,开启服务器电源,静待3分44秒后,知意图一体机的Standby Master即部署完毕了;更为重要的是,每次发生故障导致主备Master节点的切换后,故障节点都会被关机并退出集群,要恢复HA状态需要再进行一次完整的HA部署过程,这个部署过程在HA的运维过程中难免要进行多次。

随后我们通过知意图一体机的管理界面对Master节点进行了手动的切换,在用时4分25秒后主Master节点的工作全部迁移到了备用Master之上(包括Hadoop所有组件服务以及系统的NTP、DNS、DHCP等服务)。之后我们又通过拔掉Master网线的方式模拟网络连接出现故障,在用时3分09秒后Master节点再次迁移成功。最后我们恢复网络连接后,再一次试着将Master上的关键服务进程Kill掉,Master节点又一次迁移,3分21秒后知意图一体机集群又可以顺利工作。

通过以上测试我们可以了解,知意图一体机在进行高可用性部署之后,无论Master节点是在手动切换、网络故障或核心服务进程出现故障的情况下,均可在很短时间内进行可靠迁移,有效地保障Hadoop集群的稳定运行,从而有效的保障企业大数据分析及存储应用的可靠运营。

高效快速的应用数据分析

当企业进行大数据统计分析时,并非仅将Hadoop集群成功部署就算大功告成了,Hadoop集群的处理性能,在实际应用中也至关重要。为此,我们特意采用Hadoop自带的TeraSort排序测试工具对知意图一体机的大数据分析处理能力进行了一次评测。

TeraSort性能测试

TeraSort是SortBenchmark的一个排序评比项目,要求通过数据生成工具(teragen)生成一行行100字节的记录,每行记录包括一个10字节的Key,通过计算实现以Key来对记录排序。由于这个测试程序的实用性较强,因此被Hadoop集成在了examples功能包之中。

本次我们就利用TearSort对知意图一体机进行了20亿行、50亿行、100亿行teragen数据生成及排序的性能进行了测试。

为了充分挖掘知意图一体机的处理性能,在测试过程中,我们针对Terasort的应用特点优化了一体机的相关参数。由于知意图一体机在产品设计之初,特别为其定制的Etu OS操作系统就为Hadoop系统的运行进行了全方面的专业技术优化,再通过Terasort的测试进行系统调优,知意图一体机的排序处理速率达到了最高每节点每秒82.04MB,三次测试的处理速率最低也保持在每节点每秒80.MB以上(具体结果参见表1)。即便不针对Terasort的测试进行一体机参数优化,全部采用出厂默认设置,知意图一体机每节点每秒排序处理速率也可以达到每节点每秒20.9MB。而基于主流的开源Linux系统(例如CentOS等)自行搭建的Hadoop集群,即使完全采用一体机出厂的默认设置,处理性能仅为6.1MB每节点每秒。由此可以看出知意图一体机在Hadoop数据处理性能方面的强劲优势所在。

表1:知意图Hadoop-Based大数据一体机TeraSort性能测试结果

大数据渐行渐近

通过上述评测,我们可以了解,知意图Hadoop-Based大数据一体机在Hadoop集群部署、高可用性,以及Hadoop应用处理性能方面均比传统的Hadoop系统部署有了本质上的飞越。正如知意图一位技术总监向我们做的比方,用户可以利用服务器自己搭防火墙,但这要涉及很多专业性的知识,因此用户通常还是会选用专业网络安全厂商提供的防火墙产品。

Hadoop也是如此,知意图一体机的出现,解决了用户对Hadoop系统搭建方面的困难,可以使用户更早地开始进行大数据的收集整理工作,而其分布式的系统架构,也可以让用户在数据业务增加时轻松的进行扩容,逐步的完善自身的数据系统。从而尽早实现对企业大数据信息系统应用管理工作。

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:董培欣 dong_peixin@cnw.com.cn]