您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页【精品推荐】2016年最新大数据时代+互联网+智慧交通解决方案

【精品推荐】2016年最新大数据时代+互联网+智慧交通解决方案

来源:化拓教育网
2016年最新大数据时代+

-互联网+智慧交通解决方案

提纲

•大数据带来交通管理上的挑战

•Intel企业级Hadoop平台

•基于IntelHadoop构建智慧交通应用解决方案

大数据时代-数据爆发性增长

统计、分析、预测、实时处理

IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB(1ZB=10亿TB)*Source:McKinseyGlobalInstituteAnalysisSGCrossAssetResearch,PwC3大数据处理速度要求越来越高

•大数据与海量数据的一个重要区别,在于不但数据尺寸大,而且对数据处理的响应速度有有着更高的要求•传统的以周,天,小时为单位的运算处理周期,下降到以分钟,秒为单位

•大数据高价值的重要体现-处理速度

HighutilityDiminishingutilityArchivalvalueHigh

eulVaLow

TimeNegative

数据的多样性

•数据形式的多样:

–结构化数据,数据间有很强的因果关系–半结构化数据,数据间因果关系较弱–非结构化数据,数据间无因果关系

Flatfile•数据来源的多样性:

––––

不同的应用系统各种设备互联网其它

创造显著业务价值(VALUE)

大数据分析

3V特性驱动下创建显著的业务价值

挖掘数据资产价值,通过数据驱动业务,变成本中心为利润中心

©Copyright2011EMCCorporation.Allrightsreserved.

智慧城市-最典型的大数据应用

7

智能交通系统面临大数据的挑战

•海量数据

−城市A:500000个探头,三个月会产生200PB的视频数据

−城市B:12,000个ITS探头,每天20亿条记录,三个月产生•实时计算

−实时数据的采集、扫描、查询和共享−实时事件监测

−准实时的预测分析

•大型跨区域分布式计算

−数据过于庞大,建设中心机房困难

−带宽所限无法将海量数据汇总至总中心−数据多为分中心本地用户访问−数据过于集中,系统风险加大−

总中心投资过大,无法分摊到位

8

1PB的数据

数据处理需求与传统平台扩展能力之间的差距不断增大

大数据处理需要的扩展能力

数据处理需求与传统平台硬件扩展的差距不断扩大

IndustryProgress

云计算技术是有效处理大数据的有效手段

大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存在很多合力的地方。大数据应用是在云上跑的、非常典型的应用。例如尽管电子邮件也是云上的应用之一,但也可以脱离云架构,但是大数据应用必须架构在云设施上。这就是两者的关系——大数据处理离不开云

BigBigData海量数据分析处理向云系统架构演进

传统BI分析

关系型数据库

事务

批处理

数据仓库

非结构化

流式

大数据分析

集群化

组织

分析

多种数据源

(MapReduce)

•结构化数据

•数据规模一般为TB规模

•集中式,为了分析进行大量数据移动,数据向计算靠近•批处理为主

•结构化/非结构化混合分析的能力•数据规模从数十TB到PB级别•分布式,计算向数据靠近•支持流式分析

Examples:

TelcoGovt

Finance

Web

提纲

•大数据带来交通管理上的挑战

•Intel企业级Hadoop平台

•基于IntelHadoop构建智慧交通应用解决方案

什么是Hadoop?

•开源Apache项目,灵感来源于Google的MapReduce和Google文件系(GFS),Yahoo完成了绝大部分初始设计和开发•Hadoop核心组件包括:

-分布式文件系统

-Map/Reduce–分布式计算•用Java编写

•运行平台:

•Linux,MacOS/X,Solaris•普通的X86硬件平台

Map

Shuffle

Reduce

Hadoop之上的常见应用组件

Hadoop.apache.org

PigZookeeperHive•MapReduce的过程化语言接口•高可用分布式协调器•Hadoop上的类SQL引擎HBaseOozie•用于随机实时读写访问的数据库引擎(NOSQL)•工作流式的作业管理器和协调器•可扩展的机器学习库Mahout为什么Hadoop很重要?•非结构化数据暴增:

–估计未来5年,企业的数据将增长650%,其中80%都是非结构化数据

–比如FACEBOOK每天收集100TB的数据,Twitter会有每天产生3500亿的tweets

•非结构化的数据同样蕴藏巨大价值

•需要新方法利用不同类型数据进行业务分析

–ApacheHadoop作为一个分析存储大量数据的关键数据平台出现

Hadoop与“大数据”

•Hadoop是致力于“大数据”处理的最重要平台之一

–能够轻松扩展到PB级别的数据存储,处理规模–带有容错功能的并行处理架构

–基于普通的X86平台硬件架构,硬件成本低廉–用内置格式存储/处理数据

–基于开源项目,拥有当量的代码来源,并且传统厂商也日益重视对其的支持,它已经成为重要的并行处理架构标准之一

Hadoop数据平台创建性的新应用

电信

•详单和账单的采集、存储、实时查询和统计•用户上网记录的采集、查询、统计•用户行为分析,套餐推荐•用户流失性分析

•3G网络优化,流量优化,网间优化•基站参数采集和分析

医疗•电子病历的实时查询、搜索和实时共享

•医疗影像数据的存储和检索•疾病的趋势分析,流行病告警•计算机辅助诊断(疾病分类等)•药物效果分析

•药物相互作用(副作用)分析

部门

•智能交通系统:

交通信息的实时采集、实时统计和实时查询交通信息的实时分析,例如区间测速交通状况的模式分析和优化

•智慧城市安保系统:图像视频的存储、检索和比对。•物联网:传感器数据的实时采集、实时分析和实时告警

金融•非结构化数据(例如签名、影像等)的存储和检索

•准实时的交易统计和分析•交易相关性分析•客户风险分析

•交易监控、合规分析、法规遵从

零售

•统计和分析:准实时的售卖点销售统计

•决策支持:从库存管理、价格制定到新店选址

•新的商业/服务模式:定向广告、优惠券、日常生活助理等

制造•设备参数采集和监控

•感器数据实时采集、分析和实时告警•失效分析和损失预估•预测性分析

Intel提供企业级的Hadoop产品

•IntelHadoop

–经过测试和验证的稳定版本,在生产环境成功部署运营

–包括了Intel针对现有客户在实际使用中出现问题的解决方法以及改进和优化

–基于Intel在云计算研发上的经验积累,提供专业的咨询服务,帮助构建高可扩展高性能的分布式系统

–结合Intel的硬件部门,提供全面的软硬件解决方案

–为Intel硬件平台进行优化,提供更高性能。

ApacheHadoop(Petabytes,batchanalytics)ComplexMPPSystems(<50TB,real-timeanalytics)英特尔企业级Hadoop堆栈

HadoopManagerDeployment,Configuration,Monitoring,AlertingandKerberosStructuredDataCollectorSqoop1.4.1Pig0.9.2DatamanipulationHive0.9.0SQL-likeQueryDistributedProcessingFrameworkFlume1.1.0HBase0.90.7Real-timeDistributedBigTableHDFS1.0.3HadoopDistributedFileSystemCoordinationMap/Reduce1.0.3Zookeeper3.3.5为什么选择英特尔企业级Hadoop大数据平台

更高性能•基于Hadoop底层的大量优化算法,使应用效率更高、计算存储分布更均衡•系统安装程序计算得出的参数配置,适合大多数应用情况•与硬件技术相结合,提高平台性能易于管理•提供独有的基于浏览器的集群安装和管理界面,解决开源版本管理困难的问题•提供网页、邮件和短信方式的系统异常报警企业级服务•全面测试的企业级发行版,保证长期稳定运行•集成最新开源的和自行开发的补丁,用户可以及时修正漏洞•保证各个部件之间的一致性,使应用顺滑运行功能增强•提供跨数据中心的HBase数据库虚拟大表功能•实现HBase数据库复制和备份功能•其他针对企业用户需要的增强功能Intel对hadoop的性能优化

为企业级应用而优化:优化后的HBase与开源版本的性能差异

••

性能数据在8台服务器组成的小规模集群上测试得到

服务器配置:E5-26808核CPU,GB内存,8块7200rpmSATA硬盘,千兆以太网

query/s

350030002500200015001000500

700

600004000020000

OpenSourceHBase

(0.90.3)

OptimizedHDFSI/O

3500

insertion/s

10000080000

82000

25000

0

0

OpenSourceHBase

(0.90.3)

AdvancedRegionBalancing

基于HBase数据库

−平均每秒每服务器插入10000条记录(双路,32GB)(每条记录大约1KB)

−数据查询:平均每秒每服务器大于400次查询,查询时延小于1秒(在不同压

力下0.05秒~0.8秒)

•每次查询返回一个用户一个月的移动详细记录•

21

跨数据中心大表

••••••••

全局虚拟大表

大表数据分区存放在物理分中心多个分中心位于不同地理位置分中心之间由网络互连

接入任何分中心可访问全局数据高可用性

适合本地高速写入

分布式聚合计算,避免大数据传输

分中心A

虚拟大表分中心C

分中心B

直观集群管理工具简化管理

基于浏览器的图形化分布式集群管理软件。它提供配置、安装、管理和优化的工具。•

基本特点:

▪最优配置

集群安装配置向导,自动计算常用▪集群参数全面配置,包括所有Hadoop▪参数和用户自定义参数

史配置

集群配置版本控制,可备份恢复历▪环境

支持有命名服务器和无命名服务器▪加密,系统更安全

支持Kerberos认证和配置通信通道专为Hadoop优化的硬件

网络:新一代Intel四网络口千兆以太网

新一代英特尔®服务器主板产品S2600JF―JeffersonPass‖S2600WP―WashingtonPass‖

新一代英特尔®服务器系统产品I/O:非标准主板设计支持最大I/O

H2000―BobcatPeak‖

电源:高效(80+白金)热插拔冷冗余电源

网络:FDR/QDRInfiniBand高速互联

能效:双CPU分散型设计降低散热功耗

I/O:3至4个PCIE

Gen3x16I/O

内存:按需选择不同内存插槽数量

内存:最大容量适应BigData需求

RAS:单节点散热

易维护性:服务器节点热插拔

存储:支持多种硬盘数量模式,支持最大存储容量,适应BigData需求

电源:高效冗余电源

新一代英特尔®服务器主板产品41

32

高密度:4-Node-in-2U,适用

于计算密集型节点,高效空间利用,降低TCO

S2600GZ―GrizzlyPass‖R2000―BigHornPeak‖

新一代英特尔®服务器系统产品灵活:3种主板SKU提供不同计算能力

为客户提供针对性的设备优化设计

SpecificationDetail单一机架设备可支持20节点服务器Pernode:CPU:2xIntel(R)Xeon(R)CPU8-coreE5-26502.00GHz(Upto40CPUsintotalforonerack)Memory:Maximum384GB(Upto7,680GBforonerack)Storage:Maximum36TB,12x3T3.5’’SATAharddisks(Upto720TBforonerackConnectionEthernet:4x1GbEthernetPortsInfiniband:2xQDR(40Gb/s)/FDR(56Gb/s)ports(withadd-onmodule)Administration:1xsharedordedicatedIPMIv2.0EthernetportRemoteKVM(Keyboard,Video,Mouse)SupportIntel(R)IntelligentPowerNodeManagerPowersupply:2xredundant750WFormfactor:16.7‖Wx16.5‖L(or424mmx419mm)24xInfiniBandQDRports48x1GbEports42UrackpackagingInfiniBandcables:QSFP/QSFP+Ethernetcables:RJ45224-portQDRInfiniBandswitch148-port1GbEEthernetswitchPackagingandaccessories英特尔Hadoop与开源Hadoop比较

英特尔产品增强针对HDFS数据节点的读写选取提供高级均衡算法,提高系统扩展性,适合不同配置服务器组成的集群根据读请求并发程度动态增加热点数据的复制倍数,提高Map/Reduce任务扩展性为HDFS的NameNode提供双机热备方案,提高可靠性开源系统原始实现简单均衡算法,容易在慢速服务器或热点服务器上产生读写瓶颈,最慢服务器成为系统性能瓶颈无法自动扩充倍数功能,在集中读取时扩展性不强,存在性能瓶颈NameNode是系统的单点破损点,一旦失效系统将无法读写无此功能,无法进行跨数据中心部署实现跨区域数据中心的HBase超级大表,用户应用可实现位置透明的数据读写访问和全局汇总统计可将HBase表复制到异地集群,并提供单向、双向复制功能,实现异地容灾在HBase中,根据数据局部性、服务器Region数、表的Region数来实现负载均衡,适合多用户共享集群创建多张大表的应用没有成熟的复制方案只根据Region数量进行负载均衡,容易产生系统不均衡基于HBase的分布式聚合函数,比传统方式提高10倍以上效率实现对HBase的不同表或不同列族的复制份数精细控制HBase的MajorCompaction精细控制无成熟方案无此功能简单算法,容易产生合并风暴Intel提供企业级支持保障

Support24X7X365Global(Phone,Email,Web,onsite)“Follow-the-sun”KnowledgeOnlineBaseDeveloperForumscommittedPatchesEmergencyopensourcetoFixesHotIntelBetaDeveloperProgramCommunityDeveloperandOnlineTutorials,AdminTrainingDocumentationVideos,提纲

•大数据带来交通管理上的挑战

•Intel企业级Hadoop平台

•基于IntelHadoop构建智慧交通应用解决方案

某市智能交通管理系统数据存储处理需求

-海量数据处理和存储的挑战

过车记单个区数据中心录每秒钟每小时~6MB/s1200条记录/s~20GB/hour432万条/小时全市数据总和120MB/s24000条记录/秒~400GB/hour80万条/小时每天三个月每小时每天每月三个月~480GB/day1亿条/天~9.6TB/day20亿条/天~14.4TB/month30亿条/月每月违章车辆图片数单个区数据中心~288TB/month600亿条/月全市数据总和~0.8PB/3months1800亿条/三个月36GB/h据~43.2TB/3months90亿条/三个~1.8GB/h月~43.2GB/day~1.2TB/month~3.6TB/3months~8GB/day~24TB/month~72TB/3months传统关系数据库数据方案

潜在问题:

•初始投入和后期维护,扩展成本巨大•人为分库,灵活性差。•混合数据类型支持

•规模仅能支持单个区域中心

•应用可靠性差,难以保证业务连续性•代码复杂•系统可维护性

基于IntelHD实现智能交通管理

系统规模

系统需求:

•数据量(过车记录+违章图片+数据冗余+异地容灾):~6PB•数据采集终端:12000个,写入性能>24000记录/秒•用户数:>1000集群规模及指标(不考虑应用系统)

•IntelHadoop集群共580台服务器•每台服务器

•12块1TSAS硬盘•48GBDDR3内存

•两路共八核Intel至强服务器

•性能:写入100000条记录/秒,20000主键查询/秒

基于海量数据进行车辆轨迹分析

实时路况信息

区域号牌管理

碰撞分析

。。。。。。。。。。

通过交通流量分析优化道路状态

日小时流量分析

周均流量分析

智能卡口-实时告警

车辆布控报警

视频调度播放

海量并发查询

非现场违法查询

驾驶人违法查询

超速查询醉驾查询

谢谢

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务