云计算与大数据分析平台

云计算与大数据分析平台

发布时间:2016/8/11 16:13:59   分类:云计算与大数据分析平台

1.产品介绍


1)平台基于Spark分布式并行处理框架

考虑到大数据分析处理平台中诸多的数据分析模型,诸如聚类分析、回归分析、迭代分析等分析过程,外加生产过程全批次采样数据,平台并没有采用传统的分布式并行计算框架MapReduce,而是采用基于RDD(Resilient Distributed Datasets,弹性分布式数据集)的Spark分布式并行处理框架,满足大数据分析过程的短耗时需求。同时,经实际试验验证,采用Spark分布式并行计算在处理高迭代的数据分析中相比MapReduce计算可提供更为高效的计算效率优势。

2)平台采用Spark Streaming流式处理组件

Spark Streaming是大规模流式数据处理的新型框架,其将流式计算分解成一系列短小的批处理作业。针对全批次工艺质量生产数据分析,需满足如下几个要求:

 复杂的批量数据处理,通常的时间跨度在数十分钟内。

 基于历史数据的交互式查询,通常的时间跨度在数十秒到数分钟之间。

 基于实时数据流的数据处理,通常的时间跨度在数百毫秒到数秒之间。

可以利用MapReduce来进行批量数据处理,对于流式数据处理,我们可以采用Storm,但是对于全批次生产数据的工艺质量分析,则会同时出现对以上要求,此时采用MapReduce或者Storm就无法满足各个计算过程中数据的无缝接入,以及在计算过程中对各个系统的资源调配就变得更加困难。因此,平台采用Spark Streaming组件进行流式处理,达到以下几个优点:

容错性:每一个RDD都是一个不可变的分布式可重算的数据集,记录着确定性的操作继承关系,所以只要输入数据是可容错的,那么任意一个RDD的分区出错或不可用,都是可以利用原始输入数据通过转换操作而重新算出的。

实时性:对于Spark Streaming而言,其最小的Batch Size的选取在0.5~2秒钟之间(Storm目前最小的延迟是100ms左右),所以Spark Streaming能够满足实时性要求非常高的流式准实时计算场景。

扩展性与吞吐量:Spark目前在EC2上已能够线性扩展到100个节点(每个节点4Core),可以以数秒的延迟处理6GB/s的数据量(60M records/s),其吞吐量也比流行的Storm高2~5倍。

3)平台集成统计与分析建模R软件

平台集成统计与分析建模R软件,可实现单点中数据分析模型的建立,在单点数据分析模型建立完成后,再将相应的分析模型进行分布式并行计算重构,这样从单点至全批次数据全面的建模过程,在降低大数据分析建模难度的同时,还大大提高了整个平台建模过程的效率。

同时,综合考虑分析平台的部署问题与平台稳定性,平台采用部署代价相对较小且较为稳定的VMware虚拟化环境平台。

2.应用案例

该产品已在红云红河烟草(集团)有限责任公司取得成功应用。解决了烟草行业“两化融合”的背景下,工艺质量管控工作涉及业务面广、数据量大的业务实时管控、分析难题。运用大数据挖掘技术建立科学客观的全批次工艺质量评价体系,提供生产技术标准执行力、适应性的评估与预警能力,构建智能化云平台,实现评价全过程的可视化和可追溯化,推动传统工艺质量管控模式向智能化全过程精益管控模式转变。



地址:昆明市一二一大街文昌路68号 邮编:650504

Copyright © 2016-2021 昆明理工大学复杂工业过程检测、控制与优化重点实验室 All Rights Reserved