Spark on Yarn模式的电信大数据处理平台
作者 纪贵
发表于 2023年7月

摘要:针对电信大数据处理系统中存在的问题,文章提出一种基于Spark on Yarn模型的SY-TPP。在SY-TPP平台上,应用Hadoop2.0 Yarn标准,并利用Spark分布式存储技术,将SY-TPP系统的数据在内存中进行集中处理。以分级聚类算法为案例,对SY-TPP平台的开发过程进行了详细的分析。实验结果表明,TPP平台上的GB级用户可以在半个工作日内完成数据处理,而32个实体节点的sYTPP系统的速度比相同配置下的Map Rcduce平台提高了10.25倍。

关键词:电信;大数据处理;Spark on Yarn模式

中图法分类号:TP311 文献标识码:A

1 引言

Map Reduce 的首个版本是MRvl, 而Yarn(Yeanother resource negotiator) 在一定程度上弥补了MRv1 的不足。MRv2 的Yarn 可以被看作是一个专门针对大数据处理的资源分享架构, Yarn 的一個更好的实现方式是Spark On Yarn,这是由于Spark OnYarn 能够最大限度地存储数据,发挥Spark 的分布式存储能力。本文对其设计思路和具体实施流程进行了详细的介绍,其在通信领域中的应用性能优于以往的串行运算和Map Reduce。

2 SY⁃TPP 平台的设计思路

2.1 总体设计思想

SY⁃TPP 是一个云计算平台,若要实现服务理念,则必须将互联网上的虚拟资源按照租用的形式提供给用户,尽可能地将大数据碎片集中到存储器或本地磁盘上,并减少子任务重启或存取磁盘的I/ O 开销。

在功能实现上,将SY⁃TPP 分为4 个模块:存储和访问、资源分配和调度、应用执行、用户。其主要功能包括在自治区域中共享闲置计算资源、处理电信大数据应用、电信数据分级聚类算法、电信数据分类算法等。

2.2 大数据存储与访问模块

该模块充分发挥了Hadoop 框架的优点,由于Hadoop 的分布式档案管理系统能够储存大量的资料,使得大量的资料能够跨越多个实体的节点。但Hadoop 中的MapReduce 规格也有一些限制,即每次启动都需要消耗大量的磁盘资源,导致系统的运行速度会越来越慢,而Spark 的内存架构则会让整个系统的数据存储和存取能力得到极大的提升。

2.3 资源分配与调度模块

基于上述分析,由于云计算采用了虚拟化技术,在资源分配和调度方面,其子任务以一种虚拟机形式存在,在一些文献中被称为“工作单位”,它可以在实际的实体节点上运行多台虚拟机器(工作单位),因此需要考虑调度策略、容错策略等。

调度策略所要解决的问题就是如何将虚拟机分配到最适合的实体节点上,并需要采用某种策略。比如,要考虑物理节点的负载最小、物理节点的可靠性最高、物理节点的硬件配置最高、CPU 使用率最小等。

最好的效果是通过虚拟机器,可以让SY⁃TPP 平台在最需要的实体上进行动态的定位。因此,在SY⁃TPP环境中,虚拟机的排程是一个非常关键的问题。

在SY⁃TPP 系统中,一些物理节点由于故障而退出,因此需要进行资源配置和调度,以保证系统整体的正常运转。基于此,SY⁃TPP 平台采用了冗余的方法和高效的策略,即数据的冗余度和分布式存储,以确保数据的可靠性。

3 平台业务功能需求说明

3.1 解析数据说明

在这个平台中,最主要的输入文件就是大量的LTEMR 测试报告,其描述如下。

在TD⁃LTE 系统中,3 GPP 技术标准作为一个系统的重要组成部分,它的作用是显而易见的。这种测量报告可以定期上报,也可以根据事件向系统汇报,定期上报的话,会根据时间的长短自动上报,若以事件为基础,则不会给出这样的定义。测量报告是由真正的使用者提供的,这样可以让使用者更好地掌握网络的运作。通过对数据的统计与挖掘,可以对大量的网络问题进行分析。测量数据比路测有较多优势,其采集费用低,且数据量大,即使是在不能到达的地方,也能得到相应的信息。

本文刊登于《计算机应用文摘》2023年13期
龙源期刊网正版版权
更多文章来自
订阅