


摘要:文章基于重型机械装备制造企业的数字化发展现状.对企业在进行数字化转型中面临的数据孤岛、数据沉睡束发揮价值、数据使用成本较高等问题进行了分析,并深入阐述了数字化转型涉及的大数据相关技术架构,提出了大数据平台建设可选的技术解决方案,为重型机械装备制造企业构建大数据平台技术架构提供借鉴和参考。
关键词:机械装备制造企业;大数据平台;技术架构
中图法分类号:TP311 文献标识码:A
1 概述
1.1 研究背景
作为国民经济的主体,重型机械装备制造企业面临数字化转型的诸多难题和挑战,其中最突出的问题是:传统的“烟囱式” 应用开发模式造成的“数据孤岛”现象严重,使得数据难以发挥价值;诸多业务系统数据(如PDM 系统、ERP 系统)集成度不高,经常出现数据找不到、用不上、不准确等困难;由于数据存储格式、代码标准不统一以及数据质量参差不齐导致数据不可用的现象时有发生;数据出现重复存储,重复计算,取数技术难度较大,对业务人员及IT 人员技术要求过高,造成数据使用成本较高;企业目前的信息化系统繁多,集成度低,缺乏高效可用的数据中心,企业内部的数据资产很难盘点,而且缺乏有效应用服务,数据资产价值也很难评估;信息化技术平台工具繁多,多厂商技术平台集成困难,以至于体验差、运维成本极高。
1.2 问题的提出
本文基于重型机械装备制造企业业务领域的大数据平台构建需求,对其进行了分析,并指出研究方向。在此基础上,如何基于大数据平台生态技术架构,构建重型机械装备制造企业大数据平台技术解决方案是本文的核心研究问题。
2 认识Hadoop 大数据平台
2.1 Hadoop 的起源
Hadoop 是一个由Apache 基金会所开发的分布式系统基础架构,是一个能够对大量数据进行分布式处理的软件框架,主要解决海量数据的存储和分析计算问题。Hadoop 是由Doug Cutting 和Mike Cafarella 于2002 年所创建的Nutch 项目,Nutch 是一个开源Java实现的搜索引擎,目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能[1] 。
2003~ 2004 年,Google 发表了GFS(Google FileSystem,分布式文件系统)和MapReduce(开源分布式并行计算框架)2 篇论文,受此论文的启发,2004 年,Nutch 创始人Doug Cutting 基于Google 的GFS 论文实现了分布式文件存储系统NDFS。2005 年, DougCutting 又基于Google 的MapReduce 论文,在Nutch 搜索引擎实现了该功能,同年Hadoop 作为Lucene 的子项目Nutch 的一部分正式引入Apache 基金会。2006年2 月,Nutch 被分离出来成为一套完整独立的软件,命名为Hadoop,它是以Doug Cutting 儿子的毛绒玩具象命名的,Hadoop 起源于Google 的三大论文,GFS 对应演变为HDFS, Google MapReduce 对应演变为Hadoop MapReduce,Big Table 对应演变为HBase[2] 。
2.2 Hadoop 的核心组件
在大数据时代,如何解决大规模海量数据存储和分析是关键,而Hadoop 项目作为大数据处理的框架,其核心功能就是分布式存储(HDFS) 和分布式计算(MapReduce)以及资源管理调度器(YARN),下文介绍Hadoop 的核心功能。
(1)分布式文件存储HDFS。
HDFS 源于Google 发表的一篇GFS 的论文,是描述Google 内部的一个叫做GFS 的分布式大规模文件系统,其具有强大的可伸缩性和容错性,之后DougCutting 以GFS 的论文思想为基础,开发出了一个新的文件系统叫HDFS,并在此基础上形成了一个单独的子项目,最终成为Hadoop 的核心组件之一。作为大数据生态最底层的分布式存储文件系统,其主要解决海量数据的存储问题,HDFS 将数据存储在物理分散的多个存储节点上,然后对这些节点的资源进行统一的管理与分配,并且提供统一的访问接口,像是访问一个普通文件系统一样使用分布式文件系统。
(2)分布式计算MapReduce。
作为Hadoop 生态的分布式计算组件,MapReduce是一种并行编程模式,采用了分而治之的思想———先分后合,适用于大规模数据的并行处理,其工作原理是将待求解的复杂计算问题,先分解成若干规模较小的问题,然后分别求得各部分的结果,把各部分的结果进行合并, 最后得到整个问题的最终结果。

