从历史数据库到大数据制造业的晋级之路__大数据

从历史数据库到大数据制造业的晋级之路

2016/5/30 17:05:08

面向大数据的信息获取和整合分析已成为工业4.0时代制造企业的必修课。越来越多的企业正在选择通过利用无数相互连接的数据库系统的支持，来获取越来越大量的数据，然后与企业的物流销售等系统融合分析，优化业务发展。

然而对于制造业来说，大数据并非从天而降。事实上，自上世纪80年代制造业已经开始依靠历史数据库来管理大量相关的制造业务数据了。

洞察力从大数据开始

曾经制造业的历史数据库关注的焦点在于通过专门的软件应用程序对相关数据进行有效地收集、存储、检索、按照时间序列显示和优化。历史数据库是含有一个以测点名称字段和时间字段为关键字的一张表，这张表的另外的一个重要的字段就是数值字段，用来存储测点的采集值，除了这些字段，还可以包含数据的状态，数据质量字段等。随着时间的变化，不断地将实时数据库中的实时数据进行压缩过滤，并更新磁盘历史数据文件中的表里的数据。用户可从此数据库中查询生产实时数据的历史样本值或历史插值数据。

工程师、操作人员、管理人员都可以通过历史数据库来查看趋势变化，可以实现近实时关键指标（KPI ）的跟踪，并能与实现性能的比较。通过历史数据库，相关人员还可对设备故障做出预诊断，提前发现潜在问题。

正是由于准确有效的历史数据一直以来对工作持续的改进作用，从而，使得在制造业中，到现在还是有着丰富多样的自动化系统历史数据库解决方案。历史数据库解决方案的容量和吞吐量是非常容易辨识的标志，但，其解决方案的真正差异其实是聚焦在数据公开、方便的收集与分析方面，如果从多个分布源甚至包括不可靠的网络连接环境下，可靠有效的获取数据才是历史数据库解决方案的核心所在。

工业数据关注的焦点

虽然每个历史数据库中都包含某个核心的数据库，但真正使数据库成为发挥作用的应用软件程序，则是需要使数据成为优化的时间序列数据，即，温度、压力、流速等相关监测数据之间具有相关联的时间戳和参数，处理后的数据也被称为TVQ（时间、数值和属性）。同时，需要依据系统情况确认数据收集的频率，比如是每毫秒或一小时收集一次。通过时间戳将数据做分类，建立分类的数据库，以便更有效率的存储更大量的数据，以便更快速、轻松、更通用的完成对数据的检索。

关系数据库，是指采用了关系模型来组织数据的数据库。关系模型是在1970年由IBM首先提出，在之后的几十年中，关系模型的概念得到了充分的发展并逐渐成为数据库架构的主流模型。简单来说，关系模型指的就是二维表格模型，而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。

关系型数据库有着以下特点：1、容易理解：二维表结构是非常贴近逻辑世界的一个概念，关系模型相对网状、层次等其他模型来说更容易理解。2、使用方便：通用的SQL语言使得操作关系型数据库非常方便，程序员甚至于数据管理员可以方便地在逻辑层面操作数据库，而完全不必理解其底层实现。3、易于维护：丰富的完整性（实体完整性、参照完整性和用户定义的完整性）大大降低了数据冗余和数据不一致的概率。

目前，关系数据库广泛应用于各个行业，是构建管理信息系统，存储及处理关系数据的不可缺少基础软件，如ERP，MIS，EAM等系统。关系数据库也是用于分析数据之间的复杂关系的强大工具。但并不适合记录大量的高速运行的数据。幸运的是，结构化查询语言（SQL）的出现，使得关系数据库拥有了更强大的能力和手段，很容易适应其他类型的数据库，包括非关系型数据库。此数据库结构主要用于快速存储和检索数据，数以百万计数据可以被批量处理。这也意味着，可以将数据备份到应用上，如趋势分析或快速处理包。与关系数据库的对比，实时历史数据库可以记录，包括变量名、数值、属性和时间戳等文件。

虽然数据存储越来越便宜了，但是，每年好几个TB的关系数据仍然是数据管理的一大难题。为了尽可能的保留实际数据的细节，同时又能节省内存，通过采用50:1的“低损失”压缩算法。

数据的完整性

数据的完整性一直是保证历史数据库实际应用价值的关键。如果用户不能相信的数据是准确和完整，历史数据库永远不能发挥它的能力成为实际工作改进的推动者。

历史数据库中的数据可能是来自一个冗余的光纤网络连接成为单一的分布式控制系统（DCS），这种情况下，数据库的架构相对简单。但数据库中的数据的来源也可能是地理上分散的卫星或无线网络，如油田数据库，这种情况下，数据库不仅是分布式，同时，必须还是容错。

越来越复杂的数据来源与网络情况，使得对分布式数据库提出了越来越高的要求，如果网络连接由于某种原因突然中断，则系统要及时启用本地历史数据库继续进行存储，直到网络连接恢复，并及时将本地存储的数据及时转发到系统终端。这样才能保证即使是网络可靠性参差不齐的情况，系统也能正常运行。最近，这种需求，导致了人们在历史数据库中引入了“家电”概念，旨在实现“开箱即用”式的数据采集、无线存储和转发功能，并以较低的价格实现定制化的解决方案。

分布式历史数据库是帮助解决从工厂车间操作人员的企业决策者各层次的管理者不同的需求。历史数据库不仅可以提供设备实时操作情况以及趋势的关键绩效指标，甚至可以反映设备或者工厂层面的综合性能。

数据是决策的基础

数据的准确性完整性至关重要，但是，数据库的可访问性也同样非常重要。毕竟历史数据库的作用是希望能更容易的为各层级人员提供决策的参考。

优秀的历史数据库不仅要能支持数据源收集来的数据以及行业标准协议，如OPC，同时，还需要能充分利用行业标准进行多系统的整合，如计划系统、质量管理系统、状态监测系统等等。而且，用户还希望数据库能够提供可选择的可视化趋势分析报告。并且，能提供多种标准接口支持浏览器、移动设备等的数据显示、操作。简单的CSV和Excel数据文件格式也应该是数据库能显示、操作的一部分。

数据能在分布于不同地方、不同类型的设备上显示和运行，为历史数据库的发展打开了新的大门。及时的信息反馈、与及时的数据处理，为生产过程中更快的识别发展趋势，更准确的找到事故原因，更精确的制定改进策略，成为了可能。

利用大数据的四条军规

大数据是信息技术的重要概念。很多企业正在搜集大数据并使用复杂的分析工具对其进行分析，以期发现隐藏的规律和关联。如果生产制造系统发生重大变更的时候也能够自动识别并找到最佳的作业条件，例如设备发生故障、原材料特性发生变化或者能源和人力成本发生变化，那么是不是很棒呢？这就是生产制造领域内大数据的存在意义，也是为什么很多生产制造企业正在针对其生产设施开展大数据项目。

实施大数据，制造企业应牢记四条军规

1.数据不能脱离实际将MES与历史数据库关联

首先需要说明的是，脱离实际环境的数据的作用将会大打折扣。在生产制造领域，所谓的实际环境可以用工作任务或者执行步骤来提供。每一段数据必须与正在执行的任务或者正在生产的产品本身相关联，并且与任务的特性相联系。这个环境可以用于任务与任务之间的对比，用来检测显著差异。使用生产制造大数据的第一步就是搜集环境或者事件信息，然后这些信息与工厂的历史数据相关联。幸运的是，主要的工厂历史数据备份工具供应商都提供了事件和环境插件，可以将MES流程或者执行系统的作业步骤与历史数据相关联。

2.周期性备份历史数据分析优化

第二个需要考虑的因素是，虽然在线历史数据是一个保存数据的很棒的工具，但是对于分析数据却有点束手无策。一种好方法是使用离线备份或者数据库用于分析。大多数工厂的历史数据库对存取数据都进行了优化，当需要为大数据分析从正在运行的在线系统提取大量数据时，往往需要花费很多时间。更好的策略是将历史数据周期性地备份到离线系统中，或者将数据固化到数据库，以便用于大数据的优化分析。

3．重视数据样本科学分析

第三个需要牢记的因素是你必须选择正确的数据样本。为了具有说服力，确保样本容量足够大，这样才能够足以发现内在关系和因果关系。较小的样本容量有可能得到并不正确的内在关系，使你南辕北辙。还有很重要的一点就是不要将内在关系和因果关系混淆起来，因为具有内在关系的事物不一定具有因果关系。数据分析可以发现内在关系，但是如果想要明确事物之间是否存在因果关系则还需要很多工作。大数据分析项目必须引入工程师或者科学家，确保使用工程分析手段能够得到真实的因果关系，这样一来数据才发挥了最大价值。

4.结合工程师的知识经验

最后一个需要牢记的因素是在有些情况下靠人员来发现规律比靠系统自动完成更加靠谱。你可以指派人员对数据库进行查询并发现某些规律。有经验的操作人员通常对生产系统和相互之间的关系有较深入的认知，他们能够发现一些被隐藏或不明显的内在关系。

审核编辑(

王静

)