数据仓库-大数据分析

一. 大数据概览

什么是大数据？所谓的 “大” 实践上并不是大数据的最有趣的特征。大数据是结构化、半结构化、非结构化以及众多不同格局的原始数据，某些状况下，它看起来与您 30 多年来在数据仓库中存储的清楚的标量数字和文本存在巨大差异。大都大数据不能用任何看起来相似 SQL 的办法来剖析。但最重要的是，大数据是一种模式的转变，触及怎么考虑数据财物、从何处获取、怎么剖析它们以及怎么从剖析中取得有价值的常识。

从很多的用例中积聚了动力的大数据运动，可划分到大数据剖析的类别中。这些用例包括：

• 搜索排序

• 广告盯梢

• 方位与距离盯梢

• 因果联系发现

• 社会化客户联系办理（CRM)

• 文档相似性测验

• 基因剖析

• 群组发现

• 飞机飞行状况

• 智能丈量仪表

• 树立传感器

• 卫星图画剖析

• CAT扫描比较

• 金融账户诈骗检测与干预

• 核算机体系黑客检测与干预

• 在线游戏姿态盯梢

• 大型科学数据剖析

• 通用称号值对剖析

• 贷款风险剖析及保单承保剖析

• 客户流失剖析

考虑到潜在用例的广泛程度，本章首要关注处理大数据的结构化办法，以及咱们引荐运用的最佳实践，并不专门考虑每个用例的维度规划。

传统的 RDBMS 和 SQL 几乎无法存储或剖析此类规模广泛的用例。要完结对大数据的归纳处理，体系需求具有如下才能：

(1）便利处理 PB(1000TB）数据的才能。

(2）包括多达数千个散布的处理器，地理不同，且异构。

(3）以原始的获取格局存储数据，支撑查询和剖析运用而不需求转化或移动数据。

(4）以亚秒级呼应时刻呼应高束缚的规范 SQL 查询。

(5）在处理恳求中便利地嵌入杂乱的用户自界说函数（User-Defined Function , UDF）。

(6）选用业界规范的进程语言来完结 UDF 。

(7）拼装跨大都或一切用例的可重用 UDF 扩展库。

(8）在几分钟内，以联系扫描办法对 PB 等级数据集履行用户自界说函数。

(9）支撑规模广泛的数据类型包括越来越多的图画、波形、恣意层次的数据结构以及称号值对调集。

(10）为数据剖析高速加载数据，至少到达 GB 等级每秒。

(11）从多个数据源高速（GB/sec）加载数据以集成数据。

(12）在界说或发现其结构前加载数据至数据库。

(13）完结对加载数据的实时数据流剖析查询。

(14）全速更新数据。

(15）不用预先聚类维度表和实践表，完结卡亿等级的维度表与万亿等级实践表的衔接。

(16）调度和履行杂乱的上百个节点的作业流。

(17）配置作业不会受到单点故障的影响。

(18）在节点发生过错时可以完结容错和不间断进程。

(19）支撑极端的、混合的作业负载，包括数千个地理散布的在线用户和程序，一同履行即席查询和战略剖析，以批处理和流处理办法加载数据。

为完结这些具有应战性的问题，需求将两种结构交融，这两种结构是：扩展的 RDBMS和 MapReduce/Hadoop 。

1.1 扩展的 RDBMS 结构

当时 RDBMS 供给商对经典的联系数据类型进行了扩展，添加了一些处理大数据需求的新数据类型，如下图所示:

现在的 RDBMS 有必要扩展以便可以加载和处理包括杂乱结构的广泛的数据类型，例如向量、矩阵和自界说超结构数据。RDBMS 需求支撑加载和处理无结构和半结构文本，以及图画、视频、称号，值对调集，有时将其称为数据包。

可是支撑相似 “ 二进制大数据文件” 这样的只是可以在可解释这些数据的 BI运用之后交给的新数据类型，对RDBMS 来说仍然是不够充沛的。要真实具有大数据，RDBMS 有必要答应在数据库办理体系内部循环中，运用特定的由事务用户剖析人员编写的用户自界说函数（UDF）处理新数据类型。

终究，有意义的用例是通过 RDBMS 处理数据两遍，第 1 遍通过 RDBMS 从原始数据中获取实践，第2 遍将获取的成果作为传统的联系行、列和数据类型，主动反应到RDBMS 。

1.2 MapReduce/Hadoop 结构

另外一种结构是 MapReduce/Hadoop 结构，它是一种敞开源代码的，包括定量组件的 Apache尖端项目。MapReduce 是一种由 Google 在 2000 年初开发的处理结构，首要用于从很多不同机器中搜索 Web 页面。MapReduce 办法具有良好的通用性。完好的 MapReduce 体系可以用多种言语完结，最著名的完结是通过 Java 完结的。MapReduce 实践上是一种 UDF 扩展结构，其中的 “ 函数” 可以非常杂乱。现在最常见的 MapReduce 结构是 Apache Hadoop ，简称为 Hadoop 。 Hadoop 项目有很多的参加者，并运用于一切的运用中。Hadoop 运转在其 Hadoop 散布式文件体系（Hadoop Distributed Fi le System, HDFS）之上，也可以被 Amazon S3 和其他体系所理解。传统的数据库供给商完结了与 Hadoop 的接口，答应很多的Hadoop 使命通过接口在其数据库之上运转很多的散布式实例。

留意：

关于MapReduce/Hadoop 结构更详细的评论已超出了本书的规模。有爱好的读者可以拜访网站 www.kimballgroup.com ，以取得更多有关大数据的资源。

1.3 大数据结构比较

上述两种大数据结构都有不同的长时刻优势，并有或许在未来共存。在本书写作时，两种结构的特征可以通过下表汇总。

二. 引荐的运用于大数据的最佳实践

虽然大数据商场尚不成熟，但从职业来看己经具有 10 年的经验积累。在这段时刻，发生了很多针对大数据的最佳实践。本节企图将这些最佳实践介绍给读者，在高级的专家告诫与针对单一东西的草根等级的细枝末节之间开辟一个中心地带。

话虽如此，还是应该认识到，30 年来，针对与大数据有关的联系型数据仓库的规划开发提出了许多通过实践检测的最佳实践。以下简略将它们列举出来：

• 从事务需求动身挑选构建数据仓库需求的数据源。

• 一直关注简化用户接口和改善功用。

• 从维度视点考虑问题：将国际划分为维度和实践。

• 以一致性维度集成不同的数据源。

• 运用缓慢改动维度盯梢时刻改动。

• 运用持久性署理键确定一切维度。

本节以下内容，咱们将依照 4 个分类划分大数据最佳实践：办理、结构、数据建模和办理。

2.1 面向大数据办理的最佳实践

下列最佳实践运用于大数据环境的全体办理。

围绕剖析构建大数据环境

考虑围绕剖析而不是即席查询或规范报表构建大数据环境。从原始来历到剖析师屏幕这一数据途径上的每个过程有必要支撑将杂乱的剖析例程以UDF办法或通过元数据驱动的可以为一切剖析类型编程的开发环境来完结。其内容包括加载、清洗、集成、用户接口，以及终究的 BI 东西。

推迟构建留传环境

此刻企图树立留传大数据环境不是好的想法。大数据环境改动太快而无法考虑树立一个长时刻的留传基础。相反，应该从各个方面规划革命性的革新：新数据类型、竞赛应战、编程办法、硬件、网络技能，以及由很多新型大数据供给者供给的服务。在可预见的未来，需求保护多种完结办法的共存。这些完结办法包括 Hadoop 、传统网格核算、优化的 RDBMS 、定制核算、云核算和大型机。久远来看，每种办法都难以独占整头，渠道即服务（Platform asa Service, PaaS）供给商一般供给有吸引力的挑选，用于装配可兼容的东西调集。

设想将 Hadoop 作为多种格局 ETL 处理的灵敏及通用的环境，目的是为大数据添加充分的结构和环境，以便可以加载到 RDBMS 中。Hadoop 中相同的数据可以被拜访并转化为以各种言语编写的 Hive、Pig 、HBase 和 MapReduce 代码，乃至可以一同进行。

完结上述目标需求具有灵敏性。假定您可以在两年内从头编写并从头布置大数据运用。挑选恰当的办法以从头编程并布置。可以考虑运用元数据驱动的无代码开发环境以增加效率井有助于阻隔根本技能改动所带来的问题。

从沙箱成果中构建

考虑运用沙箱，并树立实践可用的沙箱成果。答应数据科学家构建他们的数据环境并运用他们了解的言语和编程环境构建原型。然后，完结概念证明后，与某个 IT 更新小组体系化地从头编写这些完结。以下将运用一系列事例描述这一主张：

自界说剖析编程的出产环境可以是 MatLab 和 PostgreSQL ，或许是 SAS 和Teradata RDBMS, 但数据科学家或许运用其了解的语言和结构树立其概念证明。要害的常识是：IT 有必要非同小可地容忍数据科学家所运用的技能范畴并在大都状况下需求预备以可以被长时刻支撑的规范技能集从头完结数据科学家的作业。沙箱开发环境或许会运用自界说R代码直接拜访Hadoop ，但由元数据驱动的 ETL 东西所操控。然后，当数据科学家预备交给概念证明时，大都逻辑或许需求立即被从头布置到可扩展的、高度可用的、安全的、运转于网格环境中的 ETL 东西。

首先从尝试简略运用着手

可以先从简略的运用开始，例如备份与归档。在开端履行大数据项目时，搜索有价值的、风险小的商业用例，贮备必要的大数据技能，考虑运用 Hadoop 作为本钱低、灵敏的备份和归档技能。Hadoop 可以存储和检索多种格局的数据，从彻底非结构化的到高度结构化的专用格局。该办法还能确保解决落日问题，所谓落日问题是指原先的运用或许在悠远的未来变得不可用（也许由于授权约束），您可以将这些运用的数据转储到您的文件格局中。

2.2 面向大数据结构的最佳实践

下列最佳实践将影响整个大数据环境的结构和安排。

规划数据通道

应该为逻辑数据通道规划多个添加推迟的缓存。只是物理上完结那些合适您的环境的缓存。数据通路可以包括多达 5 个缓存以添加数据推迟，每个缓存都具有共同的优点和权衡，如下图所示。

以下是 5 个数据缓存的潜在的示例：

• 原始来历运用：信用卡诈骗检测，实时杂乱作业处理（Complex Event Processing , CEP),包括网络稳定性和网络攻击检测。

• 实时运用：Web 页广告挑选，个性化价格促销，在线游戏监控。

• 事务活动运用：推送给用户的低延时要害功用目标（KPI）仪表板，费事盯梢，进程完结盯梢，归纳 CEP 报表，客户服务门户与仪表板，汽车销售广告。

• 优先运用：战术报表，促销盯梢，根据社会媒体声响的中途批改。优先运用指高级办理人员可以快速调查到 24 小时内企业发生的最重要状况的公共实践。

• 数据仓库和长时刻序列运用：一切格局的报表，即席查询，前史剖析，主数据管理，大容量时刻动态，马尔科夫链剖析。

存在于给定环境中的每个缓存物理上不同于其他缓存。从原始来历取得的数据，沿着这条通道通过 ETL 进程。从原始数据来历到中心缓存或许存在多条途径。例如，数据或许会在实时缓存驱动某个零推迟类型用户接口，但一同被直接获取到看起来像经典的操作型数据存储（Operational Data Store, ODS）的每日优先缓存。然后 ODS 数据或许被用于构建数据仓库。数据也可以沿着通路的相反方向运动。本章后边将评论回流的完结。

运动于该通路的大都数据有必要坚持非联系格局，包括非结构化文本和杂乱的多格局数据，例如图画、数组、图、衔接、矩阵以及称号-值对集。

树立针对大数据的实践获取器

将大数据剖析作为一个实践获取器，将数据移动到下一个缓存，这是一个非常好的想法。例如，非结构文本信息的剖析可以发生很大都字化的、有趋向的情感度量，包括声响的同享、观众参加、会话抵达、积极的倡导者、主张的影响、支撑影响、分辨率、分辨时刻、满意度、主题趋势、情感比例和观念影响等。

树立完好的生态体系

可以运用大数据集成树立完好的生态体系，集成传统的结构化的 RDBMS数据、文档、电子邮件，以及内部的面向事务的社会网络。来自大数据的有用信息之一是集成不同格局的不同的数据源。可以重新数据制造通道取得数据流，例如社会网络、移动设备和主动提醒处理。假定某个大型金融机构处理几百万账户，与之相关的纸质文档数千万，安排内部包括数千专业人员以及该范畴的合作伙伴和用户。现在，为一切受到信赖的集体树立一个安全的社会网络以进行通讯已经成为实践的运用。大都此类通讯明显都需求以可查询的办法存储。可以在 Hadoop 中获取此类信息，在事务中运用它们，然后对其备份并归档。

4 . 拟定数据质量规划

可以对数据质量拟定规划以更好地运用于数据通道中。这是一种典型的针对推迟与质量的权衡。剖析员和用户有必要接受非常低推迟的（也就是说，实时）数据所形成的不可防止会出现的脏数据的实践。由于非常短的时刻距离约束了清洗和确诊作业。针对独立字段内容的测验和纠正可以以最快的数据转化率履行。针对字段和跨数据源的结构化联系的测验和纠正需求花费很多时间。测验和纠正触及从瞬时（例如必定次序的日期调集）到恣意长时刻（例如等候调查某个非寻常作业是否超越门槛值）的杂乱事务规矩。终究，缓慢的 ETL 工程，例如那些需求满意每日优先缓存的处理，一般根据更完好的数据树立，例如，不完好的事务集与回绝事务集将被删去。此刻，简略取得的瞬时数据一般是过错的信息。

尽或许提高数据价值

应该尽或许早地在切入点运用过滤、清洗、剪枝、一致性、匹配、衔接和确诊等。这是前述最佳实践的必然成果。数据通道中每个过程供给了更多时刻来提高数据价值。针对数据的过滤、清洗、剪枝等操作减少迁移到下一个缓存的数量并消除不相关或损坏的数据。公平地说，很多人认为只需求在剖析运转阶段运用清洗逻辑，由于清洗或许会删去了 “ 有趣的孤立点 ”。一致性以积极的过程将高度可办理的企业特点放入到首要的实体中，例如客户、产品和日期等。这些一致性特点的存在答应在不同运用范畴履行高价值的衔接。该过程的简短称号是 “ 集成！” 确诊答应将许多有趣的特点添加到数据中，包括特定信赖度标识和由数据发掘专业人员辨认的表明行为聚类的文本标识符。

完结前期缓存的回流

应当完结回流，特别是从数据仓库到数据高速路上前期的缓存。数据仓库中高度可办理的维度，例如客户、产品和日期，应当与前期缓存中的数据衔接。抱负状况下，所需求的是在一切缓存中的这些实体的仅有持久性键。此处的推论是，从一个缓存到下一个缓存的每个 ETL 过程的首要作业是用具有仅有性的持久键替换特定的专用键，以便每个缓存的剖析可以通过与仅有性持久键的简略衔接来运用丰富的上游内容。这一 ETL 过程能将行源数据以低于 1 秒的时刻转化到实时缓存中履行吗？也许能。

维度数据并不是仅有将通过高速路回流到源的数据。从实践表导出的数据，例如前史汇总和杂乱的数据发掘成果，可以被当成简略的目标或汇总传达，然后传送到数据高速路上的前期缓存中。

完结数据流

您应当针对挑选的数据流完结流式数据剖析。低推迟数据的一个有趣的方面是需求针对流中的数据开端严格的剖析，可是或许需求在数据转化进程完毕前。对流剖析体系的爱好非常强烈，答应履行相似 SQL 查询处理流中的数据。在某些用例中，当流查询的成果超越某个阔值时，将停止剖析作业，不需求将使命履行完。一种学术方面的作业，被称为连续查询言语（Continuous Query Language, CQL），现在在界说流数据处理需求方面己取得了引人注目的成果，包括在流数据中动态移动时刻窗口的智能化的语义。在 DBMS 和 HDFS 的加载程序中运用 CQL 言语扩展和流数据查询才能布置数据调集。抱负的完结既能展开流数据剖析作业，又能以每秒几 GB 的速度加载数据。

防止无法扩展的约束

您应当完结强壮的可扩展才能以防止到达扩展的极限。在前期核算机编程时，那时机器的硬盘和实践的内存都很小，边界抵触比较常见，是运用开发中令人烦恼的作业。当应用用尽了磁盘空间或实践内存时，开发者需求采纳详细的办法，一般需求很多的编程作业，这些作业并未增强运用的首要功用。一般的数据库运用的边界抵触己经没有什么问题了，可是大数据再次将这一问题面向前台。 Hadoop 是一种极大地减少了编程可扩展性问题的结构，由于在大大都状况下，可以无约束地添加商业化硬件。当然，即便是商业化硬件也需要配置、衔接和具有高带宽的网络衔接。需求为未来规划这一问题，要可以扩展到巨大的容量和吞吐率。

将原型移动到私有云

考虑在公有云上完结大数据原型然后将其移动到私有云上。公有云的优点是具有可配置才能和当即扩展的才能。对那些存在数据敏感性问题需求快速进出的原型，公有云非常有用。记住在周末程序员们都脱离的状况下，不要让巨大的数据集在公有云在线可用。但是，需求记住的是，某些状况下，当您企图运用局部数据及可预知机架的 MapReduce 进程时，可以不运用公有云服务，由于它不存在对数据存储操控的需求。

极力改善功用

不断寻找并期望得到十倍到百倍的功用改善，认识那些可以提高剖析速度的事例。大数据商场的敞开将遇到很多的特定目标，这些目标与特定剖析的解决方案紧紧相关。这既带来优点，也存在问题。假如未受到大型供给商的 RDBMS 优化器和内部循环的操控，聪明的开发人员可以完结详细的比规范技能快 100 倍的解决方案。例如，针对臭名远扬的“ 大型衔接” 操作方面，取得了一些令人激动的前进。这些大型衔接需求将具有 10 亿行的维度与一个包括 10 000 亿行的实践表衔接。存在的困难是这些单独的特定解决方案或许不是统一的体系结构中的一部分。

当时非常重要的一个大数据主题是数据调集的可视化。“围绕” PB 等级的数据需求特殊的功用！大数据可视化是一个令人激动的新开发范畴，运用它可保证剖析和发现不知道特征以及数据剖析。

另外一个令人激动的将带来巨大功用需求的运用是 “ 不需求预先集合的语义缩放” ，剖析师可以剖析非结构化和半结构化数据的高度集合的等级直到逐步细节化的层次，相似于在图上缩放。

该最佳实践之后隐藏的重要课题是您具有的具有剖析和运用大数据的革命性前进的才能将带来 10-100 倍的功用增益，您需求为东西套件预备这些开发才能。

监视核算资源

应当将大数据剖析作业与传统的数据仓库分隔以坚持服务等级的协议。假如大数据驻留在 Hadoop 上，则或许不会与传统的根据 RDBMS 的数据仓库竞赛资源。但是，假如大数据剖析运转在数据仓库机器上，则要引起高度的留意，由于大数据需求改动快速且对计算资源的需求不断增加这一趋势是不可防止的。

运用内置数据库剖析

记住要运用内置数据库剖析的共同才能。首要的 RDBMS 厂商都在内置数据库剖析方面投入巨大。在您花费很多本钱将数据加载到联系数据库表中后，可以对 SQL与剖析扩展兼并，取得极其强壮的才能。特别是 PostgreSQL ，它是一种敞开源数据库，包括的扩展语法可用于在内循环中添加强壮的用户界说功用。

2.3 运用于大数据的数据建模最佳实践

以下最佳实践影响数据的逻辑和物理结构。

维度考虑

从维度视点考虑，咱们将国际划分为维度和实践。事务用户可天然且直接地发现维度概念。不管数据的办法怎么，根本的相关实体，例如客户、产品、服务、方位或时刻，都能被发现。在后续的最佳实践中，通过一些训练，您将发现维度可用于集成数据源。但在到达集成的终点线前，有必要辨认每个数据源中的维度并将它们与每个低层的原子等级的数据调查相关。这一维度化的进程是大数据剖析的很好运用。例如，简略的推特语句 “ 哇！这太可怕了！” 也许没有包括有价值的维度特性，可是在某些剖析中，您或许会得到客户（或市民或患者）、方位、产品（或服务或合同或作业）、商场条件、供给商、天气、支撑者组（或核算聚类）、会话、触发从前的作业、终究成果以及其他成果。坚持领先的数据流需求某些办法的主动维度化。正如咱们将在后续的最佳实践中指出的那样，输入数据应当在最早的获取过程中尽或许实时地被彻底维度化。

集成不同的包括一致性维度的数据源

一致性维度是将不同数据源捏合到一同的粘合剂，确保兼并不同的数据源并用于单一的剖析。一致性维度也许是大数据从传统的 DW/BI 国际中可继承的最强有力的最佳实践。

隐藏在一致性维度之后的根本思想是维度不同版本中的一个或多个企业特点（字段）与不同数据源的相关。例如，企业中每个面向客户的进程将包括一些改动的客户维度。客户维度的这些改动或许触及不同的键，不同的字段界说，乃至不同的粒度。即便数据不兼容的状况非常明显，一个或多个企业特点仍可被嵌入到所有不同的客户维度中。例如，客户核算分类是一个合理的挑选。这类描述符可以被界说到差不多句个客户维度中，即便在那些高等级的集合维度中。在完结该规划后，针对这样的客户核算维度的剖析，可以在针对不同数据源分别运转不同的查询后，.通过排序交融进程跨多个数据源展开。最好的状况 1 引进不同的企业特点到不同的数据库中的过程，增量的、灵敏的、非破坏性的办法完结。当一致性维度内容可用后，一切己有的剖析运用可以继续运转。

运用持久性署理键定位维度

假如说在数据仓库国际中包括一个咱们需求吸取的经验的话，这个经验就是，不是选用特定运用所界说的天然键来定位客户、产品及时刻。这些天然键将成为实践国际中一个哄人的骗局。多个运用之间的天然键是不兼容的且难于办理，这些天然键是由那些不关心数据仓库运用的其他人员所办理的。在每个数据源中，首要的过程是运用企业规模的持久性署理键来扩展来自于源的天然键。持久性的意思是事务规矩无法对该键做出改动。持久性键属于 DW/BI 体系，而不属于数据源。署理意味着该键本身是简略的整数，该数要么是按次序分配的，要么是通过可以保证唯一性的强健的哈希算法树立的。孤立的署理键不触及与运用有关的内容，它只是是一个标识符。

大数据国际充满了各式各样的维度，这些维度有必要具有持久性署理键。在本章前面的内容中，当提出将数据推入数据高速公路时，咱们依靠持久性署理键来完结这一进程。我们还指出，每个从源数据获取的进程，其首要的使命是在恰当的维度中嵌入持久性署理键。

期望集成结构化与非结构化数据

大数据极大地拓宽了集成面对的应战。许多大数据不会存储在联系数据库中，一般会存储在 Hadoop 或网格中。但在您考虑并完结了一致性维度和署理键后，在单一剖析中可以剖析一切办法的数据。例如，医学研讨可以挑选一组具有核算特征和身体状况特点的病人，然后将其传统的 DW/BI 数据与图画数据（图片、X 射线影像、心电图等等）、自在文本数据（医嘱）、社会前言的定见（治疗主张）、行列组分类（具有相似状况的患者）以及具有相似患者的医师等信息兼并。

运用缓慢改动维度

应当盯梢随时刻改动的缓慢改动维度（SCD）状况。盯梢维度随时刻改动的状况是一种己有的受到广泛赞誉的数据仓库国际中的最佳实践。第 5 章评论了运用 SCD 技能处理时刻差异的完好事例。与在传统的数据仓库国际中相同，该技能在大数据国际中也非常重要。

在剖析时界说数据结构

您有必要习惯在剖析时界说数据结构。大数据的魅力之一是将数据结构界说推迟到加载到 Hadoop 或网格时进行。这样做会带来很多好处。数据结构在加载时髦未被理解。数据具有如此富有改动的内容，以至于单一的数据结构要么没有意义，要么迫使您修改数据以合适某一结构。例如，假如可以将数据加载到 Hadoop ，不界说结构，则可以防止资源密集的过程。终究，不同的剖析师可以合法地以不同的办法看到相同的数据。当然，某些状况下会存在一些问题，由于没有清晰界说的结构或许比较困难或许难以为 RDBMS 中快速查询树立索引。但是，大都大数据剖析算法处理完好的数据集，不需求精确地过滤数据子集。

这一最佳实践与传统的 RDBMS 办法论抵触，传统办法强调在加载前详尽地建模数据。但这样做不会导致发生丧命的抵触。对那些将去往 RDBMS 中的数据，从Hadoop 或网格环境或许从称号值对结构转化到 RDBMS 命名列中可以当作是有价值的 ETL 过程。

以简略的称号值对加载数据

考虑围绕称号•值对数据源的树立技能。大数据源充满惊喜。大都状况下，您翻开消防水管将发现意想不到的或未文档化的数据内容，虽然如此，您有必要以每秒几 GB 的速度加载。防止发生这一问题的办法是以简略的称号，值对办法加载数据。例如，假如某个申请者暴露了其金融产业，他或许会界说某些意想不到的作业，例如 “ 稀有邮票 $ 1000 ”。在称号值对数据会集，这一信息将被轻松地加载，即便您决不会看见 “ 稀有邮票 ” 且不知道加载时会对其做些什么作业。当然，这一实践与前述的推迟到数据加载时界说数据结构的实践结合得很好。

大都 MapReduce 编程环境需求将数据展现为称号值对，这样做使大数据具有彻底或许的一般性。

运用数据虚拟化的快速原型

考虑选用数据虚拟化以取得快速原型开发和模式转化。数据虚拟化是一种针对根本物理数据界说不同逻辑数据结构的强有力技能。以SQL 办法界说的规范视图是数据虚拟化的良好实例。理论上讲，数据虚拟化可以以任何剖析需求的格局展现数据，可是运用数据虚拟化要考虑权衡运转时核算的开销与运转前树立物理表的 ETL 开销。数据虚拟化是构建原型数据结构、快速树立可选办法或供给不同挑选的强有力的办法。最好的数据虚拟化策略是在需求测验和审查以及剖析人员期望改善实践物理表功用时物化虚拟模式。

2.4 大数据的数据办理最佳实践

以下最佳实践运用于办理大数据，以使其成为有价值的企业财物。

没有作为大数据办理这样的作业

数据办理有必要是一种针对企业整个数据生态的归纳处理办法，不是大数据某个孤立点的解决方案。大数据的数据办理应当是用于办理一切企业数据的扩展办法。至少，数据办理包括隐私、安全、兼容性、数据质量、元数据办理、主数据办理以及向事务集体供给界说和环境的事务术语表。

运用办理前的数据维度化

以下是一个有跑的应战大数据的介绍：即便您尚不知道期望从数据内容中得到什么，也有必要运用数据办理原则。您或许每分钟接纳几 GB 的数据，一般都是以称号值对办法的意料之外的内容。对您所承当的数据办理职责来说，最好的分类数据的办法是尽或许在数据流水线的前期阶段将其维度化。剖析内容、匹配内容并一同运用身份辨认。在争辩数据集成的效益时咱们给出了相同的策略，但这里主张在维度化过程前对立运用数据。

隐私是最重要的办理考虑

假如您剖析的数据集包括有关个人或企业的辨识信息，则隐私是最重要的办理考虑。虽然数据办理的每个方面交错在一同都显得非常重要，但在这些状况下，隐私富有最重要的职责和事务风险。个人或小组的隐私假如发生令人震惊的作业，其影响或许会破坏您的名誉，降低商场的信赖，导致民事诉讼，使您陷入违犯法令的窘境。至少，对大都剖析办法来说，个人细节有必要被屏蔽，数据将会被集合以便无法区分个人的状况。在将敏感数据存储到 Hadoop 时，有必要特别留意，由于数据在被写入Hadoop 后，Hadoop 不能很好地办理数据更新。在写数据时，数据应该被屏蔽或加密（持久性数据屏敲），在读取数据时，数据应当被屏蔽（动态数据屏蔽）。

不要挑选大数据办理

不要将大数据办理推迟到运用大数据的高峰期展开。即便是展开大数据原型项目，也要保护问题列表，用于考虑什么时候需求进行下一步作业。您不想成为低效的官僚机构，但也许您可以供给一个灵敏的官僚机构。

Article / 文章中心

文章分类