banner

大数据分析平台Datameer技术使用文档中文版

作者: 大数据观察来源: 大数据观察时间:2017-07-29 18:57:080

简介: Datameer的应用层产品把Hadoop傻瓜化。即任何业务部门的经理都能根据自己的需求对数据进行可视化的整合与分析。

1、Datameer的产品屏蔽了复杂的大数据分析底层技术,通过类似电子表格的可视化数据分析用户界面,任何部门的企业员工都能很快上手。

2、Datameer应用是构建在Hadoop上的分析应用,其可以对任何类类型或数量的数据,无论大小、结构化、半结构化还是非机构化数据进行处理。

背景介绍

Datameer是一个开源的数据处理系统,用于构建强大的超级计算机廉价服务器集群。Hadoop是由Apache基金会开发一个分布式系统基础架构,将巨大而艰难的计算任务进行分割,分发给这些服务器集群。这虽然听起来简单,但是Hadoop并不好用。大多企业用户通常只用EXCEL或者智能软件,平时很少执行这些复杂任务。

Datameer分析解决方案(DAS)是面向Hadoop、针对企业用户的商业智能(BI)平台。

它可以通过JDBC、Hive、HTTP或其他标准,连接到任何数据源。它包含了一个由向导驱动的集成平台,让用户可以安排调度负载,并且转换来自任何这些数据源的庞大的结构化、半结构化或非结构化数据集。然后,用户可以通过类似电子表格的DAS界面,运用180多项分析功能中的任何一项功能。

1、Datameer的产品屏蔽了复杂的大数据分析底层技术,通过类似电子表格的可视化数据分析用户界面,任何部门的企业员工都能很快上手。

2、Datameer应用是构建在Hadoop上的分析应用,其可以对任何类类型或数量的数据,无论大小、结构化、半结构化还是非机构化数据进行处理。

3、企业用户可以获得拖放式报告和仪表板功能。DAS可以在私有云或公共云上运行,而且有一套代表性状态传输(REST)应用编程接口(API),用于数据导入和导出。

产品信息

产品介绍:出售基于Hadoop的APP,用于分析企业数据并用表格进行展示。

大数据分析

Datameer满足您一个应用程序即可分析大数据的需求.

大大简化数据分析过程

集成.分析.可视 以前的数据分析要分三步走。 您需要与三家技术商、三个技术团队以及三种不同的技术打交道。Datameer为您简化这些过程,为您提供一个基于强大的Hadoop平台上的应用程序,即可满足您大数据分析的需求。

个性化产品选择

自由化部署模式(云端/本地)

数据集成

结构化数据 非结构化数据

数据可视化

数据管理

数据安全

认证— Datameer提供Active Directory/其他LDAP认证 授权— Datameer针对所有系统组件,如工作簿、导入数据、结果数据都提供基于角色的权限设置 技术概述

开放式的基础架构

HTML5兼容任何浏览器、任何设备

天然集成的Hadoop平台

高度可扩展性

Micro Kernal SDK REST API

内置的Hadoop平台优化

1. 数据快速集成

将您的IT资源从数据管道中释放出来, 为IT和商业用户快速整合任何数据源。

数据自由化

无ETL

数据是观察事物的基础。你掌握的数据越多,对事物的了解就会越深入。因此,你不仅要掌握传统意义上的交易数据,而且还要掌握所有其它类型的数据,这样才可以完全了解客户,充分理解业务流程,提高业务绩效。

Datameer为了把所有数据整合到Hadoop,而不关注ETL和静态模式的局限性。预建的数据连接向导关联所有常见的结构化和非结构化数据源,这就意味着,数据集成是一种简单的,分成三个步骤的过程:集成存储于哪里的数据、集成哪些数据、什么时候集成这些数据。

结构化数据包括:

Oracle, DB2, MSSQL, MySQL等 Teradata,Greenplum等 XML, JSON, CSV等 HBase, Cassandra

非结构化数据包括:

Twitter,Facebook, LinkedIn, Jive等 Email LogFiles SaaS – CRM,GitHub, Jira, Zendesk等

数据导入类型

导入作业

Datameer将所有数据以其原始格式直接导入到Hadoop。强大的采样、解析、调度和数据保留等工具使得整个导入过程到了优化和支持,从而用户可以便捷高效地获得他们所需要的数据。

任何数据的无限相关性

数据链接

在某些使用场景下,如分析瞬息万变的用户数据时,系统需要在分析在进行的过程中即将数据导入Hadoop平台中。这确保了用户数据始终处于最新状态。为此,Datameer为所有数据源都提供数据链接.

开放数据平台

数据导出

Datameer独特的整合和分析能力的妙处在于其结果可以被导出至其他数据存储,如数据库、远程文件服务器、数据仓库或第三方BI(商业智能)软件包。这种数据导出可以是手动的,也可被设定为每当工作薄更新时,或者按一定的时间间隔由系统自动进行操作。

数据的应用编程接口访问(REST API)

数据获取、发布、安置 、删除

在某些使用场景下,如嵌入式分析(作为有更广泛意义的CRM应用程序的一部分)要求无需通过网站页面即可获取Datameer数据。有了Datameer的REST API接口,远程应用程序即可通过命令行工具获取Datameer数据。该API接口可通过脚本或者监控工具运行。运行请求为URL地址和命令,而运行响应会以JSON格式返回。

2.无限数据分析

无限分析

Datameer可以让你从简单的连接和转换深入到复杂的预测分析。 Datameer可以帮助您不再只做简单的连接和转换,更可以做更复杂的预测性分析。所有用户都可以使用点击功能,或者变身为专业人士由自己来编写功能。

复杂数据-简单方案

分析和转换

Datameer为结构化数据和非结构化数据的分析提供最完善的解决方案。这种点击的功能即意味着您的分析不受预设模式的限制,而是心之所至,分析所至。即使是最复杂的由大量数据组成的嵌套连接分析也可以通过交互式对话框来实现。分析和数据的转换可在大量的数据处理管道中进行混合和匹配,而原始数据也能至始至终保持不变。

网页分析:不仅仅是计算用户数

提高转化率

把网络流量数据与社交媒体、营销、销售及其他数据结合起来,将重点放在网站转换率上。网页分析应注重效果,而不仅仅是注重点击率。Datameer功能齐全,可帮您详细了解任何数据源。诸如会话流程、点击路径、URL参数提取等多项功能,也可使您更全面了解、并与页面访问者进行互动,为用户提供更个性化的体验,以提高转换率。

时间序列分析

无限关联性

Datameer 关联多种复杂且不相关的数据,并对其反复地进行时间序列分析。分析结果是无穷尽的,其中包括信用卡交易与持卡人的授权、网络流通数据、营销互动数据及其他因素等之间的关联性。最终呈现的结果可以作为指导您进行业务操作的一个窗口,提供深度洞察以助您做出正确的商业决策。

预测分析和数据挖掘

Datameer 的Zementis Universal PMML 插件在汇集多项最重要技术的同时,充分结合开放标准与用户预测分析的可应用程序的可扩展性。插件完全支持预测模型标记语言(PMML)—数据挖掘应用的实际标准,并集成了IBM/SPSS, SAS, R和其他更多的预测模式。

3. 数据可视化

商业信息图表和仪表板 通过图表、仪表板和商业信息图表进行数据可视化交流 灵活的数据可视化 图表,地图,表格,图形

Datameer的丰富的Widgets组件库中包括表格、图表、图形、示意图、地图和标签云图,从而使用户能够创建简单的仪表板或者炫丽的商业信息图表和可视化效果。最终的结果是通过可视化进行真正的数据交流。

商业信息图表和仪表板

多种自由布局形式

除了静态仪表板,Datameer提供的商业信息图表可以帮助您的数据可视化免受内置约束。用户可以根据需要或喜好随意拖放任何Widget组件、图形、文字、仪表板或信息图表元素。有了诸如箭头和标志等的支持,用户可以重点突出或加强任一信息图表或仪表板中的任意内容。

快速迭代的大数据可视化

所见即所得编辑器

Datameer的所见即所得编辑器加快了强大且含有深度洞察力的业务信息图标的创建。该编辑器带有一个图形检查器-这是一个简单但又极其强大的图形与文字等元素的配置工具(包括对颜色、字体等的配置)。同时,针对所有图形与文字的创建和编辑,该编辑器还提供实时展现,从而保证最终提供完全符合预期最可视化渲染效果。

设备-浏览器-人

HTML5

Datameer采用HTML5技术,并兼容市场上所有最新的平板电脑(如iPad),以及所有主流的智能手机(包括iPhone和Android设备)。 Datameer支持当前所有流行的操作系统,可在Windows、Mac IOS、Linux及VMware上运行。凭借顶尖的图形技术核心,Datameer充分发挥用户CPU的作用。

4. 智能数据分析

更智能的大数据分析

Datameer曾率先进行大数据的点击集成、分析和可视化。如今,我们利用“智能分析”便可自动、快速且便捷地找到所有噪音的信号。

自动发现隐藏于您数据中的群组和联系

分类归并

通过自动化地识别和测量数据集内的公共属性的过程,拥有聚类(一种K-均值算法)的Datameer能够自动在您的数据中发现相互间拥有非常不明显关联的数据组。这样做最明显的好处是,如果将数据分成不同的组段,您可以根据需求对不同的数据组段做不同的处理。

例如,数据可以被自动分为

客户数据库 健康档案记录 文本文档 社交媒体 产品库 在线游戏日志 POS数据 点击路径 网络博客

决策树

Datameer的决策树(随机森林算法)帮你了解不同数据属性的组合,以达到更满意的结果。决策树通常被用于通过更多的数据源来丰富一个数据集,并实现更优化结果的过程。决策树的结构会反映可能隐藏于您数据中的结构。

例如,找出下列共同属性的影响:

疾病风险 在线注册 欺诈风险 根本原因分析 客户流失 产品转换 购买行为

列式依赖关系

您想知道任单一的数据属性(如年龄、位置或性别)是如何与其他数据属性(如收入、大学学历或信用评分)紧密的联系起来吗?列式依赖算法会自动比较每一个可能的数据属性组合,并可视化展现根据这些关系的优势进行的排名顺序,可以帮助您立刻知道下一步应该关注的业务领域。这些关系本身也很重要,会经常被用于对目标进行更深入的分析。

请看下列例子之间的关系:

职位与购买量 年龄与疾病类型 交易类型与频率 账户年龄和产品类型 地理位置和产品选择 年龄与短信数量 平均活动时长与实际购买行为

预测性分析

引擎推荐

根据类似人群兴趣的历史记录,Datameer 的推荐引擎可以自动预测个人兴趣,从而帮助您提高客户参与度、精准推送相关选择继而提高客户满意度等。

例如,兴趣预测:

音乐 电影 内容 服务 产品 文档 应用

5 大数据管理

Datameer拥有强大的企业级数据管理能力,且无需编程的简易安装配合灵活的集成点,更利于数据流依赖关系的管理。

将Datameer作为通用的数据中心,是一个企业的最佳选择。 Datameer拥有一大批数据连接器,负责数据的导入及导出,并且通过使用底层服务器的全部力量或集群环境,例如加载过程,完成兆字节/秒的吞吐量。 Datameer提供了一个良好的细粒度配置调度,以确保数据加载输出量不会超出数据源。发布/订阅等概念很容易实施和监督。通过应用编程接口从外部编排。

Datameer从桌面到大型Hadoop集群,都采用透明方式管理Hadoop分布式文件系统中的数据,它支持一系列的文件系统。从个人和工作组版的本地文件系统到特制的分布式文件系统,如超过层次型数据格式(HDF)和S3的全球基础服务系统(GFS)。 Datameer将数据存储在Hadoop的环境下的或本地硬盘驱动器上的文件夹中。数据显示为序列文件格式,性能得到优化,并被扩展支持各类数据类型。 Datameer灵活地对数据进行分区,以确保可以容易处理大量的数据和分析的子集。

有助于优化硬件的算法

压缩

充分利用您的硬件投资。Datameer优化了存储和数据吞吐量。大量的压缩算法允许用户选择高压缩,长时间存储数据或优化数据吞吐量。或许还可以对压缩进行混合和匹配,主要用于系统内部不同数据集,同时也提供了无限的灵活性。 Datameer启用存储数据压缩,以及压缩数据集导入和导出。装载压缩日志文件是一次点击操作。

数据保留管理

保留策略

Datameer数据保留策略的管理启用灵活的数据退休规则。对于每一个导入的数据集来说,单独的一套规则就可以进行配置。无论是永久性数据保存还是记录清理,即使该记录时间比一个特定的时间窗口还要久远,但是该配置过程并不难。根据安全规则,退休数据的删除或保留必须到一个特定的时间才能决定,也可以在系统管理员审批后手动删除。

6、解决方案

1. 大型零售银行

为了量化资产风险和遵守监管报告的要求,如多德 – 弗兰克法案,这家一流的零售银行正在使用Datameer来验证数据的准确度和质量。

银行贷款和分支数据以及财富管理数据集成,数据质量的举措是负责确保每一条记录是准确的。这个过程包括对数据超过50个数据的理智和质量检查。这些检查的结果,随着时间的推移的趋势,以确保数据损坏和数据域的公差不改变不利和被报告给投资者和监管机构的风险状况,审慎和符合监管要求。

Datameer之前,该银行采用Teradata和Netezza公司和建设数据集市,以分析数据的质量,使用他们的SAS应用。这个过程是耗时和复杂,数据集市的做法没有提供数据的完整性需要确定整体数据质量。

2. 金融机构

为了提高客户保留和参与,这家领先的金融研究机构使用Datameer加快客户的使用情况分析和产品改进。

基于Web的平台结合了全球性的公司具有强大的财务基本面分析,构思一代,为用户的工作流管理工具的信息和市场研究。

该公司的产品管理团队需要了解用户访问模式和产品互动的细节,以便更好地吸引和留住客户。该公司此前使用OLAP多维数据集,存储和报告用户访问日志,客户数据和许可证信息。他们拼命用一个4-6周的周转时间,提供新的或更新的数据。因此,产品管理一直非常被动,他们的大部分时间花在管理报告的过程,而不是理解最终用户如何响应特性和内容。

该公司选择了Datameer加快洞察顾客使用,并加快新产品型号。有了Datameer,产品经理现在可以快速地关联在用户的流量模式的变化(点击流)和事件的背景下,如新版本,A / B测试和故障,以确定哪些工作或不执行队列分析。产品策略,现在可以迅速调整和改进Datameer释放产品经理的部署,把重点放在分析用户的使用模式,并创造新的产品模型,而不是建设报告。

3 电信

为了更好地了解基础设施的性能,领先的电信公司使用Datameer,以帮助识别性能故障点在他们的基础设施,以及特定设备相关的问题。

全球电信公司提供位置服务,手机应用来确定纬度/经度坐标的电话,无论运营商和手机的品牌。的内部位置的服务管道包括几个不同的系统,每个包含唯一的一组数据。

Datameer之前,该公司使用OLAP报告工具,这可能不符合要求的结合不同来源复杂,无法扩展到进行分析所需要的数据量。

Datameer,Apache Hadoop的数据导入事务日志,用户偏好数据,手机信号塔的地理位置数据从Oracle数据库和请求/响应流量。位置服务分支内的企业用户能够确定关键的答案,包括最常见的品牌/型号的手机制作不同类型的请求,特别是模型,可能会造成性能问题,以及手机信号塔的基础设施数据。分析分布在整个业务单位,使用Datameer的可视化报告功能。

4 零售竞争力的价格

为了获得竞争优势,并增加销售,这是大型零售连锁店使用Datameer分析竞争对手的网站商铺价格,快速定价决策和测试的定价假设。

尽管有传统的BI和DW解决方案,他们的IT团队努力准备必要的数据及时的基础上,扩大现有的数据仓库系统的成本是高昂的。该公司需要一个解决方案,可以很容易地处理数据的种类和数量,但还提供了快速实现价值的时间。他们需要一个单一的所有业务线的所有有竞争力的价格信息枢纽,也在寻找一个单一的数据存储为所有企业的数据资产,可以养活其他决策系统作为切入点和枢纽。

Datameer,各种格式和大小的原始数据加载到Hadoop的每天从代点,然后清洗并转化为分析。 Datameer和Hadoop再喂低容量的数据仓库,Netezza公司,甲骨文和Teradata等。多种格式的大量数据收集(1PB)的竞争对手更多地投资到网络店面和网上零售商达到百万。这使该公司能够迅速做出定价决策,测试假设,并赢得竞争的见解。主要业务单位/分析师现在立即可以访问到所有的原始数据,而不必等待它提供复杂的ETL和架构设计的结构化数据和传统的RDBMS。

5. 网络安全

在这个充满竞争的市场上,这个世界性的反恶意软件提供商为了向他们的客户提供高质量的服务,利用datameer去分析恶意软件的威胁以及确保网络安全。

随着客户基数的增长,数据量已经超过了他们现存的以RDMBS为基础而建立的系统容量?由于他们的工作内容几乎是百分百的点对点分析,因此客户端就得具备能够在多种数据源中直接搜索出数据的强大功能,并且要有能力在几个小时内完成恶性软件修复,因为根据客服协议,客户端必须能够快速分析大量半结构化和结构化的数据。

DATAMEER既是一种点对点的数据分析平台,也被视作一种生产(计划中的)报告系统,它将来自信息队列的Hadoop,HBase,MySQL及JSON格式数据与平面文件关联到一起。客户端在数据管道的每个阶段都能用到datameer平台,其中有超过50种传入的数据源和300个Datameer分析工作簿。在此过程中,恶意软件的特征被解码,然后被定位,进而与一系列的已知危险相分离,最终其严重性得到评估,来源也会得到确认。Datameer为来自全球不同实验站点的分析员提供了一个平台,他们在没有技术支持的情况下也能进行合作,从而大大减少了点对点侦查时间和分类潜在的和实际威胁的时间。

6. 游戏分析

游戏产业的成功秘诀在于,它完全能够满足玩家的心理需要,并且能将这种心理转化为经济效益。因此,游戏制作商需要完全清楚玩家需求,优化游戏产业,让玩家留在他们的“流动区”。

许多游戏公司希望更多玩家尝试使用他们开发的游戏产品。为此,他们通常会以改善病毒侵袭和提高游戏的商业化程度等方式实现虚拟产品销售的目标。

Datameer是一个终端到终端的解决方案,专门用来处理游戏产业中大数据分析问题。使用我们的方案,游戏公司可以做到:

在一份交互式电子表格的游戏数据分析中,有200多个内置功能,它们可以促进诸如K系数发展,以了解病毒式传播和队列分析,从而提高用户忠诚度。 存储和分析大量颗粒状的玩家数据,从而使得非技术管理人员和分析师们能够着眼于具体的游戏数据,如进入退出事件和玩家参与和对话以及正在使用中的多项功能; 综合各种数据来源从而获得关于用户以及用户活动的更好的认识,这些数据来源包括诸如:服务器日志,用户档案以及社交媒体;在此基础上,我们可以确定什么才是玩家需要的, 他们又是如何将游戏呈现给其他玩家的以及什么让他们流连忘返; 整合数各种据源,如服务器的日志文件、用户配置文件和社交媒体,获得对用户及其活动一个全面的了解,有助于我们了解功能玩家真正之所需,其他玩家对这款游戏的喜欢,以及真正留得住他们的实际内涵。 即时可视化玩家数据的分析并将其传至性化信息图表和仪表板上。

7. 包装消费品

为了向零售商提供见解,并鼓励客户采用其产品,包装消费品公司正在使用Datameer优化产品分类管理。

包装消费品(CPG)制造商为了优化其零售渠道和更好地管理产品类别,就需要将产品和消费者购买数据进行分析和关联,以更好完善产品组合战略方案。

该公司由于规模缩小,开始面临IT人才资源匮乏的挑战,这就需要一个大数据解决方案,而其并不需要专业的操作技术,便能将商业数据分析所需要的数据进行汇总。同时,该公司也需要一个能够分析大量数据集的解决方案。

当公司意识到传统的商业智能软件规模局限性,而且有必要将分析呈现给商业用户时,该公司选择了Datameer帮助他们深入了解购物者的购买路径和影响购买决策的主要因素。

在分析结构化和非结构化数据的不同品种时,Datameer让他的业务分析师们更好地管理产品类别要从以下几点深入了解:

由商店及其地理位置决定的产品价格弹性 消费者对产品、品牌和零售商的情感状况 促销活动的有效性 买方人口统计和地理位置 消费者怎样受到影响,以及他们如何影响别人 banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限