[AI分析] 常用数据集介绍

寻找新技能 显示全部楼层 发表于 2021-4-7 15:07:00 |阅读模式 打印 上一主题 下一主题

一.自服务数据集

自服务数据集的界面中,会默认带上一个数据集结果的节点。左侧资源数据集树上有数据和操作两个部分,两个部分可以互相切换。数据区域 可以新建数据节点(连接数据库表、导入 Excel 数据、创建内嵌数据),操作包含关联(包括联接和联合)和转换(包括抽样、排序、透视表、逆透视表、分组和汇总、自循环列、镜像和去重);中间空白部分称之为画布部分;自服务还有自动布局功能。

clip0283

二、内嵌数据集

内嵌数据集提供的功能比较简单,适用于数量级别要求不高的用户。当用户的数据量不大,参数对象有限,数据关系固定,更新需求不多的时候,内嵌能够很好地满足这种数据固化的需求。通过提供简单的自定义数据集方式, 方便用户直接创建数据结构,定义参数类型,给参数赋值,生成所需要的数据集表单。

clip0259

如上图所示,红色区域对应的图标依次代表添加、上移、下移、删除。

【创建数据段】用户点击添加图标,即可添加一个数据段。用户可设定该数据段的名称及数据类型。

【删除数据段】当用户需要删除该数据段时,首先选中需要删除的数据段,然后点击删除图标,即可删除当前数据段。

【调整数据段】当用户需要调整已有数据段的顺序时,首先选中需要调整位置的数据段,然后点击上移、下移图标,进行顺序的调整。

【输入数据】在用户设定好数据段名称后,在数据区域生成相应的数据段,用户可为其添加数据。

clip0260

【删除数据】当用户需要删除数据时,首先选中需要删除的数据,然后点击删除图标,即可删除当前行的所有数据。

【调整数据】当用户需要调整已有数据的顺序时,首先选中需要调整位置的数据行,然后点击上移、下移图标,进行顺序的调整。

三、Mongo数据集

YonghongBI 支持连接 MongoDB 数据源,进行数据查询、计算和分析。通过输入 URL、用户名和密码成功连接 MongoDB 后,选择数据库中的某个集合,即可以数据集这个集合中的数据。产品支持管道操作(Pipeline)语句对集合进行过滤、分组、聚合和排序等等操作。

在打开的界面中,用户可从已有的数据源中选择 mongo 数据源,编辑使用管道操作语句。

clip0281

【数据源】用户从已有的数据源列表中选择已经创建好的 Mongo 数据源。

【集合】可以在此输入集合(Collection)名称,此列表中列出了默认数据库下的所有集合。展开后可以对数据库下的集合进行搜索。详细用法可参考简介中数据源搜索部分。。

【管道操作语句】用户输入管道操作(Pileline)语句,实现对数据库中数据的数据集。

【刷新元数据】在选择集合名称之后,点击刷新元数据,既可以按列以 Table 的形式显示集合中的所有数据。也可以输入管道操作语句,产品可以解析 “{}” 括起来的所有正确的管道操作语句,多个管道操作语句之间用逗号分隔。

如 :

{ $project : { market:{$toUpper:"$market"} , sales:1, _id:0 } },

{ $sort : { market : 1, sales: 1} }

用户第一次点击刷新元数据按钮时,上传文件的数据被刷新出来,数据集编辑区会自动收缩,由数据区展开覆盖,显示为细节数据的状态,再点击预览数据集即可预览详细数据。点击收缩控件,数据集编辑区和数据区会同时展示,保存后再打开,也是显示为细节数据的状态。

四、excel数据集

相对于其他数据集,Excel 数据集的使用简单方便。当用户的数据存储在 Excel、CSV、TXT 或 LOG 文件中时,可以通过 Excel 数据集直接上传数据,作为数据集使用。

Excel 数据集目前支持上传 2003 和 2007 类型的 Excel 文件。

??上传 Excel

clip0217

【上传】点击上传,弹出对话框,可选择所要上传的文件。

【上传文件】指所上传文件的名称。

【工作表】工作表中列出的是 Excel 中所有 Sheet 表的名称,默认选中第一个 Sheet 表。 Sheet 表可以根据需求单选或多选。多选时,会按照第一个 Sheet 表的列数和列的数据类型进行匹配。当第一个后面的 Sheet 表列数与第一个 Sheet 表列数不匹配时,不能上传。当第一个后面的 Sheet 表列数与第一个 Sheet 表列数据类型不匹配时,会按照第一个 sheet 表的数据类型显示。

【加载方式】选择加载数据的方式,直接使用文件的的数据还是要将文件的列数据转换成行数据。

【起始行】读取数据开始的行数,默认是 1。

【表头】分为自动,第一行,无。自动:表示系统自动判断表头行;第一行:表示将每个 Sheet 表的第一行作为表头行;无:表示各 Sheet 表都没有表头行, Sheet 表中内容都按照数据来处理。

【生成逆透视表】将拥有行表头和列表头的交叉类型的表格生成正常的只有行表头的表格。

【行表头层级】所上传表格的行表头数。

【列表头层级】所上传表格的列表头数。

【删除无效行】默认上传 excel 时是不删除数据的。如果勾选了删除无效行,系统会自动删除不合理的数据行,例如:数据行中的某一行 10 个数据中有 9 个数据为空,则系统会自动删除这一行。

【刷新元数据】用户第一次点击刷新元数据按钮时,上传文件的数据被刷新出来,数据集编辑区会自动收缩,由数据区展开覆盖,显示为细节数据的状态,再点击预览数据集即可预览。点击收缩控件,数据集编辑区和数据区会同时展示,保存后再打开,也是显示为细节数据的状态。

•生成逆透视表举例

1)例如,存在一个交叉类型的 Excel 表格,其中行表头数为 1,列表头数为 2,具体数据如下:

clip0253

2)上传,勾选生成逆透视表,并设置行表头层级为:1,列表头层级为:2:

clip0254

3)刷新元数据,对表格中的数据进行处理,即:1 个行表头数据,2 个列表头数据和数据都作为一列,数据按照从上到下,从左到右并与行列表头数据对应的顺序列出。预览数据集时的数据为:

clip0255

??上传 CSV

clip0256

【编码类型】当选择上传的文件后,系统会自动加载对应的编码类型,也可以根据需求自定义。

【分隔符】系统会自动检测分隔符。用户也可以通过下拉框,选择分隔符。可选的分隔符类型包括:逗号、分号、竖线、制表符、空格、自定义。选择自定义时,用户可自己输入所需的分隔符。

其余功能与上传 Excel 相同,请参考上传 Excel 界面。

??说明:上传 TXT, LOG 的上传界面与 CSV 上传界面相同,不再重复介绍。

回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |联系社区管理员|《永洪社区协议》
返回顶部