banner

使用python和tableau对数据进行抓取及可视化

作者: afenxi来源: afenxi时间:2017-03-28 11:44:060

摘要:本篇文章介绍使用python抓取贷款及理财平台的数据,并将数据拼接和汇总。

本篇文章介绍使用python抓取贷款及理财平台的数据,并将数据拼接和汇总。最终通过tableau进行可视化。与之前的python爬虫文章 不同之处在于之前是一次性抓取生产数据表,本次的数据需要每天重复抓取及存储,并汇总在一起进行分析和可视化。

使用python和tableau对数据进行抓取及可视化-数据分析网 开始前的准备工作

开始之前先导入所需使用的库文件,各个库文件在整个抓取和拼表过程中负责不同的部分。Requests负责页面抓取,re负责从抓取下 来的页面中提取有用的信息,pandas负责拼接并生成数据表以及最终的数据表导出。

</pre> #导入requests库(请求和页面抓取) import requests #导入正则库(从页面代码中提取信息) import re #导入科学计算库(拼表及各种分析汇总) import pandas as pd <pre>

设置一个头文件信息,方便后面的抓取。这个头文件有两个作用,第一防止抓取时被封,第二方便后面对页面源文件的转码。

</pre> #设置请求中头文件的信息 headers = , columns=columns) print(数据表创建完成!) table.to_csv(C:UserscliffwangDesktopwdty+date+.csv,index=False) print(date+日数据导出完毕!) table.to_csv(wdty.csv,index=False,mode=a) print(累计数据追加导出完毕!) end = time.clock() print ("执行时间: %f s" % (end-start)) <pre>

自定义函数写好后,每次只需要执行loan_data()就可以完成之前的30+步骤的工作了。下面是代码和输出的状态信息以及代码执行时 间信息。

</pre> loan_data() 页面抓取状态正常。 编码转换完成! 数据提取完成! 数据表创建完成! 2017-04-19日数据导出完毕! 累计数据追加导出完毕! 执行时间: 0.933262 s <pre> 使用tableau进行可视化

导出的数据虽然为csv格式,但使用excel进行可视化并不理想,主要问题在于excel对图表行列数的限制(每张图最多只能容纳255个数 量列)。因此,我们将数据表导入到tableau中进行可视化。下面是对600+家网贷平台数据的可视化截图。尺寸为各平台总成交额,颜 色为综合利率。

使用python和tableau对数据进行抓取及可视化-数据分析网

 

原创文章,作者:蓝鲸,如若转载,请注明出处:《使用python和tableau对数据进行抓取及可视化》https://www.afenxi.com/post/45393

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限