神策数据：做一款帮用户真正实现数据驱动的工具

作者: afenxi来源: afenxi时间:2017-05-29 10:42:530

内容摘要:

2016年4月19日神策数据正式对外宣布获得由红杉资本领投的2600万A轮融资，一个数据分析类的产品如何在资本寒冬成功融资并获得众多知名投资机构认可与支持？BAT背景，高技术壁垒，最能为用户创造价值的产品理念…...这些高度概括的语言或许很难阐释神策数据发展与成长的秘诀，借着本次神策战略发布会契机，小编特别整理了神策四位创始合伙人在419神策战略发布会现场的演讲记录，满满的干货带您系统详尽的认识一个完整的神策数据。

桑文锋：

各位尊敬的嘉宾大家下午好！很高兴大家能够过来给我们神策数据捧场。下面首先由我给大家介绍一下神策数据整个这一年来的发展历程。

神策数据创始人&CEO 桑文锋

谈神策就不得不谈百度，大家也都知道我们这个团队核心人员都是从百度大数据部出来的，一直是围绕大数据这块做，从2008年我们就开始做数据这块的事情，当然那时候没有大数据的概念，大数据的概念是2011年、2012年出来，我们在百度从零到一做这个事情的过程可以分成三个阶段。

2008：日志统计平台

第一个阶段是2008年，我们做了日志统计平台，到2011年做了用户数据仓库，再次是2013年把数据源管理这块做了一个系统的改造。

首先回到2008年的时候，那时候百度流量已经很大，像知道、贴吧的数据量非常大，因为百度文化里面有一条，就是用数据说话，这点也是百度文化里面我非常认可的一条。那时候不管做一些产品也好，做一些功能也好都要看数据，所以我们有很多种需求，需要进行流量统计和数据分析这些东西，当时做这个事情就遇到了问题。因为各个业务都提这样的需求，处理起来需要写脚本，然后上线，整个需求周期非常长，并且你提需求需要等待一段时间才能得到响应。今天在座程序员很多，写一两个脚本没问题，写很多维护起来很麻烦，很容易出问题。第三点 Hadoop 还没有出来，还没有应用起来，整个运行起来从提交一个任务单机去跑周期非常长。

我们在2008年的时候基于 Hadoop 的做了日志统计平台，当时我们心里没底，但还是愿意尝试。这个平台做了之后效果很让我们震惊，当时把PV统计、UV统计做了简化抽象，产品经理在上面都可以做点选操作来实现。其次是运行周期，因为从单机计算，变成分布式的一百多台，几个小时的任务变成一两分钟就可以跑出来，因为整个平台效果比较好，整个公司都统一到这个平台了。

这个事情是我们比较有成就感的，但是这个事情如果你这个需求得到解决，很多压抑的需求会被解放出来，用的人越多需求越大，经过一年半的时候变成5000台了，整个公司都在用，并且每个季度提预算的时候都提1000台，之前提预算都是心惊胆战的，像知道、贴吧都是几十台，而数据处理的效果很难说，这是当时的情况。

同时那个时间虽然百度整体做的比较好，但是业内网站统计这块刚刚出来。像 CNZZ、百度统计（适用于个人站长，和我们做的内部平台不是一回事）都是那个时候起来的。

2011：用户数据仓库

针对计算资源膨胀以及数据质量没有保证的问题，我们当时做了一个用户数据仓库的事情，当时百度已经有很多业务线，业务线像知道、贴吧都是相关的业务线，从源头产生的质量还是优先的。在这个基础上首先要结构化，从非结构化的数据变成结构化，然后把整个公司的业务线形成用户数据仓库，在这个基础上建不同业务的主题数据，在这上面可以建立起来BI支持。

用户数据仓库等于全公司，全百度的业务线都统一到一张表上，我们通过用户 ID 把用户在百度各个业务线的访问行为全部抽出来，再这上面做数据挖掘、数据分析非常容易。

这是2011年的时候，移动统计工具开始出现，这时候确实移动互联网发展，智能手机普及，大家对移动数据需求从只是 PC 上变成 App 也都起来了，这是一个需求。另外大的互联网公司在这个阶段慢慢都引入了 Hadoop 相关的技术。

2013：数据源管理

当然我们把数据的基础打完之后又进入了新的数据阶段，因为这个领域发展比较快，进入到了新的问题阶段。因为我们前面讲到数据源本身做的不够理想，结果带来的问题，首先我们把原始的数据经过结构化，然后统一表，整个过程是开发周期，整个入库周期比较长，另外多了几轮计算，整个时效性没办法保证了。

之后我们做的事情可以分成三块，一块是从数据源上，这时候我们发现事情想做好最重要的数据源，在数据源头上面本身变更都给有效的管理起来。中间就是数据传输，我们从批量的方式进行实时进行数据传输。之后就是查询，对查询引擎本身做一个改造，改造的时候提出一个数据从源头产生之后马上就能通过查询引擎分析。回到2012年，那时候我和从 Google 来的总监谈，他说在 Google 源头产生数据，很快就可以进行 SQL 分析，我很诧异。没有想到我们经过两三年的时间也达到了这一点。

这样做的效果是数据源产生后马上就能用 SQL 进行分析，另外就是全公司几万台数据源服务器都可以进行有效的管理。

2013年整个业内不只是大的互联网公司用，崛起的互联网公司也都开始进入 Hadoop 领域，同时已有的统计工具也逐渐满足不了创业公司的需求。

大数据分析时代的到来

具体来说主要是这两三年发生了三点变化，一个是从数据采集手段上，一是移动互联网的发展，许多线下的行为变成了线上的行为，另外就是传感器的发展，很多采集不到的现在变得采集到了，这样也能让创业公司采集到很多数据。

第二点就是数据分析能力，基础设施完善，感谢摩尔定律，机器越来越便宜，性能越来越好，另一方面 Hadoop 整个生态变强了，我们以前真正安装部署好 Hadoop 可能几周过去了，现在两个小时一个工程师可能就从不会很快就能把 Hadoop 这些东西用起来。

还有一点就是整个大的环境，大家对数据的重视程度开始提升，这点确实要感谢大数据的概念真正起来，让大家真正意识到数据是一个很重要的东西，另一方面，创业公司逐渐发现用数据和不用数据差异非常大，像去年还是前年，很多做O2O的，你做很多事情有很多家和你一块做，竞争很激烈，还是要数据化的运作，精细化的运营分析。

创业公司的两种选择

对于创业公司来说有两个方式解决这个问题，一个方式就是自己去做，另一个方式就是用第三方工具。自己去做带来了两个问题，一个是人力成本，我们知道最开始可能只有 BAT 去培养一批大数据相关的人才，这块的人又稀又贵，如果你想做这样的事情一两个人不管理用，起码得招七八个人，另一方面大数据平台很复杂，所以需要很大的工作量做，你真正投入可能要半年、一年才能见效，与你做业务的竞争对手可能早就往前跑了。

利用第三方工具问题也来了，像之前的移动统计、PC 统计的工具，这些我认为他们有三个问题确实是对创业公司用来说解决不好。一个是从数据源上，数据源非常重要，像这个一般只采集客户端的数据源，而没有采集服务端、数据库的数据源。如果你没采集怎么分析呢？第二点是分析能力，这些工具一般是解决宏观的数据分析，比如访问量、用户量，这个没问题，但是做深度分析，比如来自北京的、年龄20-25之间的、最近一个月购买10次的，我想看客单价如何，这些分析在已有的工具上就很难做。另一方面就是本身数据资产这块的顾虑，你用第三方的工具你的数据是放在第三方平台，特别是和你核心业务相关，钱相关的，你不愿意把数据放在第三方平台，并且有些业务之前用这样的工具，但是过了两年发现之前积累的东西全部没有了。

神策分析

这就引出了我们做的这个事情，对我们来说是个机会，我们在百度做的在业内更靠前一些，比业内技术领先一些，我们觉得我们做的产品可以比它们好很多，这就是我们做的神策分析。接下来我和我的合伙人曹犟做一个产品演示，这个演示是基于我们去年9月25号的产品发布活动。我们团队在去年的4月25号的时候成立，9月25号经过5个月的时间产品真正出来了，出来之后我们就要对外发布，其实当时的发布没有这么隆重，当时比较简单，我们就请 36Kr 写了一篇报道文章，并且加了我们的产品链接。

那时候我们团队就12个人，就说比一比，看谁能赢过来更多的客户，我们就在发出去的链接里面加了一个渠道号，sangwf 就是我的参数，caojiang 是曹犟的参数，这样我们就能跟踪每个员工引过来的用户情况怎么样，这是当天晚上，9月25号晚上六点半发的消息，基本上在朋友圈里面发一发，微信群发了红包让大家用一下，36Kr 只带来了0.6%，比我们预期少了很多。另一块是曹犟带来的数据，我后来看了一下数据还是有点让我不是很爽，曹犟带来的比我带来的还要多，我觉得我发范围更广一点，单从访问数据来看，曹犟带来的数据更好。

当然我们的目的可不是让人过来到我们官网看一眼就可以了，我们很关注的是他能不能变成我们的试用者。其实就是说等于把我们四个渠道虑出来看看这个效果，从源头上来说曹犟带来1300多个试用用户，我带来1200多个，这样来看是曹犟多，但是申请试用的，因为要填联系方式，担心会不会骚扰他，有一些就不填，只有一部分人真正变成了试用客户，提交了申请。但提交申请不一定真正会用，因为那时候我们选的时间不是很好，正好选在中秋节前面，第二天开始就放假了，当时预计没有多少人试用，当时觉得100多人差不多，结果超过了500多个，当天晚上就有两三百申请试用，我们开始没准备好给大家自动发账号，是通过手动发的，这个发的时间晚了一点，所以这个人试用的情况没那么理想，只有20%的人发的账号真正用。

这里面可以对比，我们看真正申请试用的，这里我比他多了50%，真正试用他带来了7个，我带来了22个，所以我们看深度的，你真正看转化，看你真正想要的数据和你只看表面的，肤浅的数据整体访问量得到的结论是完全相反的，这就是深度数据分析的价值。

第三点我们可以看看留存分析，因为来了之后，我们这里看首先访问了我们的官网，访问之后看真正留存，看试用情况，我们看到头一天不多，头一天账号没有发去，第二天开使用，有些人零零碎碎的试用我们的产品。

可以点进去任何一个数字，我们可以去看都谁这一点真正用这个东西，还可以点到具体一个人，然后看这个人在产品里面干了什么事情，这个功能是今天正式对外发布的，行为序列的功能。

还有就是用户分群，我前面举了例子来自北京的20-25岁之间女性，你把人分成各种各样的群，在里面非常方便，我们的用户分群绝对是国内最好用的，最强大的用户分群。

神策分析的三个特点

我说一下我们整个产品的特点，我刚才的演示说明我们本身在用数据分析深度上比他们好很多，从差异化的角度上来说有三点做的比较好：一点是我们提供私有化部署，我们可以部署到客户自己的服务器上。第二点是我们支持全端数据接入，这些数据我有办法让你接入进来，第三点我们是一个 PaaS 平台，具体来说是 PaaS + SaaS，像友盟是 SaaS，你想做个性化推荐，做深度的数据挖掘，这些肯定做不了，但是我们这个平台底层数据是开放的，接口是开放的，能力比他们强很多。

私有化部署

接下来由我先给大家介绍一下私有化部署。私有化部署可以说不是一个新鲜的概念，在座的各位有些是来自传统行业的，大家做传统的项目，我们就是私有化的，本身就是部署在企业内部让它运行起来，这个不是新鲜的概念。传统的方式有两个问题，一个是整个现场实施代价比较大，整个项目做起来周期比较长。另外就是项目本身非标准化，我 A 家做了一个系统，来到 B 家就不能用了，我们肯定要基于 B 的业务重新做，这就是传统私有化部署的问题，本身很难规模化。

那 SaaS 就应运而生的，其实 SaaS 不是新的概念，1999年就提出来了。有三点优点，整个实施代价低，另外就是产品标准化，还有就是资源利用率比较高，不像自己部署的一套，空闲80%时间，全球24个时区，每个时区繁忙时间都是不一样的，正好可以轮流去用，像AWS 整个资源利用率就比较高。

但它有个致命的问题就是数据安全，数据安全在国内尤其严重，大家天生的对第三方很难信任，很难觉得我的数据放在第三方，放在友盟担心让阿里知道，其实我觉得担心也可以理解。

这里就提到我们本身做的下一代私有化部署。首先我们去解决它的数据安全顾虑，还有本身数据资产的管理，如果我们按照老的方式去做，那我们这个事投资人就不会投我们，根本没办法做大，我们有两点差异比较大的点：一点是远程部署，我们通过远程直接部署到客户上去，客户提供机器账号，或者提供端口就可以进行远程操作，这样就解决了实施代价比较大的问题。当然我们远程操作本身客户是可以管理起来的，我们都有详细的操作记录可以查。我们神策数据卖的就是数据分析能力，不像其他一些公司为了通过免费的工具获取数据，在通过数据赚钱。另外一点我们是标准化的产品，大家如果看我们官网的客户列表，各种客户都有，但是他们用的同一个东西，我们不会为客户修改任何一行代码，提供灵活的配置去适用各种行业，各种领域都能用起来，并且能够保证我们研发团队的高效。

私有化部署部署就讲完了，接下来由我的合伙人曹犟介绍一下数据采集，全端数据接入的情况。谢谢大家。

曹犟：

刚刚文锋给大家介绍了我们产品的三个主要特点中的第一个：私有化部署。在这里，需要补充的是，我们剩下的两个特点，不管是全端数据接入，还是 PaaS 平台，都是以私有化部署为前提才得以实现的。

神策数据创始人&CTO 曹犟

下面我来给大家详细介绍一下我们在全端数据接入方面所做的一些工作和努力。

数据接入是核心问题

我们认为，一个典型的数据平台可以分为数据接入、数据传输、数据存储和建模、数据统计分析与挖掘、数据的可视化和最终反馈。在我们看来，数据接入是其中最关键的一个步骤。数据接入的好坏，会直接影响数据的质量，进而影响数据平台最终的应用效果。

不妨假设一下，如果我们数据接入的不准确、不完备、不细致，会带来什么样的后果？可能你的产品发展了两年，发展的非常好，用户规模增长很快，到了考虑风控，考虑个性化推荐这些数据的进阶应用的阶段了，这时候，你可能会突然发现这两年由于少接入了一个关键的字段，导致这两年所有的数据记录全部都作废了，那时候只能是欲哭无泪。

再假设一下，当你想做了一个大的推广活动，想评估实际效果的时候，你可能会发现由于没有提前和开发人员沟通，做数据埋点，会导致整个推广活动的效果完全无法评估，需要重新开发代码，更新模块，从头开始积累数据。

还有种情况，当你想依靠数据做商业决策的时候，你可能会发现由于一些已知未知的错误，导致数据接入的不够准确，导致最终的决策也完全不可信。从这几个例子，我们可以清晰地看到数据接入的重要性。

三种接入数据源

下面，我们以一个典型的互联网用户产品为例，来对数据接入进行更加细致的描述。一个典型的用户产品通常会接入三类数据。

其中接入最多，使用最广泛的一类的是前端操作数据。上图是一个典型的提交订单页面，通过前端的可视化埋点，我们可以从这个页面得到“某个用户在某个时间提交了某个订单”这么一个信息。而如果我们稍微多花一些代价写代码，通过代码埋点的方案，则在这个基础上，还可以拿到订单金额、商品名称、用户级别，这样一些更加具体的内容。从这个例子中可以看出，同样是前端数据接入，代码埋点相比较可视化埋点，在接入能力上是有着明显的优势的，我们不能迷信所谓的可视化、无埋点这些噱头。而目前，绝大部分的第三方工具提供的数据接入方案都是前端接入，前端埋点，当然接入能力上也就仅此而已。

但是，除了前端操作以外，我们会有一个用的更多更广泛的数据，这就是后端日志。依然以前面这个订单提交为例，我们可以通过代码埋点，或者导入工具接入日志，来拿到很多在前端无法获取的信息，例如商品库存、商品成本这种前端不需要的数据，或者是像用户风险级别、用户潜在价值这样具有一定隐私性不适合从前端记录的数据。目前，一些大型的互联网企业的内部团队，在分析和使用数据的时候，都是以后端为主。

还有一类比较常见的分析数据就是业务数据。业务数据可能是进、销、存等订单数据，也可能是第三方服务，如客服、配送等通过数据接口传递来的一些信息。目前对于业务数据的分析，是缺乏现成的工具的，一般是需要临时性地写 SQL 来分析，是一件非常繁杂和痛苦的事情。

数据接入是件苦事

我们创业这一年多来，和上百家客户，很多亲朋好友，就数据这个话题有过比较深入的沟通。在数据接入方面，大家都反应了很多的问题，我觉得也非常具有代表性。

一方面，数据的使用方和接入方通常会是两个团队，数据的使用方是产品或者运营等非技术同学，数据的接入方则是技术人员，所以每次要做数据接入，都会有否长冗长而琐碎的沟通。

另一方面，即使数据使用方搞定了技术帮你添加新的埋点，这也会是一个很漫长的过程，要先开发，然后发版，然后等待用户更新，整个流程很长，迭代代价很痛苦。并且其中会有很多难以把握的过程，例如，一个简单的代码错误，一个简单的调用错误，都无法保证数据的完整性和正确性。

同时，我们的企业，我们的业务都会持续发展，运营和推广活动也会越来越频繁，我们会发现，在前端埋的点会越来越多，这些埋点会多到让人无法管理，让人抓狂的程度。所以，对于数据接入这件事情，很多人都异口同声说这是一件苦事。

关于这件苦事，目前有两种解决思路。有一些友商可能会说，既然数据接入很苦，我们是不是能少接入一些数据，让接入变得更加简单，越简单越好，越简单我的分析产品就越容易卖，见效也越快。另一种思路则是会觉得虽然数据接入很苦，但是我们依然要坚持要以数据质量为核心，要迎难而上，宁愿通过各种工作、各种努力来来想法设法提高接入效率，也不能放松接入的数据的质量。

而我们团队，一直信奉，我们会坚持做正确的事情，而不仅仅是做容易的事情。所以我们依然坚持以数据的质量为核心。我们承认数据接入是件很困难的事情，但是我们不会对这个困难避而不谈。我们会做好我们的产品，会做各种工具，做各种系统，提供各种方案，来加快数据接入的过程。但这一切的前提都是要保证数据接入的质量。

神策数据的全端数据接入

神策数据：做一款帮用户真正实现数据驱动的工具-数据分析网

经过我们的努力，我们技术人员的辛苦开发和测试，我们已经做到了，对于我们的客户，不管是使用后端日志，在手机 App 上埋点，在网页上埋点，还是要导入业务数据和第三方数据；不管准备用代码埋点、可视化埋点还是各种导入辅助工具，我们系统都能提供统一的埋点管理平台。我们的管理平台可能是目前业内唯一一个能够对全端的埋点提供统一管理的系统，在这个系统上，我们可以添加埋点、禁用埋点、编辑埋点、删除埋点，能够看到不同埋点是否在正常导入数据，导入的数据的质量如何。

除此之外，我们还有经验丰富的数据分析师团队来帮助客户解决数据接入的问题，我们的分析师团队会针对不同客户的不同的分析需求，来提供最合适的解决方案。如果客户只是想分析PV、UV等基本指标，或者是新功能迭代时进行快速的效果评估，我们会建议客户从前端以可视化埋点的方式接入数据；如果客户想精细化的分析转化流程，分析不同渠道和不同推广方式的效果，我们会建议客户通过代码埋点从后端获取数据；如果客户想从第三方客服系统获取数据分析客服服务的质量，或者想从第三方配送系统获取数据分析快递的速度，我们则会建议他使用导入辅助工具调用第三方系统的数据接口来解决这个问题。

简单来说，神策分析目前提供了一个全端的埋点解决方案，来应对客户不同的使用场景，并且我们提供了业内独一无二的全端埋点管理系统，来用于对埋点的统一管理。

最后，我们回顾一下使用我们的系统接入数据的最佳实践。在最开始，我们会建议客户通过可视化埋点以及用工具导入历史数据来快速完成数据接入，从而迅速看到分析效果，快速地做出决策。在这个决策的基础之上，客户一般都会有更具针对性和更复杂的需求，这种情况下，我们建议他通过代码埋点或者用工具实时导入后端的日志，来做更针对、更详尽、更全面的数据接入以及随后的分析。于此同时，如果客户有新功能上线，或者有推广活动要做快速的决策和分析，我们会建议他用前端可视化埋点来快速接入，快速看到效果。

看过还想看

可能还想看

热点推荐