banner

巴西和俄罗斯网购数据分析 电商全球化指导

作者: 大数据观察来源: 大数据观察时间:2017-02-21 15:42:420

 

巴西和俄罗斯,同属金砖四国。但一个位于北半球,与北极圈接壤;一个跨越赤道延伸到南半球。一个是民风彪悍的战斗民族,一个是激情热舞的桑巴王国。这里我们感兴趣的是,在网购这件事情上,他们到底相似的多,还是差异的多。

0. 前言

数据说明

本文的数据来自于我们自己的电商平台及同类平台的公开数据。

第1节的分析数据是热门搜索关键词,每个国家取了最热门的前600个搜索关键词,时间跨度是最近一个月。第2节和第3节的分析数据是商品交易数据,时间跨度是最近一年。

数据预处理

首先,因为两国都是非英语系国家,以本土语言作为搜索词是常见的,所以第一件事情就是把它们翻译成英文,幸好待处理的都是一些单词短语,并没有复杂的语义结构,用google翻译的质量已经够用了。

然后是对单词做Stemming,即把复数、进行时等等不同的单词形态转化为标准形式。这一步使用NLTK的stem包实现,结果并不完全准确,偶尔可能会出现一些转化失败的肮脏单词。

误差说明

用户群的偏差:这里的分析结果只适用于我们及同类产品的目标用户群,即外贸电商的目标用户群(对于目标国家来说,就是有海淘习惯的用户),不代表该国普遍的民众

时间的偏差:数据说明中已经提及,数据均来源于最近的访问行为,而不是长期行为的统计。特别是搜索词只取了最近一个月的数据,所以有可能部分结果是受到近期热点影响的。而第1节和第2节的分析中数据的时间跨度又不一样,所以严格来说,也不能认为两者的结论是可对比的

数据量的偏差:这个偏差可以认为基本不存在,因为数据量级肯定能保证分析结论在统计上的显著性

1. 热门搜索词分析

先放一个Top10搜索词的对比,本地语言都在后面做了英文翻译。这个对比仅为增加读者对这两个国家的感性认识,看看就好,我不深入分析,如果大家从中发现了什么少儿不宜的东西,绝非有意,我只是个搬砖的而已。

巴西-俄罗斯 Top10热门搜索词

搜索词之间有很多语义关联,比如”men t-shirt”和”women t-shirt”,所以我打算在一个更小的粒度进行分析。于是,我把两个国家最热门的600个搜索词拆成一个个的关键词,在关键词层面去探讨他们的异同(比如“men t-shirt”就是拆成“men”和“t-shirt”去单独分析)。又因为搜索词本身是有热度的,拆开成关键词后,该词继承原有搜索词的热度,保留了原有的搜索热度信息,如果关键词出现在多个搜索词中,则热度叠加。根据热度值倒排我们能得到两个国家的热搜关键词表。

对比两个国家的热搜关键词表,可以算出三组数据:两国共同热搜的关键词、巴西特异的关键词、俄罗斯特异的关键词。它们的计算定义如下:

在两国都出现的热门关键词,并且它们在热度榜上排名的位次相距较近

只出现在巴西的热搜榜,并且排名比较高(100以内)的关键词

只出现在俄罗斯的热搜榜,并且排名比较高(100以内)的关键词

共同热搜关键词

为了表达的形象,我把共同的热搜词做成了一个标签云。

共同的热搜关键词

从这个图我们能得到一些国别无关的共性特征,比如:

网购还是女性主导的天下(women是热度最高的词)

服饰、鞋和包构成了品类的第一军团(dress, shirt, bag, jacket, clothe)

手表、饰物构成外贸电商品类的第二军团(watch, bracelet, ring, ear)

3C以手机配件为主(iPhone, case)

当年兰亭集势起家的婚纱目前依然是中国的优势品类(wed)

特异关键词

然后是两个国家的特异关键词表,见下表,在一些有意思的关键词后面我都加了注释。

巴西

party 果然是全世界最热衷于“爬梯”的国家boytennis 居然不是football而是tennis,这我也挺意外的macfantasy 不是具体的商品,只代表该民族一种共性的偏好game 娱乐至上sun 这个主要是从sun glasses截出来的lipstick (口红)plus size 主要来自plus-size这个搜索词,加大码的衣服。身材的差异啊winter 南半球的人们季节性的偏好frozenchina 对中国制造的认知可见一斑polo (polo衫)moto (摩托车配件、摩托罗拉)blazer (轻便夹克)cheap 限制性关键词heart 心形首饰、石头、太阳眼镜等pencil 来自铅笔盒/包,裙型petespeciallyincome

俄罗斯

sport 运动相关,战斗民族需要随时关注运动nail polish (指甲油)swimsuit, swimwear 比较意外,本以为这个特征应该出现在巴西人身上才对tracksuit (运动服)beads (珠子)camera (相机)light (灯、打火机)cigarett (电子烟具)embroidery(刺绣)居然还关注我国国粹,难道是近水楼台?gum (发圈、皮筋)lenovo 联想扬我国威tent (帐篷)style (来自summer style)sterling 主要来自于首饰搜索词product 主要由sex-product贡献monopod 风靡全国后走向世界为国争光的自拍杆lady

除了对个别词的分析,对比这两个词表,我们还能得到对两国国民性差异的一些浅层的认知。比如,可以看到,俄罗斯人的搜索指向更倾向于明确的品类和商品,巴西人的搜索则倾向于加上更多的情感性、场景的描述或现实的约束条件,如party, fantasy, winter, frozen, china, cheap, heart, especially, income。

2. 购物偏好分析

搜索代表的是用户的购买倾向,即用户想要什么,交易则代表的是用户实际得到了什么。下面看看两国用户实际买到手的是什么东西。

先看如下一张表,它展示了两国按成交量排序,购买量最大的十大品类,以及该品类的货单价。

巴西-俄罗斯热卖品类及货单价

从该表我们至少能得到如下认知:

1)相比于搜索关键词的差异,在最终成交的品类上,两国并没有表现出太大的差异,甚至各个品类的客单价,也大同小异

2)在前十榜单里,出现了多个服饰、首饰相关品类,这也符合我们上面的分析,这是目前外贸的两大主力品类

3 )蓝色标注出来的Bonsai(盆景),出乎我意料地出现在两个国家的前十榜单,并且货单价都很低,由于对该行业不甚了解,所以我也并不能理解这是为什么,这里把它作为一个现象提出来

4 )红色标注的是榜单里唯二的两个有差异的品类,Sunglasses(太阳镜) vs. Drop Earrings(吊坠耳环),原因应该是跟巴西地处日照充分的热带有关系

3. 女装连衣裙品类分析

服饰是第一大品类,连衣裙(Dresses)又是服饰中的巨头,所以我有兴趣把它单独拿出来,看看具体到这个品类的购买偏好是否有差异。下表就是连衣裙在两国的热门款式——按属性分类,按交易量倒排,各属性对应的中文翻译都已经注释出来。

连衣裙购买偏好对比

结论其实很明显,在这个品类上基本没体现出两国在偏好上的差异,仅仅在黄色标记的袖长和裙型上,有一些细微的差别。有可能,连衣裙就是一个类似于普世价值观类型的品类吧。按照同样的分析方法,我应该能找到一些两国具有明显差异的品类,又或者在某些主流品类上存在着明显差异的两个国家。这个等以后有比较有意思的发现了,再分享出来。

4. 全球化过程中个性化的意义

由于多年从事个性化推荐算法工作的缘故,很多场景我都有一套随时待命的思维模式去分析。之前我跟人说过,广告和电商是目前个性化算法最佳的应用场景,因为个性化技术能给这两个领域带去从用户体验到商业模式上的升华。个性化技术能应用于互联网产品的方方面面,最大的增益就是用户得到自己想要的信息,流量效率被极大化地利用。但在很多场景里,从用户体验的提升到商业模式的成立之间还有很大的鸿沟去跨越。很多时候,这个鸿沟是靠广告和电商去填平的(互联网为数不多的变现方式)。而当你把个性化这个工具直接作用于这两个成熟的领域,用户体验和商业模式的提升就一致了。

在全球化的过程中,个性化的意义正在被放大。因为,如果你之前还对于在国内应该做热点还是应该做个性化存疑的话,在全球化的市场,个性化是不可避免的课题,因为在国家层面就存在着巨大的差异性,流量效率的优化,需从国家及至个人。

再回头看看上面分析的案例。我们的发现是:搜索词的差异性远大于实际成交的差异性。可以认为在用户主观意愿上的需求及实际收获的物品上,存在着巨大的鸿沟。市场的供应并未能满足用户的初始需求,或者说市场供给的非个性化掩盖了个性化的需求。这是一个很有价值的现象。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限