banner

面具之下:大数据分析人的密码习惯

作者: 大数据观察来源: 大数据观察时间:2016-11-30 15:35:200

 

关于密码有很多已经知道。大部分容易破解,并且短和简单。但是一个人在心里上为什么选择它做密码却很少人知道。我们分析了1000w个人(从CEO到科学家)来找出密码好记和难以猜测其中的奥秘。

1000w小窗口

谁是你第一个想到的超级英雄?选一个1到10之间的数字?最后选一个明亮的色彩。快速选择并且把这三个字符连接起来。

下面是猜测时间。

它是不是Superman7red?还是Batman3Orange?如果我们猜中了其中,那么原因就是人类是可预测的。这也是密码遇到的问题。事实是,我们通过一些不常见的问题增强了密码的强度,但是还是比不上工业级的针对密码破解的软件。举例来说,HashCat每秒钟可以进行300,000次猜解,因此尽管你使用了“Hawkeye6yellow”这样的密码,也会在不久之后被破解。

密码通常情况下都是单词和数字的组合,因此容易被猜解。我们希望探索这个,并且找出人们的思维规律。

两套数据集,多重警示

第一个数据集是从俄罗斯一个比特币交易平台泄漏出来的500w账号密码。他们大部分是Gmail账号(和一些Yandex.ru账号)。大部分是老的 Gmail账号(不再活跃)或者是密码不正确的Gmail账号。不管怎样,WordPress重置了10w账号,并声称还有60w账号存在风险。这个脱下来的裤子看上去是从多个来源,多种方法收集得来的。从学术角度来说,这个并不影响。这些密码全部从Gmail账号中选出,因为其中98%都不再使用,我们认为可以安全地使用它们。

我们把这些数据称为“Gmail裤子”,为了解答人口统计学的问题。我们从这5百万数据中提取信息。比如如果有一个邮件地址是 John.Smith1984@gmail.com,就会被标记为一个出生在1984年的男性。这种方式需要一定的技巧,但这里我们不会涉及过多的技术细节。最终,我们获得了485,000个性别信息,220,000年龄信息。在这里,就出现了一个问题,“这些使用生日和姓的用户跟不使用这些信息的用户会不会选择使用不同的密码?”。从直觉上来讲存在这种可能。我们会在之后讨论。

下面是出生年份和性别的统计图。

 

第二个数据集,也是产出最多结果的数据集,是由安全顾问Mark Burnett放出(xato.net)。它包含1000w密码,多年来从互联网的各个角落收集而来。Mark收集了公开的,泄漏的和开放的列表,从上千个源头组成了这个完整的列表。

我们不会花过多的时间在统计学上。我们先来看一下使用最多的50个密码,接着我们再进入更有趣的领域。

 

将近有420,000(8.4%)的账号在结尾使用了0~99之间的一个数字。其中五分之一的用户使用1作为结尾。也许他们认为这是最容易记住的数字。或者他们注册的站点要求他们至少使用一位数字。其他最常用的数字为2,3,12,7等。因此你要求一个人快速说出1~10之间的数字,他很有可能说出7或者 3.

分析密码的熵

简单来说,密码的熵越高,密码强度越高。熵随着密码长度的增长和字符变化的频率而增长。然而字符变化对熵的贡献不大,密码的长度成为熵的主要因素。

“Gmail裤”中的平均密码长度为8,男性的密码长度跟女性的密码长度没有明显的区别。

那么熵呢?熵是反映密码强度的一个指标。

“Gmail裤”的平均熵为21.6。这个值很抽象难以理解。上面的图片中可以看出男女的密码长度没有多少区别。下面的图可以看出有很多密码接近熵0,有少部分大于60。

 

这里有很多方法可以计算熵,很多方法是很基本的。最常见的假设就是,密码只可能通过猜解所有字符组合获得。而一个聪明的方法是通过人类的常用模式。基于模式去尝试密码可以明显地提升破解的速度。Dan Wheeler发明了一个熵评估器,叫做Zxcvbn。

可以在此获得细节https://blogs.dropbox.com/tech/2012/04/zxcvbn-realistic-password-strength-estimation/

简单来说,它能够“知晓”人们怎么在无意识中在密码中包含了特定的模式,而一个好的密码破解器会发现其中的模式。举例来说,”password”在朴素的评估下,熵为37.6。然而Zxcvbn会给出熵0(最低的熵)。

他还会给一些看上去是随机的密码一个很低的熵。“qaz2wsx”(第30常见的密码),看上去是随机的吧?事实上,他是键盘上的模式。Zxcvbn也是按这个模式命名的。

我们从1000w密码中提取出来20个最常见的键盘模式。我们排除了常见数字组合,例如123456。

 

以上是20种常见的键盘模式。前19种都很容易看出,但是除了最后一个adgjmptw。你可以猜出为什么吗?

尽管我们在开始非常困惑。我们没找到这种键盘布局跟前19种的相似之处。但它确实排在20位。

“我在密码中加入数字来变得复杂”

也许你还没发现,它其实是智能手机上从2按到9。

 

这个模式也令我们产生了一个有趣的问题。人们在触摸设备上输入密码是怎样的。

当然,键盘模式对于好的密码破解器是不成问题的。passpat http://digi.ninja/projects/passpat.php 使用了多个键盘布局和一个算法来计算密码可能是从哪种键盘输入的。市面上也存在通过一个键盘布局去省城数百万的键盘输入模式,然后使用他们作为一个列表去破解。

大部分人不使用键盘模式,他们还是使用老式并且不安全的方法来选择一个随机词组。

 

现在你可以知道为什么我们在开头选择了Batman和Superman,他们是最常用的超级英雄名称。值得一提的是上面的列表很难知道人们在使用时的语义。举例来说,在颜色列表中Black在一些情况下可能指人名Black。

尽管Love不是一个有趣的词。它却经常在密码中出现,我们发现一百万密码中就出现了4万次。在Gmail账号密码中也出现很多。

我们计算了Love这个密码出现的频率,我们可以推测出,80后和90后比老一辈人更喜欢使用这个词。

在 Gmail数据中,1.4%的女性密码中有love,而男性只占了0.7%。换句话来说,女性使用love这个词的次数是男性的两倍。这个发现符合了另外一个最近的研究。一个在安大略理工大学的研究显示ilove[男性名字]是ilove[女性名字]的四倍;iloveyou是iloveme的十倍;<3是第二常见的符号与数字组合。

 

有钱和有权人的密码

Mark Burnett发现他的网站上的裤子出现得十分频繁。他通过爬虫抓取新的裤子组成1000万的密码集。然而,攻击高价值目标的名人或者企业的事件更令人担心。就像Jennifer Lawrence et al. 和 Sony的事件。我们也好奇这些Gmail数据中能发现多少高价值的目标。我们通过Full Contact的API,它可以通过几个主要的社交网络API(Twitter, LinkedIn,Google+)来匹配邮件地址列表,然后输出他们的年龄,性别和职位。

在78,000个匹配中,我们找到上百个高价值的目标。下面我们选出了40个最著名的人,我们来看看他们的密码。

 

值得注意的是,上面有很多密码是多么容易被破解。最强的密码是github的开发者(ns8vfpobzmx098bf4coj)熵达到了96。看上去完全随机,可能是随机密码生成器生成的。最弱的密码是IBM经理(123456),它可能是为了注册一次性使用的密码。其他的密码都在复杂和好记之间找到一个平衡点。说明这些用户关心他们账号的安全。

以一个杰出人士结尾:美国国务院的处长的密码是linco1n(Lincoln)。赫芬顿邮报的编辑也使用了类似规律选择用Mulder (X档案)的trustno1作为密码。总的来说,这些高价值的人群跟其他人使用密码的方式相同: 使用姓名,出生年月,简单词组和一些数字来组成密码。我们认为这是合理的。甚至奥巴马总理最近都承认使用过1234567作为密码。

banner
看过还想看
可能还想看
热点推荐

永洪科技
致力于打造全球领先的数据技术厂商

申请试用
Copyright © 2012-2024开发者:北京永洪商智科技有限公司版本:V10.2
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限