加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

只需五步!哈佛学霸教你用Python分析相亲网站数据,在两万异性中找到真爱

发布时间:2019-10-09 17:20:07 所属栏目:建站 来源:Wired 编译:啤酒泡泡、张大笔茹、张睿毅、牛婉杨 想脱单
导读:大数据文摘出品 来历:Wired 编译:啤酒泡泡、张大笔茹、张睿毅、牛婉杨 想脱单?那还不轻易! 假如身在美国,就像别的四万万只身汉子一样,注册一下Match.com, J-Date和OkCupid等相亲网站,坐等真爱上门不就可以了。 可是信托大大都人和McKinlay一样,尽量
副问题[/!--empirenews.page--]

只需五步!哈佛学霸教你用Python说明相亲网站数据,在两万异性中找到真爱

大数据文摘出品

来历:Wired

编译:啤酒泡泡、张大笔茹、张睿毅、牛婉杨

想脱单?那还不轻易!

假如身在美国,就像别的四万万只身汉子一样,注册一下Match.com, J-Date和OkCupid等相亲网站,坐等真爱上门不就可以了。

可是信托大大都人和McKinlay一样,尽量向OkCupid算法保举匹配的女性发送了很多暧昧私信,但绝大大都都石沉大海了。

转折呈此刻2012年6月的一个早上,这个只举办过6次线下约会的汉子正在电脑上编译呆板代码,另一个窗口表现着他孤零零的结交头像,他溘然顿悟:他一向在行使错误的要领探求恋爱。

为了不辜负本身在应用数学规模取得的后果,他抉择,在OkCupid上爬取每一条相干信息,操作要害的K-Modes的改善贝尔尝试室算法找出数据纪律,缩小范畴,然后一击掷中。

换句话说,这是一次数学家独创的美满约会履历贴,还不快来看看!

第一步:说明失败缘故起因,良知知彼

OkCupid是哈佛大学的数学系门生于2004年创建的约会网站,最初这个网站吸引人们留意力的是它基于计较要领的配对模式。会员会答复许多多项选择题目,这些题目包围面很广,包罗政治、宗教、亲情、性、以及智妙手机等。

只需五步!哈佛学霸教你用Python说明相亲网站数据,在两万异性中找到真爱

数学家Chris McKinlay

凡是,体系会从上千道题目的题库里选出350道题目—— “以下哪种气象最有也许让你去看影戏?”或是“宗教/天主在你的糊口中有多重要?”

对付每一道题目,用户会选择一个谜底,以声名本身朋侪的哪一个答复是他可以接管的,并通过给题目评分来表白题目对本身的重要性(5分制,从无关紧急到必需答复)。OkCupid的匹配引擎会操作这些数据来计较男女之间的吻合水平。越靠近100%,所谓数学意义上的魂灵朋侪就越匹配。

McKinlay从数学上说明白本身一向以来的失败缘故起因。

OkCupid的算法只会行使两边都乐意答复的题目去计较,而McKinlay选择的题目有些随机,并不主流。当他查察与本身匹配的人时,匹配度高出90%的姑娘不到100个。要知道,洛杉矶有两百万女性(约莫八万女性在行使OkCupid)。假如把匹配度比作可见度,那McKinlay可以说就是个看不见的鬼魂。

他意识到他应该去进步匹配的人数。假如McKinlay通过统计取样确定哪些题目是他喜好范例的姑娘乐意答复的,那么他便可以厚道地答复这些题目而忽略其他题目,以此来建设一个全新的用户。操作这个步伐,他可以匹配到在洛杉矶的每一个也许与他配对的姑娘,而不会匹配到不吻合的人。

只需五步!哈佛学霸教你用Python说明相亲网站数据,在两万异性中找到真爱

第二步:借助Python,告急挚友,猖獗网络数据

Chris McKinlay操作Python剧本赏识了上百道OkCupid的问卷标题,然后把女性用户分为七类,每一类城市贴上奇异的标签,譬喻“多才多艺的”和“仔细关心的”等等。

即便作为一个数学家,McKinlay也是个差异通俗的人。他小时辰在波士顿郊区长大,2001年他从Middlebury学院结业并得到汉说话学位。同年8月份,他在纽约世贸中心北塔91层的一家公司里找了一份兼职事变,事变内容是将中文翻译成英文。五周后的一天,世贸大厦坍毁了。(那天,下战书两点前McKinlay都没来公司。当第一架飞机于早上8点46分撞上大厦的时辰,他正在睡觉。)

“自从那件过后,我问本身,我毕竟想做什么”他说。他的一个在哥伦比亚大学的伴侣雇用他进入了一个由麻省理工职业21点团队衍生出的一个团队,这之后的几年里,他便来回于纽约和拉斯维加斯,他的事变是数牌,一年能挣六万美金。

这段经验点燃了他对应用数学的乐趣,最终促使他在这个规模取得了硕士和博士学位。“他们可以或许在许多差异的景象下行使数学常识,”他说,“他们接见到一些新的游戏,好比‘三张牌的牌九扑克’,然后回家写点代码,接着就能找到计策去打败它。”

此刻,他想用同样的方法去探求恋爱。起首,他必要数据。就在他用旁边的窗口举办论文写作的时辰,他建了12个假的OkCupid账户并写好了Python剧本去打点这些账户。这个剧本会搜刮他的方针群体(25到45岁的异性恋或双性恋的姑娘),会见她们的主页,然后爬取她们账户上每一条有效的信息:种族、身高、是否抽烟、星座—— “这些我全都要”他说。

只需五步!哈佛学霸教你用Python说明相亲网站数据,在两万异性中找到真爱

为了找到心仪的另一半,他还做了一些特殊观测。OkCupid可以让用户看到其他人的答复,但只能看到那些他们本身已经答复过的题目。 于是McKinlay配置了本身的呆板人措施,以简朴地随机答复每个题目,他并没有行使假造的小我私人资料吸引任何女性,因此谜底并不重要,首要他要将这些女性的谜底网络到了数据库中。

McKinlay满足地看着他措施一起疾走。 然后,在网络了约莫一千个档案后,他碰着了第一个障碍。OkCupid有一个短平快的体系来防备这种数据网络,他的措施一个接一个地被禁。

因此他必需把本身的措施实习的更像真人一些。

他告急他的神经科学家伴侣Sam Torrisi,最近刚教过McKinlay音乐理论以调换高级数学课程。Torrisi也注册了OkCupid,他赞成在他的计较机上安装特工软件来监控该网站的行使。按照手中的数据,McKinlay通过编程模仿Torrisi的点击率和打字速率。他从家里带来了第二台电脑并将其插入数学系的宽带线路,以便可以24小时不中断运行。

三周后,他已经网络了来自世界各地20000名女性的600万个题目和谜底。

第三步:将20000名女性分为7类,找出最得当本身的

凭证McKinlay的事变打算,他必要从观测数据中找到一个纪律,即必要按摄影似性大致地对女性举办分组。这个题目在他编写一个名为K-Modes的改善贝尔尝试室算法时取得了盼望。

K-Modes算法1998年初次用于说明染病的大豆作物。

他通过算法发明白一个天然的支解点,按照题目和谜底,20,000名女性被分为成七个统计学组。 “我太兴奋了,”他说,“那是六月份令我最欢快的工作了。”

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读