加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

机器学习科研的十年

发布时间:2019-07-20 03:25:14 所属栏目:建站 来源:陈天奇
导读:十年前,MSRA的炎天,刚开始实行呆板进修研究的我面临科研庞大的不确定性,感想最多的是狐疑和苍茫。十年之后,即将跨出下一步的时辰,将来依然是云云不确定,可是等候又更多了一些。这个中的变革也带着这十年经验的影子。 起始: 科研是什么 我从大三开始
副问题[/!--empirenews.page--]

 呆板进修科研的十年

十年前,MSRA的炎天,刚开始实行呆板进修研究的我面临科研庞大的不确定性,感想最多的是狐疑和苍茫。十年之后,即将跨出下一步的时辰,将来依然是云云不确定,可是等候又更多了一些。这个中的变革也带着这十年经验的影子。

起始: 科研是什么

我从大三开始进入交大APEX尝试室,有幸跟着戴文渊学长做呆板进修,其时的我认为“呆板进修”这个名字异常高峻上然后选择了这个偏向,可是做了一年之后依然摸不着脑子,心中异常憧憬可以做科研,独立写论文的糊口,却老是不知道怎样动手。文渊在我进尝试室的一年后去了百度。其时还没有获得学长真传的我,开始了我科研的第一阶段,从大四到硕士的第二年,时代一向本身探索,不绝地问本身 “科研是什么”。

和课程功课差异,学术研究没有详细的题目,详细的要领,详细的谜底。文渊的分开让我一下子不知道该怎么做,其时的我的设法很简朴,快点探求一个详细的偏向,完成一篇论文。由于ACM班的机遇暑假在MSRA的短暂演习,固然学会了许多对象,但并没有给我谜底。MSRA返来之后,在尝试室薛先生的提议下,我选择了一个此刻看来正确而又错误的偏向 -- 深度进修。那是AlexNet呈现之前两年,深度进修的主流热门长短监视进修和限定玻尔兹曼机。没有导师的指导,没有器材,其时我靠着尝试室的两块显卡和本身写的CUDA代码开始了死磕深度进修的两年半。尝试室的学长问我,你筹备要干啥,我说:“我要用卷积RBM去晋升ImageNet的分类服从。” 这一个答复开启了图书馆和尝试室的无数个日日夜夜,为了给尝试室的老呆板多带一块高功率的显卡,我们打开了一台呆板的机箱,在表面多塞了一个外接电源。我的糊口就一连在调参的轮回中:可视化权重的图片, 看上去那么有点像人脸,可是精度却老是提不上来,再来一遍。从一开始hack显卡代码的欢快,到一年之后的焦急,再到时不时在树下踱步想怎样加旋转稳固的模子的实行,在这个偏向上,我耗费了本科四年级到硕士一年半的全部时刻,直到最后照旧一无所得。此刻看来,其时的我犯了一个很是明明的错误 -- 常见的科学研究要么是题目驱动,好比“怎样办理ImageNet分类题目”;要么是要领驱动,如 “RBM可以用来干什么”。其时的我同时锁死了要办理的题目和用来办理题目的方案,乐成的也许性天然不高。假如我在多看一看其时整个规模的各类思绪,好比Lecun在很早的时辰就已经做end to end,或者下场会不那么一样吧。

虽然没有假如,赌上了两年半的时刻的我留下的只是何时可以或许颁发论文的求助神色。焦急的我开始规划换一个偏向,由于RBM其时有一个较量经典的文章应用在了保举体系上,我开始打仗保举体系和kddcup。较量荣幸的是,这一次我并没有把RBM作为独一的一个要领,而是越发普及地去看了保举体系中的矩阵解析类的算法,而且在尝试室搭建了一个较量泛用的矩阵解析体系。保举体系偏向的耕种逐渐有了收成,我们在两年KDDCup11中得到了不错的后果。KDD12在北京,放弃了一个过年的时刻,我完成了第一篇关于基于特性的漫衍式矩阵解析论文,而且很是欢快地投到了KDD。四月尾的时辰,我们收到了KDD的提前拒搞关照 -- 论文连第一轮评审都没有过。收到拒搞关照时辰的我的神色无比沮丧,由于这是第一篇本身大部门独立敦促完成的文章。转折在五月,KDDCup12 封榜,我们拿到了第一个track的冠军,我依然还记得拿到KDDCup12冠军的那一个刹时,我在状态内里中二地打了excalibur,似乎硕士时代的全部阴霾一扫而尽。当时辰的我依然还不完全知道科研是什么,可是隐约之中认为好像可以继承试试。

第零年: 可以做什么

我对付科研观点的第一个转折,在于我硕士邻近结业的时辰。李航先生来到我们尝试室给了关于呆板进修和信息检索的陈诉,而且和我们座谈。在陈诉的进程中,我非常欢快,乃至时不时地想要跳起来,由于发明我好像已经知道怎样可以办理这么多风趣题目的要领,可是之前却从来没有想过本身可以做这些题目。接洽了李航先生之后,在统一年的炎天,我有幸到香港跟从李航和杨强先生演习。尝试室的不少学长们曾经去香港和杨强先生事变,他们返来之后都似乎开了光似地在科研上面突飞猛进。去香港之后,我开始大白个中的缘故起因 -- 研究视野。颠末几年的考验,当时辰的我或者已经知道怎样去办理一个已有的题目,可是却缺乏其他一些须要的手艺 -- 怎样选择一个新奇的研究题目,如安在功效不尽人意的时辰转变偏向探求新的打破点,怎样知道整个规模的题目之间的相关等等。“你香港返来往后进级了嘛。” -- 来自某大侠的评述。这大概是对付我三个月香港演习的最好归纳综合的吧。香港演习竣事的时辰我收成了第一篇正式的一作集会会议论文(在昔时的ICML)。由于KDDCup的缘故,我熟悉了我此刻博士导师Carlos的postdoc Danny,Danny把我保举给了Carlos(UW)和Alex(CMU)。我在申请的时辰荣幸地拿到了UW和CMU的offer。在CMU visit的时辰我见到了传说中的大神学长李沐,他和我叹息,此刻正是大数据大火的时辰,可是比及我们结业的时辰,不知道期间会是怎样,不外又反过来说总可以去做更重要的对象。此刻想起这段对话依然依然唏嘘不已。我最后选择了UW开始了我六年的博士糊口。

感激博士之前在APEX尝试室和香港的经验,在博士开始的时辰我好像已经不再担忧本身可以做什么了。

第一年: 不测可以收成什么

假如给我在UW的第一年一个主题的话,或者是“不测”。在交大时辰由于乐趣的相关一向去蹭体系生物研究员敖平先生的组会切磋随机进程和马尔可夫链。到UW的第一个学期,我有时看到一篇切磋怎样用Lagevin进程做采样的文章,我想这不就是之前组会上切磋过的对象么,原本这些要领也可以用到呆板进修上。我直接借用了原本的交大学会的常识完成了第一篇高效采样HMC的文章。我其后并没有继承在这个偏向上面耕种下去,不外其它一位同在组会的学弟继承基于这个偏向完成了他的博士论文。

同样的在这一年,我和导师开始“质疑深度进修” -- 假云云外的呆板进修模子,有足够大的模子容量和数据,是否可以得到和深度进修一样的结果呢?其时Carlos看好kernel methods,而我由于已往的一些经验抉择实行Tree Boosting。固然最后在vision规模依然被卷积收集打败而实行挑衅失败,可是为了挑衅这一假说而实现高效Tree boosting的体系颠末小搭档提议开源成为了其后的XGBoost。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读