加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

跨专业自学NLP,这个90后撸出了开源类库HanLP,已在GitHub收成1.5W星

发布时间:2019-11-04 19:55:06 所属栏目:移动互联 来源:刘燕
导读:截至 2019 年 10 月尾,一款名为 HanLP 的天然说话处理赏罚类库在 GitHub Star 数到达了 15.5 K,高出了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP、哈尔滨家产大学的 LTP。这是一款由一系列模子与算法构成的天然说话处理赏罚(NLP)开拓器材包。 你或者想象不
副问题[/!--empirenews.page--]

截至 2019 年 10 月尾,一款名为 HanLP 的天然说话处理赏罚类库在 GitHub Star 数到达了 15.5 K,高出了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP、哈尔滨家产大学的 LTP。这是一款由一系列模子与算法构成的天然说话处理赏罚(NLP)开拓器材包。
你或者想象不到,这款 NLP 器材包被开拓出来时,它的作者何晗,照旧一位日语专业的大二门生。现在,在攻读博士时代,何晗又创作了一本《天然说话处理赏罚入门》,但愿办理小白们的 NLP 入门困难。该书获得了周明、刘群、王斌等业内顶级 NLP 专家的保举。

“理论是根,项目是树“,假如说 HanLP 是树,那么这本《天然说话处理赏罚入门》即是树的根本。在该书问世之际,AI 前列与何晗睁开对话,相识这位极具先天的门生“栽培树”,“培养根”的故事。

痴迷游戏走上编程之路

和许多90后一样,何晗喜爱动漫和游戏。这两个喜爱其后也深深影响了他最为要害的两次重大人生决议。

高中时,何晗就读于黄冈中学理科“状元班”,班上学霸云集,但何晗认为本身和那些学霸同窗比差远了。“我必定不是学霸,我属于那种均值 80 分,方差出格大的范例”。

他笑称自小不喜好听讲,要不就本身看书做题,要不就坐在座位上神游。有屡次测验,他超常施展进入了“状元班”。不外,最为要害的高考,他却考得并不抱负。

这次高考战败让何晗抉择“放飞自我”,选一个本身喜好的专业。由于喜好动漫,在志愿填报时他选了日语专业。2011 年,何晗成为上外洋国语大学日语系的一名门生。他的业余时刻也险些都被追新番、背单词、宅着打游戏填满。

打游戏是何晗走上编程之路的原始动力,他挺想本身做一个游戏出来。曾经有一段时刻,何晗痴迷打“仙剑四”,他想把剑四的“mod”给做出来。

也是从当时辰起,何晗开始实行进修各类编程常识:C++、Windows 编程、3D 编程、汇编逆向、PHP、JavaScript、Linux。对付一个非科班身世的人来说,自学之路免不了碰着坚苦。何晗坦言,最大的坚苦是没有机遇体系性进修操纵体系、编译道理等专业课程。他倒是有一个很适用的进修要领 — debug。

何晗的 debug 手段很强,“不管是什么算法谁的代码,我都能一行行 debug 下来。每次我写的算法差池的时辰,我城市缔造沟通的输入数据,开两个 debugger 窗口,一个跑我的,一个跑别人的。我的常识大部门来历于调试别人的代码,可以说是‘偷师’自全部人”。

最令何晗印象深刻的是,他自学编程途中告竣的一个小成绩。其时上外的校园网仅支持网页版登录,打开较慢、登录时也无法记着暗码,很不利便。为了办理这个题目,何晗花了一个劳动节假期做出了一个自动登录软件。此刻追念起来,何晗坦言这个软件尚有许多不敷,但同窗们用的很开心。

这个小成绩还让何晗收成了一个不测之喜。学校收集技能中心的张先生传闻了这过后对他极端赞赏,便赠予给他一个校园网 VIP,还给他先容了一家外包公司——林原科技的兼职。

大二开拓出 NLP 类库

也正是这份兼职事变,让何晗与天然说话处理赏罚(NLP)结下了不解之缘,后者也是他今朝攻读博士时代的研究偏向。

一日,林原科技立项做一个 “智能检索体系”。中文搜刮引擎的第一步是分词,老板分派给何晗一个使命——做一个分词器,并给了他几本厚厚的进修资料。

诚恳说,这是何晗第一次打仗 NLP,显然做出这个分词器得必要“现学现卖”了。他倒颇有几分自信,“我应该能拿下”,“要么不做,要做就要做最好的“。

颠末调研,何晗发明,市面上的开源器材 Jieba、Ansj、IK 中分词结果都不太抱负,许多人名、机构名别称分不出来,新词隔三差五就更新却收录不进去,分词速率也很慢.... 他连忙抉择,必然要做出一个别验结果好的分词器。

紧接着,何晗开始了一边“泡”在专业书和论文里自学一边开拓的进程。张华平、刘群等 NLP 规模专家的论文险些都被他翻了个遍,被一些深奥观念绕的云里雾里那自是司空见惯。对何晗影响最大的是吕震宇开源的 C# 版的 ICTCLAS 分词体系,他边学 C# 边比较着吕震宇的博文研读这才搞懂了 ICTCLAS 分词道理。何晗实行着在 ICTCLAS 的基本上做了一些改造,而且实现了 Java 版,这个版本运行速率很慢,亏得输出的功效跟 ICTCLAS 是同等的。

弄懂了 ICTCLAS 之后,何晗又开始进修单步 Ansj,Ansj 的数据布局——双数组字典树速率之快对他来说像打开了新天下的大门。于是他便饶有乐趣地开始研究数据布局,最后他本身缔造出了一个“基于双数组字典树的 AC 自念头”的数据布局。

工夫不负有意人,花了半年时刻,何晗最终照旧将这个分词器做了出来,并取名“HanLP”。这对付一个大二日语专业门生来说,是极为可贵的。何晗用上了自研的基于双数组字典树的 AC 自念头,这大大晋升了 HanLP 的运行速率。

第一版本的 HanLP 成果较量简朴,后续颠末几年的迭代,其成果越来越完美,机能更高效。HanLP 能提口供法说明、句法说明、文天职类、情绪说明等成果。另外,HanLP 还具有精度高、速率快、内存省的特点。

截至今朝,HanLP 的 GitHub Star 数已达 15.5 K,高出了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP、哈尔滨家产大学的 LTP。

对付这个后果,何晗很开心,他谢谢宽大用户的承认。“从开拓者的角度讲,我必定是不及传授们的万分之一,无论是程度上照旧人数上”,何晗暗示,相对付上述面向解说和学术用途的项目,HanLP 是小我私人项目,首要面向出产情形开拓,因为目标用途差异,HanLP 取胜的“瑰宝”在于精采的用户体验,在接口计划、代码气魄威风凛凛等“软气力”方面较量人道化。

博士出版

HanLP 的不测乐成让何晗对 NLP 有了更深入的相识,在开拓这个项目标进程中,通过对规模内专业常识的进修,他明确到了 NLP 这门学科的魅力,在随后的进修生活中,他便锁定 NLP 为首要的研究偏向。今朝何晗在埃默里大学读计较机博士,首要的研究偏向是句法说明、语义说明与问答体系。 

跨专业自学NLP,这个90后撸出了开源类库HanLP,已在GitHub收获1.5W星

从 v1.3 版本起,HanLP 由大快搜刮主导开拓,并完全开源(GitHub 开源地点:https://github.com/hankcs/HanLP)。2018 年 11 月,HanLP 更新到了 1.7 版本,新增文本聚类,流水线分词等成果,这时 HanLP 的中文词法说明已较量成熟,到达了家产行使的水准。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读