加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

呆板翻译都比人强了,为什么我还在复制粘贴查单词?

发布时间:2018-09-02 16:54:59 所属栏目:站长百科 来源:驱动号
导读:这是全宇宙最怪异的生物。 40年前,英国科幻作家Douglas Adams在他的《银河系周游指南》中这样描写巴别鱼(bable fish):迷你黄色生物,水蛭状,以声音中的说话观念为食,消化后倾轧跟寄主同频的脑波。只要塞到耳朵里去,就可以听懂各类说话。 而在这个布满
副问题[/!--empirenews.page--]

呆板翻译都比人强了,为什么我还在复制粘贴查单词?

“这是全宇宙最怪异的生物。”

40年前,英国科幻作家Douglas Adams在他的《银河系周游指南》中这样描写巴别鱼(bable fish):迷你黄色生物,水蛭状,以声音中的说话观念为食,消化后倾轧跟寄主同频的脑波。只要塞到耳朵里去,就可以听懂各类说话。

而在这个布满嬉皮气魄威风凛凛的科幻作品中,来自地球的Arthur Dent也由于这条丑恶的鱼,可以或许美满地领略并与他碰着的各类外星种族交换。

呆板翻译都比人强了,为什么我还在复制粘贴查单词?

自小说降生,巴别鱼便成为了即时语音翻译的代名词。但在其时,人类的翻译技能间隔这一方针仍遥不行及。

直到2014年,加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人宣布了一篇在呆板翻译规模应用神经收集的论文——Neural Machine Translation by Jointly Learning to Align and Translate。

神经收集的呈现,让优质高效的呆板翻译不再遥遥无期。

呆板翻译手段是怎样赶超人类的?

神经收集敏捷成为了近代呆板翻译规模最有活力的“鲶鱼”。

短短两年,基于神经收集的呆板翻译便已代替统计学派成为翻译规模的主流研究要领。谷歌、微软等公司也纷纷公布将这个新的技能应用到其翻译等产物之中。两年来,神经收集翻译手段高出了翻译界已往几十年的后果。神经收集翻译呈现后,呆板翻译的单词错误率低落了50%,词汇错误和语法错误率也都别离低落了15%以上。

而除神经收集的应用之外,呆板翻译错误率的大幅度低落,还基于另一个前提——大局限精准平行语料数据集的蕴蓄。

抉择呆板翻译质量的身分中数据占有绝对的主导职位。数据量的巨细和精准水平抉择了呆板翻译引擎的结果。

十年前,谷歌在呆板翻译规模下过一个论断:数据集局限每翻一倍,它自动评价的指标就可以或许晋升0.5个百分点。这一说法让有大局限、精确数据蕴蓄的组织、企业有了抢占呆板翻译市场制高点的机遇。

可是,垂直级的呆板翻译并非一挥而就,哪怕是互联网巨头们,也未等闲地将触手伸入垂直级的呆板翻译规模。

为了弥补了这一规模的空缺,中译语通率先推出MerCube,是环球第一个企业级呆板翻译硬件。

在详细场景下,想要实现产物级应用的呆板翻译体系,必要上万万级此外句对。另一个方面是今朝数据集的不平衡题目。在语种上,英文为主导的数据集占较量多,而偏小语种的好比波斯语、土耳其语等数据集就很难找到。除了说话不平衡,数据集规模不平衡的题目也很严峻。

呆板翻译技能对大量数据的需求和现实市场上畅通的存量数据的差距很大,这就给了在翻译界有深挚汗青蕴蓄的公司发力的机遇。

互联网公司的数据蕴蓄多来自C端用户,因此数据集不平衡、数据质量差的题目突出。而脱身传统行业的翻译公司,在翻译数据集的掌握上有本身的上风——更精准、更多样的数据集。譬喻,中国翻译规模最大的语料数据库全部者——中译语通。据相识,这家脱胎于中国对外翻译有限公司的团队了拥有37个语种的翻译语料库,把握高出五十亿句对平行语料,上百亿句单语语料。靠着在翻译规模的这一上风,中译语通这一以说话处事发迹,敏捷转型为人工智能和大数据的技能公司,有望与谷歌、微软等互联网巨头,在呆板翻译处事规模分一杯羹。

呆板翻译处事之痛

呆板翻译因为技能的前进在处理赏罚手段上正敏捷赶超人类,企业用户对呆板翻译的承认度越来越高,但在处事情势上多年来却险些一成稳固。今朝,to b端的翻译处事首要面对两个痛点:

起首在翻译情势上,以文本翻译为例,基于c端处事的连续性,大都文本翻译模式依然是10年前的对话框字句粘贴式翻译,基础无法满意大局限、短时刻翻译的需求。

呆板翻译都比人强了,为什么我还在复制粘贴查单词?

除此之外,大都企业和小我私人对数据安详意识的进步,也让他们对当地化翻译有了更高要求。

今朝,首要to b端的翻译处事都必要被翻译内容上云,在Facebook数据走漏丑闻及欧盟数据安详法见效的配景下,不少企业等候更当地化、安详的翻译处事。据中译语通相干研究陈诉表现,仅在中国,对大局限、当地化翻译处事的需求市场高达百亿级。而“国际市场应该会更大。好比说一带一起沿线国度,整个拓展出来应该是一个庞大的市场。”中译语通称。

从硬件入手,垂直规模的翻译处事进级

这样的调研功效让中译语通看到了to b端翻译市场处事进级的庞大潜力。本年五月份,中译语通开始实行呆板翻译上to b端新的处事方法,但这不是一件轻易的工作。

呆板翻译都比人强了,为什么我还在复制粘贴查单词?呆板翻译都比人强了,为什么我还在复制粘贴查单词?

图:7月份的品牌计谋宣布会上,中译语通宣布了MerCube企业级呆板翻译处事器。MerCube产物机能表表现,MT G8单台处理赏罚手段可到达16000字/秒,MerCube ASR可实现将1小时的音视频在1分钟内辨认、理会完成并导出文件。

“(开拓这款产物的)契机更多照旧市场的驱动,许多客户着实是主动来找我们,认为这个呆板翻译不错,想买这个(产物),想当地化陈设。”

为了满意客户对安详性的要求,中译语通但愿推出一款可以提供专属的私有化陈设方法的产物,让信息在受控情形下运转,原文/译文当地化存储,办理用户的数据安详题目。

要当地化下属,起首对产物的硬件手段是一个庞大的检验。

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读