加入收藏 | 设为首页 | 会员中心 | 我要投稿 河北网 (https://www.hebeiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

百分点认知智能尝试室出品:智能问答中的反抗进攻及防止计策

发布时间:2020-04-28 17:09:06 所属栏目:创业 来源:百分点
导读:深度进修模子应用普及,但其自身有必然的懦弱性,即模子输入的细小窜改,在不影响人判定的环境下,也许使模子的输出堕落,这个进程被称为对模子的反抗进攻。针对反抗进攻的研究,早期齐集在图像规模,近几年,文本事域也逐渐增多。2019年,百分点从营业现实

针对文本反抗进攻的防止计策首要包罗两个方面,一方面是去发明反抗样本,好比有一些反抗进攻,是将文本中的字改成音近字、形近字或错字,可以检测包括这类非常字的文本,然后对其做特另外处理赏罚;另一方面是对模子举办反抗性实习,包罗在实习样本中插手反抗样本,对丧失函数和模子布局举办窜改等,本次大赛方案中有一些应对反抗进攻的计策,详细在下面章节先容。

五、DIAC大赛方案分享

DIAC大赛优胜步队广泛选择RoBERTa_wwm作为语义等价使命的基本模子,即将两个题目拼起来,进入模子,然后选择[cls]位置对应的向量,颠末一个全毗连层和softmax操纵,输出在2个种别上的概率。在模子实习之前,举办了反抗样本的数据加强;在模子实习阶段,回收FocalLoss作为丧失函数,操作Fast Gradient Method(FGM)在embedding层上添加扰动;在测试集上作猜测时,对疑似反抗样本举办纠错。

5.1 数据加强

按照反抗样本举例,通过以下方法举办了数据加强:

要领一:音近字替代、形近字替代、同义词替代、词序调解。用开源的音近字、形近字、同义词辞书,以必然比例对题目中的字或词举办替代,同时限定一组题目中替代的总字数小于3,或以必然比例对题目中的词语词序随机调解,限定最远的词序调解,两个词汇隔断不高出2个词。

要领二:反义词替代、增进或删除否认词。以必然比例举办将题目中的某个词替代为反义词、增进或删除题目中的否认词,如:“未”、“没有”、“无”、“非”,并修改样本标签。

要领三:用开源的错别字校正器材,对题目举办校正,改正功效改正错误率靠近100%,但错误改正只影响1-2个字,不影响对题目的领略,故可以用这种方法天生反抗样本。

通过上面的一种或几种方法,举办数据加强,实习的模子与不举办数据加强对比,在最终测试集上的宏F1值有约1.5~2个百分点的晋升。

5.2 智能纠错

针对反抗样本特点,有下面几种纠错方法:

要领一:召回与待纠错题目相似的题目,比拟相似片断,举办纠错。详细做法是:以两个题目分词荟萃的差齐集包括的词语数量作为二者相干性的一个怀抱。对一个题目,从整个数据荟萃中,召回一些和它相干性较高的题目。相干题目召回后,接着对原题目与相干题目举办共现的相似文本片断查找,文本片断相似回收汉明间隔作为怀抱,因为一样平常反抗样本中错别字都只有一个,如果有两个错别字一样平常都是连在一路的,因此将汉明间隔小于2且满意差异字必需持续做为判定相似文本片断的依据。

相似片断找到后,对相似片断的每个位置举办逐一比拟,假如差异,思量这两个字是否是同音字,假如不是同音的字再思量是否是形近字,若都不是就不举办纠错。判定是否同音回收一个汉字转拼音的模块,同形的判定回收笔顺的编辑间隔作为相似度的判定,同音或同形的错别字在相似文本片断中的位置确定后,接下来就是确定两个文本片断哪个有错别字。通过对相似片断分词,然后计较全部词的在实习齐集呈现次数的总和,鉴定总和小的片断包括错别字,然后用总和大的对总和小的举办批改。

要领二:统计题目中词语上下文的ngram,按照ngram为反抗样本中的错误词语探求纠错提议。详细做法为:对题目举办分词及词性标注,对具有词性为m、nr、ns、nt、nz、r、x、w的词替代为对应的词性标志。对每个词语,别离统计上文的一、二、三元ngram和下文一、二、三元ngram共6个词条,添加到ngram词内外。在纠错阶段,对题目中的词W,操作其上下文的6个ngram词条和前一步统计的ngram词表,得到纠错的候选词及候选词的词频,基于拼音编辑间隔,计较候选词与词W的拼音相似度。凭证如下公式,举办候选词得分计较:

百分点认知智能尝试室出品:智能问答中的反抗进攻及防止计策

个中x为候选词,c为原错词,d为词表,为候选词的词频,为候选词与原错词的拼音相似度数,为对应的词表字典的权重。对全部候选词凭证分值从大到小举办排序。取前N(这里取N为10)个,假如存在候选词与错词的编辑间隔小于便是1,则优先返回这个候选词,不然返回全部候选词分值最高的词。

要领三:将测试样本中两个句子中的同音字或形近字彼此替代。当句A中持续两个字的读音与句B中持续两个字的读音沟通时,可以用B中的同音字更换A中同音字,结构句A',那么A'与B即可构成样本[A',B]。同理可以结构[A,B'],它们与[A,B]配合构成一组测试样本,用实习好的模子猜测这组测试样本,猜测功效只要存在一个正样本,即以为原测试样本为正样本。

通过上面的方法,对测试集举办纠错,猜测功效的宏F1值有约2~3个百分点的晋升。

5.3 Focal Loss

在给出的实习齐集,正负样本比例较不服衡,得当回收Focal Loss作为丧失函数。Focal Loss公式如下:

百分点认知智能尝试室出品:智能问答中的反抗进攻及防止计策

通过设定α的值来节制正负样本对总的loss的共享权重,α取较量小的值来低落多的那类样本的权重,通过配置γ来镌汰易分类样本的权重,从而使得模子在实习时更专注于难分类的样本。

尝试表白,行使Focal Loss对比于不行使FocalLoss作为丧失函数,验证集猜测功效的宏F1值有约0.5个百分点的晋升。

5.4 Fast Gradient Method

反抗实习回收的是Fast Gradient Method(FGM),其目标是进步模子对小的扰动的鲁棒性,扰动添加在bert模子的字向量上。对付分类题目,详细做法就是添加一个反抗丧失:

百分点认知智能尝试室出品:智能问答中的反抗进攻及防止计策

(编辑:河北网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读