从人工智能 (AI)发展应用看算法测试的测试策略

发布时间：2019-07-06 08:20:52 所属栏目：建站来源：佚名

导读：跟着人工智能的成长与应用，AI测试逐渐进入到我们的视野，传统的成果测试计策对付算法测试而言，心有余而力不敷，难以满意对人工智能 (AI) 的质量保障。团结在人脸检测、检索算法上的测试试探、实践的进程，本文将从以下几个方面先容人工智能 (AI) 算法测

副问题[/!--empirenews.page--]

跟着人工智能的成长与应用，AI测试逐渐进入到我们的视野，传统的成果测试计策对付算法测试而言，心有余而力不敷，难以满意对人工智能 (AI) 的质量保障。

从人工智能 (AI)成长应用看算法测试的测试计策

团结在人脸检测、检索算法上的测试试探、实践的进程，本文将从以下几个方面先容人工智能 (AI) 算法测试计策。

算法测试集数据筹备
算法成果测试
算法机能测试
算法结果测试(模子评估指标)
算法指标功效说明
算法测试陈诉

我们将算法测试测试流程中的几个焦点环节提炼如上几点，也就构成了我们算法测试的测试计策，在此，抛砖引玉的分享一下。

算法测试集数据筹备

测试集的筹备对付整体算法测试而言很是重要，一样平常测试集筹备进程中需思量以下几点：

测试集的包围度
测试集的独立性
测试集的精确性

测试集的包围度

假如，测试集筹备只是随机的选取测试数据，轻易造成测试功效的失真，低落算法模子评估功效的靠得住性。

比如我们的成果测试，按照成果测试计划，结构对应的数据举办测试包围。算法测试亦然，以人脸检测算法而言，除了思量选取正样本、负样本外，还必要思量正样本中人脸特性的包围，如人脸占比、恍惚度、光照、姿态(角度)、完备性(遮挡)等特性。

选择好对应的测试数据后，其后后期的指标计较、功效说明，还需对数据举办标注，标注对应的特性，以人脸检测为例，行使器材对人脸图标举办人脸坐标框图，并将对应特性举办标注记录及存储，如下图。

其它，除了数据特性的包围，也必要思量数据来历的包围，团结现实应用情形、场景的数据举办数据模仿、筹备。好比民众场合摄像头下的人脸检索，图片一样平常较量恍惚、图片光照强度纷歧，因此筹备数据时，也必要按照此场景，模仿数据。一样平常来讲，最好将真实出产情形数据作为测试数据，并从个中凭证数据特性漫衍选取测试数据。

另外，关于测试数据的数目，一样平常来讲测试数据量越多越能客观的反应算法的真实结果，但出于测试本钱的思量，不能穷其尽，一样平常以真实出产情形为参考，选取20%，假如出产情形数据量庞大，则选取1%~2%，可能更小。因为我们的出产情形数据量庞大，思量到测试本钱，我们选取了2W阁下的图片举办测试。

测试集的独立性

测试集的独立性首要思量测试数据集彼此滋扰导致测试功效的失真风险。

我们以人脸检索为例，我们筹备200组人脸测试数据，每组为统一小我私人差异时期或角度的10张人脸照片，对人脸检索算法模子指标举办计较时，如计较TOP10的准确率，此时若在数据库中，存在以上200组人的其他照片时，便会对指标计较功效造成影响，好比我们200组人脸中包括Jack，但数据库中除了Jack的10张，还存在其他的8张Jack的照片。若算法微处事接口返回的TOP10图片中有我们测试齐集的Jack图片6张，非测试集但在数据库中的其他Jack照片2张，尚有2张非Jack的照片，测试的准确率该怎样计较，凭证我们的测试集(已标注)来看，准确率为60%，但现实准确率为80%，造成了准确率指标计较功效的失真。

因此，我们在测试集数据筹备时，需思量数据滋扰，测试筹备阶段对数据库的其他测试数据举办评估，好比从200组人脸测试数据组，举办猜测试，对相似度很是高的数据举办研判，判定是否为统一人，如果则删除该照片可能不将该人从200组测试齐集剔除。

测试集的精确性

数据集的精确性较量好领略，一样平常指的是数据标注的精确性，好比Jack的照片不该标注为Tom，照片恍惚的特性不该标注为清楚。假如数据标注错误，那么直接影响了算法模子指标计较的功效。

对付测试集的筹备，为了进步测试集筹备服从及复用性，我们实行搭建了算法数仓平台，实现数据(图片)的在线标注、存储等成果，作为算法测试数据的统一获取进口。

算法成果测试

以我此刻打仗的人工智能体系而言，将算法以微处事接口的情势对外提供处事，相同于百度AI开放平台。

因此必要对算法微处事接口举办成果性验证，好比团结应用场景从成果性、靠得住性、可维护性角度对必填、非必填、参数组合验证等举办正向、异向的测试包围。此处不多做先容，同平凡的API接口测试计策同等。

算法机能测试

微处事接口的机能测试各人也较量相识，对付算法微处事同样必要举办机能测试，如基准测试、机能测试(验证是否切合机能指标)、黑白不变机能测试，都是算法微处事每个版本中必要测试的内容，同时产出册本间的机能横向比拟，感知机能变革。常存眷的指标有均匀相应时刻、95%相应时刻、TPS，同时存眷GPU、内存等体系资源的行使环境。

一样平常行使Jmeter举办接口机能测试。不外，我们在现实应用中为了将算法微处事接口的成果测试、机能测试融合到一路，以低落自动化测试开拓、行使、进修本钱，进步可一连性，我们基于要害字驱动、数据驱动的测试头脑，操作Python Request、Locust模块别离实现了成果、机能自界说要害字开拓。每轮测试执行完算法微处事成果自动化测试，若成果执行通过，则自动拉起对应差异执行计策的机能测试用例，每次测试执行功效都举办存储至数据库中，以便输出该算法微处事接口的差异版天机能各项指标的较量功效。

算法模子评估指标

起首，差异范例算法的其存眷的算法模子评估指标差异。

好比人脸检测算法常以准确率、召回率、精确率、错报率等评估指标;人脸检索算法常以TOPN的准确率、召回率、前N张持续精确率。

其次，沟通范例算法在差异应用场景其存眷的算法模子评估指标也存在差别。

好比人脸检索在应用在高铁站的人脸比对(重点职员检索)的场景中，不太存眷召回率，但对准确率要求许多，停止抓错人，造成民众场合的秩序紊乱。但在海量人脸检索的应用场景中，乐意捐躯部门准确率来进步召回率，因此在该场景中不能盲目标追求精准率。

（编辑：河北网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

6个值得珍藏的搜索引擎	网站优化核心减少SEO污
网站seo优化三个基础知	什么时候宣布文章收录