嘉宾:赵明
整理:李慧雯
通常情况下,AI模型的测试依赖于高质量的标注数据,但在不同的应用场景下,所需的数据标注量是不同的。在QCon全球软件开发大会(2021)北京站上,好未来AI研究院的赵明分享了一个好未来的真实案例,就是通过语音、图像、NLP等AI模型的有机结合,搭建一条汽车生产线。,增加前处理和后处理,不依赖标记数据,通过Badcase自动筛选被测模型,提高测试效率,辅助算法的作用是提高算法模型的优化迭代速度。
赵老师的演讲很受观众欢迎,所以我们整理了他的演讲,与大家分享。
AI 中台业务、技术背景与工作痛点
好未来AI研究院研究如何在教育场景下,通过AI提升用户体验,提升整体运营效率。今天我就分享一下我院实践中的痛点和解决方案,包括细分领域不良案例筛选的方案,如何便捷的做根源分析,不良案例的定位,以及通过这些方案的平台整合探索AI R&D的效率。
AI涵盖了好未来教育业务的方方面面,分为语音、图像、NLP三个方向。语音类包括语音识别、评价和合成;图像包括内容审查、打印或屏幕手写OCR(光学字符识别)、照片搜索、笔记一致性评级等。NLP包括课堂特征统计、交互质量测试、作文批改等。
虽然AI可以大大降低人力成本,但在实践中还是有很多痛点。首先,教育场景是碎片化的,分为不同的学科、年级、班次和地区。每个细分场景都需要定制化的AI能力。
二是测评需要持续的在线反馈,即大量高质量的人工标注数据。人工贴标和质检成本高,周期长,难以正常操作。
第三,造成坏案例的因素很多,如数据、预处理、模型参数、模型本身的泛化能力和鲁棒性等。这使得不良事件定位困难且周期长。
基于以上痛点,我们设计了以下筛选Badcase的流水线。
TTS 语音合成 Badcase 自动化筛选方案
TTS语音合成是将文本自动合成为音频,不需要吞咽,不需要机械的声音,不需要停顿,不需要和普通人说话类似的音调。
通过人工打分来评价合成语音的质量,不仅效率低,而且主观性强,需要多人评价才能得到比较客观的分数。因此,我们开发了以下装配线,该装配线分为四个步骤。
首先,由TTS合成的音频被输入到文本转录模型(ASR ),该模型将把接收到的音频转换成新的文本。通过比较文本与原文的一致性,可以初步判断合成语音的质量。一致性可以用莱文斯坦比率、CER、WER等指标。当差异较大或单词错误率较高时,就是Badcase。
其次,将语音输入到语速检测模型中,检查语音是否能匹配预先标注数据的整体趋势,进行宏观验证。如下流程图所示,图中的原始音频已经做了标记,是训练样本。散点图中显示了音频持续时间和本示例中的字数之间的关系。数据点集中在一个声道,字数和音频时长之间存在线性关系。区域A和B中的数据点是语速异常的不良情况。
再次,通过工程化的方式,即对比JSON文件检测字符停顿,检查合成的音频断句是否符合人类语言的节奏,进行微观验证。我将图片中的静音检测标记为黄色。看完图可以得出1.0版本的句子是“天气/晴”,1.1版本却变成了“天气/气晴”,停顿错了。
音频打点是利用ARS(自动语音识别技术)获取每个单词的起止时间点和时间间隔。
最后,通过语音评价模型,以流畅性和音色标准为指标,对合成语音和人声的拟合程度进行评分。如果分数低,证明有一定的机械声,需要作为Badcase处理。
该方案只要有返回的数据,就能快速发现在线合成音频的问题,召回率达到99%。基本上不会漏检,但可能会误检,需要人工检查。
OCR Badcase 自动化筛选方案
搜索是根据题目的照片,调用OCR将图片转换成文字,在题库中搜索正确答案。OCR场景的技术难点是处理由于拍摄光线、拍摄角度、手写和打印混合排列等原因造成的低质量图片。
首先,我们对在线回流数据进行初步筛选,然后通过图像质量检测模型筛选出低质量数据,并将低质量数据同时输入到两个模型中:OCR测试模型和数据增强模型。
增强数据模型可以通过增亮过暗的图片、调整过曝图片的对比度等来提高模型的识别精度。比较OCR实测模型和数据增强模型的结果,差异越大,模型的拟合效果越差,即Badcase。下图显示了该方案的情况:
经过去雾、清晰增强、对比度增强、图像增强后,增加了原输出结果,效果良好。增强模型效果好,意味着原模型鲁棒性差,需要与算法工程师同步数据进行定向优化。该功能也可以通过提高图像质量检测模型的精度来实现。实际上线效果如下图所示:
图片左侧的数据增强结果显示在右侧,此时机器可以识别红框中的内容。通过计算莱文斯坦比,我们可以得到黄字,即遗漏的文本信息。
用传统的方法很难从数十亿的数据中发现有问题的数据。通过这条流水线,效率至少可以提高50%,成本也会大大降低。
NLP 作文批改 Badcase 自动化筛选方案
书写纠正是通过OCR手写识别获取文本信息,送入NLP模型识别并纠正错别字。修辞手法(如夸张、比喻、拟人)作为量化的评价方法,用来评价作文的水平。
好的未来构图校正的Badcase自动筛选模型分为两条路线,如下图所示:
左边的路线是调用SimBert模型(在GitHub上可以找到),获取相似词,易错词,同义词等。作为插入错误的范文,并将包含错误的范文输入到作文批改模型中。如果模型能正确检测出大部分插入错误,则P/R值高,如果遗漏率高,则为Badcase。因为预处理OCR的精度达不到1,所以这个流水线需要兼容或部分兼容pre-OCR的误差。
模型前期无法检测到一些语法错误,需要补充右路由:人工标记回流数据,结合左路由共同识别出Badcase。
管道实现了无人值守的每日消息:首先在凌晨对线上回流数据进行清洗和脱敏,然后将得到的数据的子集输入管道,就可以得到昨天线上高度疑似的Badcase。所有的Badcase都被整理成一个列表,可以用于进一步的调优和根本原因分析,以及后期模型的迭代优化。
AI 模型指标评测平台化整合
虽然图像、语音、NLP等能力的逻辑简单,但是各个子模型的输入输出并不完全相同,这对平台的集成提出了很大的挑战。我们设计了以下分层方案。
是底层的数据/脚本持久层。在这一层,我们存储部分目标数据,设置一些接口调用脚本逻辑,通过模板配置快速兼容新功能。
第二层是算法指标计算和处理层。该算法的分析指标有很多,如语音的WER和CER、图像的序列准确性和字符准确性等。将这些指标归一化后,我们可以获得算法指标计算脚本库和归一化处理逻辑之间的映射,也可以对竞品进行评估和比较。
第三层是作业调度层。大量的数据处理速度会比较慢,所以我们会对数据进行切片和拆解,进行分布式处理,辅以多线程处理和多进程处理。
它由许多引入上层的坏情况筛选管道组成。平台效应如下:
该平台收集Badcase标注数据、实际在线处理数据、转录的语音和文本结果等。,可以随时查询、跟踪、分析。内部验证集和测试集不能完全适应在线情况。通过该平台,可以定期定量提取在线数据,评估实际在线表现。如果低于内部评估绩效,可以继续进一步分析。
平台开发仅半年,处理数据已破千万。除了算法测试的工程师,用户还包括产品。要提升产品的AI能力,需要提供WER值、行业水平等量化评估数据。通过这个数据平台,产品可以方便地查询最新的量化指标。图中的指标包括一致性、相关系数和MAE等。即使工程师不知道算法和计算逻辑,也可以通过这个平台快速计算出最新版本模型的在线效果。
AI 研发提效的持续思考
我们从数据、代码、模型、产品四个方面探讨了AI R&D的效率。对于数据,我们正在探索如何精准标注,自动标注,控制质量。精准标注,即用最少的数据获取有用的算法,加速PR值的提升,通过在线回流后对数据进行标注,会减少对识别效果好的数据的选择。比如印刷版本识别可以选择较少的数据,而手写公式识别需要多个数据。自动标注就是用成熟的模型进行预标注。但如果有预评卷,评卷人员可能会放松审核,所以需要建立一个制度来控制外部评卷团队的质量。
算法有工程代码,无法避免内存泄漏、模型崩溃、缓冲区溢出等问题。数据获取后,可以进行静态和动态扫描,可以避免后期发现更早的问题而导致的返工造成的资源浪费。此外,降低了复杂代码的维度,如果代码的循环复杂度高或者模型性能严重下降,会立即反馈。
在模型方面,我们做了自动训练、时长估计和一致性比较。自动训练是指自动进行参数调整和拟合,也可以是半自动的,即通过配置预置参数,每个参数后面跟着一个自动评估脚本,通过选举法选择PR值最大的模型。估计是由内部Kubernetes容器安排的群。通过各模型的复杂度和数据质量预测当前训练任务的结束时间,减少排队和碎片化的情况。另外,模型的归一化指标和工程处理后的在线指标存在一致性问题,需要权衡性能和效果。
在产品端,我们做了A/B实验,在线评测,埋反馈。
A/B实验是将两个版本的模型并行放到网上,定时检索数据,根据用户反馈或标注的真实情况选择更好的模型;在线评估是指通过前期方案筛选Badcase,二级评估并反馈模型的性能;埋点反馈是通过埋点来判断模型的实际预测结果与初始标注的数据是否一致。
上述机制保证了微服务和产品在客户端的体验。
外部链接:您可以通过专利网上的专利号:TAL202000729,TAL202100901,TAL202000769了解本次分享的更多相关技术细节。
嘉宾介绍
好未来AI质量与工程效率负责人赵明,毕业于清华大学软件学院,拥有10多年项目实践与管理经验。曾就职于IBM、FreeWheel等知名外企,从事产品质量自动化和工程效率工具链的研发、测试和管理工作。现在就职于好未来教育集团,担任AI中台质量与工程效率负责人,带领50人团队负责人工智能产品质量保障、AI与工程效率平台研发等工作。
带领团队自主开发算法基准评测平台、自动检测平台、数据清洗与增强平台、算法API测试自动化平台等。
想了解更多关于软件开发和相关领域的知识,点击访问InfoQ官方网站:https://www.infoq.cn/获取更多精彩内容!
来源于用户发布,如侵犯您的权益请联系邮箱3484479098@qq.com