文
JayLou娄杰(NLP算法工程师,信息抽取方向)
编
北大小才女小轶美
Sonata
转自
夕小瑶的卖萌屋
1前言
在实际工作中,你是否遇到过这样一个问题或痛点:无论是通过哪种方式获取的标注数据,数据标注质量可能不过关,存在一些错误?亦或者是数据标注的标准不统一、存在一些歧义?特别是badcase反馈回来,发现训练集标注的居然和badcase一样?如下图所示,QuickDraw、MNIST和AmazonReviews数据集中就存在错误标注。
为了快速迭代,大家是不是常常直接人工去清洗这些“脏数据”?(笔者也经常这么干~)。但数据规模上来了咋整?有没有一种方法能够自动找出哪些错误标注的样本呢?基于此,本文尝试提供一种可能的解决方案——置信学习。
本文的组织架构是:
2置信学习2.1置信学习的定义那什么是置信学习呢?这个概念来自于ICML的一篇由MIT和Google联合提出的paper:《[ConfidentLearning:EstimatingUncertaintyinDatasetLabels][1]》。论文提出的置信学习(confidentlearning,CL)是一种新兴的、具有原则性的框架,以识别标签错误、表征标签噪声并应用于带噪学习(noisylabellearning)。
原文链接:
转载请注明:http://www.xiebinbinb.com/blcwemj/5565.html