202347B 长尾“悖论”和智能的“边界”

吴言吴语 · 公众号 · · 2023-11-27 12:09

在机器学习或者人工智能的圈子里，长尾(long tail)是一个经常被提到的概念。简单的说，如果把我们在一个任务中会遇到的所有情况(数据样本)看做一个概率分布，那么长尾指的是这个分布中那些远离“中心”的“尾部”样本，这些样本对应的概率比较低，即所谓的小概率事件。通常这些长尾样本由于概率很低，被选择性忽略，但如果数据的概率分布不是像正态分布那样以二次指数衰减，而是更缓慢一点，那么这些长尾的小概率事件的总和变得不可忽略，也就是所谓的fat tail，尾大不掉是也。长尾的数据样本由于概率低，所以在训练数据集中比较少见，这样的一个自然后果是模型在数据分布的长尾样本所在区域内的“经验”较少，也就相对容易欠拟合(under-fitting)。模型如何应对长尾样本带来的挑战本质上是如何将模型在样本密度高的区域学到的规律 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博