ByteBrain团队SIGMOD25 | 基于预训练语言模型的NDV估计

字节跳动技术团队 · 公众号 · 架构 · 2025-06-10 10:51

主要观点总结

本文介绍了一种基于预训练语言模型的NDV（Number of Distinct Values）估计方法，该方法利用语义信息来预测数据库表中不同值的数量，而无需进行数据采样或少量采样。文章详细描述了模型架构、输入和输出、训练数据、实验与结果，以及该方法的局限性。

关键观点总结

关键观点1: 核心思想

利用预训练语言模型通过语义信息做开箱即用的NDV估计。

关键观点2: 研究背景

NDV估计是数据科学领域的基础工作，常用于数据库SQL优化。现有方法依赖扫描全部数据或随机采样数据，开销较大。

关键观点3: 研究目标

设计一个预训练模型，根据数据库schema中的语义信息预测NDV，减少采样开销。

关键观点4: 模型架构

PLM4NDV模型架构包括预训练模型PLM、Self-Attention和MLP。PLM用于语义信息的embedding，Self-attention用于关联不同column，MLP用于输出NDV预测。

关键观点5: 输入与输出

输入包括库表schema、统计信息和可选的采样数据，输出是目标列的NDV。

关键观点6: 实验与结果

实验结果显示，PLM4NDV在无需采样数据的情况下能够预测NDV，且效果优于传统方法。随着采样数据量的提升，PLM4NDV的预测效果更佳。

关键观点7: 局限性

PLM4NDV旨在支持NDV估计的实时性，其实际应用需与其他技术结合。此外，该方法还需进一步与数据库查询优化问题结合落地。

文章预览

导读本文的核心思想是利用预训练语言模型通过语义信息来做开箱即用的NDV估计，已经被SIGMOD25接收，SIGMOD25 Reviewer给出的评价：本文是第一个基于语义信息做NDV估计的工作。论文标题：PLM4NDV: Minimizing Data Access for Number of Distinct Values Estimation with Pre-trained Language Models 论文作者：Xianghong Xu, Xiao He, Tieying Zhang, Rui Shi, Lei Zhang, Jianjun Chen，全部来自字节跳动，第一作者Xianghong Xu来自字节跳动 ByteBrain 团队，通讯作者Tieying Zhang为ByteBrain团队负责人论文地址：https://arxiv.org/pdf/2504.00608 背景 Number of Distinct Values（NDV）估计是数据科学领域的基础工作，常用来做统计分析（如数据库SQL优化的基础）。现有的NDV估计方法（无论是统计模型还是学习模型）可以分为基于sketch和基于采样的两类，前者依赖扫描全部数据，开销很大；后者需要随机采样数据，然后根 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博