太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether

首页 >新闻 >社会新闻

全新数据筛选方案，数据效率提升10倍！配置仅需fastText评分器

2025-05-22 02:21:04

来源：

猫眼电影

作者：

曹春生

手机查看

　　猫眼电影记者洛德报道w3u7903ejky2ywls

PreSelect团队投稿量子位 | 公众号 QbitAI

vivo自研大模型用的数据筛选方法，公开了。

香港科技大学和vivo AI Lab联名提出PreSelect，目前已被ICML 2025接收。

这是一种轻量级且高效的数据选择方法：只需要训练和部署一个基于fastText的评分器，就可以减少10倍的计算需求。

该方法提出数据的预测强度(Predictive Strength) 的概念和计算公式，利用在不同模型上Loss有序性表征数据对特定能力的贡献，通过获取特定能力的有效样本训练fastText分类器对全量训练数据进行筛选。

△论文标题：Predictive Data Selection: The Data That Predicts Is the Data That Teaches

PreSelect：更客观、更轻量

现有的数据筛选方法主要分为两类：基于规则的筛选和基于模型的筛选。

基于规则的筛选依赖人工构建的先验规则，如C4 pipeline、Gopher rules，以及RefinedWeb和FineWeb的数据筛选流程。此类方法虽然实现简单，但容易受到人工经验的限制，存在泛化能力弱或规则主观性强的问题。

基于模型的筛选则通过训练模型对数据分类或打分以筛选样本，如CC Net采用困惑度（Perplexity）打分，FineWeb-Edu利用Bert分类器评估教育价值，DsDm和MATES计算样本的influence score，DCLM利用 fastText打分器评估样本与SFT数据的相似性。这类方法常面临计算成本高或者引入主观偏见等问题。

而PreSelect方法具有以下优势：

客观性将传统的主观性的数据质量评估转化为对模型能力的贡献大小，通过“预测强度”指标，量化评估数据在不同能力上的价值；泛化性筛选的正样本不仅覆盖高质量内容来源，同时具备良好的多样性，避免过度集中于某一领域、来源或风格；轻量级通过fastText分类器近似打分，大幅降低计算成本，使得该方法可以高效应用于大规模数据筛选任务中；高细粒度支持样本级别的筛选支持特定细分能力维度的数据筛选

△PreSelect方法与现有SOTA方法的对比，数据效率提升10倍

PreSelect：压缩即智能

“压缩即智能”（compression represents intelligence）这一观点揭示了一个核心现象：大模型对数据的压缩能力（例如BPC, bits per character）与其在该数据上的归一化Loss存在等价关系，且与模型在下游任务中的表现高度相关。

换言之，模型越能高效压缩数据，模型能力或智能水平越高。

核心思想

PreSelect团队提出以数据预测强度（Predictive Strength）作为衡量模型loss与下游任务（benchmark）表现一致性的指标，其计算公式如下：

N代表模型数量，这些模型在benchmark的得分 {S1 < S2 < … < SN}C代表模型在数据集d上的归一化loss，即BPCZ为归一化因子I{}为指示函数S取值范围 [0,1]

当S=1 时，表示不同模型在benchmark上的得分排序与其在该数据上的loss排序完全一致，说明该数据具有很高的预测强度；相反，当S=0时，说明两种排序之间没有相关性，该数据对下游任务的作用弱，预测强度很低。

根据预测强度的高低对数据进行筛选，优先保留那些使得不同模型在benchmark上的得分排序与在数据上的loss排序更一致的数据。

这类数据对模型能力的贡献更加显著，能够更有效地提升模型效果。

与现有方法相比，该方法具有更坚实的理论基础，减少了对人工启发规则的依赖，筛选过程更客观、更具有泛化性。

系统框架

计算预测强度需要多个模型分别对数据样本计算loss，全量数据计算的成本将非常高。

为解决这一问题，使用fastText打分器作为代理模型近似预测强度，从而显著降低计算成本。

整体流程如下：

训练效果

PreSelect团队从RefinedWeb数据集中随机抽取80B、300B和1T tokens作为基础数据，评估不同筛选方法的效果。筛选比例设置为10%和30%，筛选后的数据量级包括8B、30B、90B和100B。所训练模型的参数规模包括400M、1B和3B。

实验对比的筛选方法包括Random、Perplexity Filter、Perplexity Correlation（DD）、Perplexity Correlation（DP）、FineWeb-Edu、DCLM。

在下游17个任务上的实验结果表明，PreSelect方法筛选出的数据在训练的模型效果上显著优于其他方法，对比baseline平均提升了3%，验证了其有效性。

在C4数据集上，进一步对比多种主流筛选方法，包括Random、DSIR、DsDm、QuRating和MATES，所训练的模型为Pythia。

实验结果显示，PreSelect方法筛选的数据训练出的模型在多项指标上均优于其他方法。

从已通过人工规则集和多种质量评分模型筛选，并经过不同粒度的文本级和语义级去重的vivo自有Web数据集中，随机抽取5T tokens作为基础数据，分别采用PreSelect与Random方法各自筛选10%（即500B tokens），训练参数规模3B的模型并评估下游任务效果。

实验结果表明，即使在自有的经过优化处理的数据集上，PreSelect方法依然有显著的性能提升，展现出其在高质量数据基础上的增益能力。

经过对不同数据筛选方法所选择的样本进行分析，结果表明PreSelect筛选的domain数据更多地采样了知识、问答和文学领域，更广泛地覆盖了高质量来源内容，能够显著提升模型在各个领域的效果。

通过对不同数据筛选方法所筛选出的数据长度进行比较，可以看到DCLM 和FineWeb-Edu显示出明显的短数据向量和长数据向量趋势，而PreSelect筛选的数据在长度分布上更接近原始长度分布。表明其在筛选出高质量样本的同时，有效减少了样本长度偏差（length bias），具备更好的代表性与覆盖性。

论文链接：https://arxiv.org/abs/2503.00808

时事1：免费无遮挡视频网站混斗罗

05月22日,太原检方出台“十项举措”护航民营经济：坚持治罪与治理并重,

　　“人人生而平等”的口号在18世纪喊得石破天惊，划开了中世纪欧洲阴沉的夜幕。在启蒙运动时期，卢梭等大批思想巨擘呼唤众生平等，给了很多人平等的权利。从此，多少革命志士为了这个追求前仆后继、赴汤蹈火。21世纪的今天，我们早已实现人人平等，可是事实并非如此，很多人凭借家世、地位、金钱等就自命不凡，自以为高人一等，就践踏了别人的尊严。

,流萤被❌同人网址。

05月22日,江苏睢宁的过年“仪式感”：万斤鱼和肉村民分红笑开颜,

　　“哦，那我去玩了。”小不点一颠儿一颠儿的跑向了很远的那处“后院”，去找一群仆人的孩子玩，在那里他笑的很开心。

,扒开,裸体+光屁屁+搂胸+中国,丝袜老师踩我巴。

时事2：雷电将军❌自慰喷水

05月22日,守护共同的呼吸和命运,

学校及周边安全教育国旗下篇9

,纲手爆乳被❌🔞㊙动漫,同性双男黄Gary片免费,赵丽颖做爰A片免费看。

05月22日,国务院安委会对秦皇岛重大观光游览船侧翻事故查处挂牌督办,

　　可以依它来修行，进行突破，称得上是一部无价天书，对于各族来说都是瑰宝，只是欠缺盖世宝术。

,少年骇客同人❌网站,秦怡宁同人18❌AV黄漫图片,色情乱婬老太婆A片视频下载。

时事3：男男GayGay无套G

05月22日,续写“晋湘之好” 300余名湖湘专家学子走进山西晋城,

,男男被x❌x到无套,胡桃喷水自慰爽影片,《好好疼爱里面》动漫。

05月22日,抗洪牺牲村支书李清学被评定为烈士,

　　“族长爷爷，还有阿叔他们，一直瞒着我，在为我五岁的洗礼犯愁，其实我都知道了。现在好了，有了三头太古遗种，真血一定足够了。”

第二十章惊变,www.yeetake.com,邻居(高H,双性,饥渴受)男男小说,白丝校花🌸扒开腿让我C。

时事4：爽躁多水快深点无码

05月22日,台青林家民投身整形外科在大陆追寻“更美”人生,

　　“太爷，攻击凶兽的左腋下！”石毅再次开口，眸子无比的深邃，有丝丝缕缕的神芒射出，神秘力量流转，恐怖无比。

,XXXX76🍆🍆🍆HD女,白丝妺妺洗澡忍不住c了她h,美杜莎3D同人18❌羞羞。

05月22日,（新春见闻）山东济南：趵突泉迎春花灯流光溢彩,

　　一头斑纹虎虫窜来，花纹的躯体像只染了色的大蚕，能有五六米长，长着一个虎头，凶猛而狰狞，这条大虫闻到了太古真血的气味，想对狻猊的宝体咬上一口。

,欧美AV无码成人精品区,蜜桃AV绝色少妇免费视频,成人性生交大片免费看黄103季。

【双台风将为东部及南部海域带来较强风雨】

【（文化中国行）焦溪古镇传承舌尖上的非遗：“豆腐已到第七代传人”】

责编：蔡春龙

审核：汪云松

责编：乔治·卢卡斯

全新数据筛选方案，数据效率提升10倍！配置仅需fastText评分器

学校及周边安全教育国旗下 篇9

学校及周边安全教育国旗下篇9