猫眼电影
猫眼电影记者 肯亚 报道w3u7903ejky2ywls
机器之心发布
机器之心编辑部
检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。针对这一需求,近日,智源研究院联合多所高校研发了三款向量模型,包括代码向量模型 BGE-Code-v1,多模态向量模型 BGE-VL-v1.5 以及视觉化文档向量模型 BGE-VL-Screenshot。这些模型取得了代码及多模态检索的最佳效果,并以较大优势登顶 CoIR、Code-RAG、MMEB、MVRB 等领域内主要测试基准。BGE 自 2023 年 8 月发布以来,已成为中国首个登顶 Hugging Face 榜首的国产 AI 模型以及 2023 年所有发布模型的全球下载量冠军。
目前,BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot 三款模型已向社区全面开放,为相关技术研究与产业应用提供助力。
BGE-Code-v1:
模型地址:https://huggingface.co/BAAI/bge-code-v1项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder论文链接:https://arxiv.org/abs/2505.12697
BGE-VL-v1.5:
模型地址:https://huggingface.co/BAAI/BGE-VL-v1.5-zs项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL论文链接:https://arxiv.org/abs/2412.14475
BGE-VL-Screenshot:
模型地址:https://huggingface.co/BAAI/BGE-VL-Screenshot项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL_Screenshot论文链接:https://arxiv.org/abs/2502.11431
由智源研究院主导研发的通用向量模型系列 BGE,旨在为各类数据提供高效一站式向量表征与语义检索方案,已推出覆盖中英文、多语言检索及重排模型等多个版本,持续刷新 MTEB、C-MTEB、BEIR、MIRACL 等主流文本向量评测基准。BGE 凭借高性能与开源特性备受业界关注,已广泛应用于 RAG、神经搜索等场景,累计下载超 6 亿次,被国内外多家 AI 企业集成。
目前,检索增强技术正从传统的文本场景逐步拓展至涵盖代码与视觉等多模态数据的应用。然而,相较于文本领域,现有向量模型在代码和视觉模态中的检索效果仍有待提升。此次智源研究院发布的三款新模型,为构建更强大的多模态检索增强系统提供了有力的支持。
BGE-Code-v1
新一代代码优化语义向量模型
随着基础模型代码能力快速发展,Cursor、Copilot 等辅助编程工具大幅提升生产力。在面对百万行级代码库时,代码块检索增强需求凸显,因此检索模型的代码理解能力至关重要。
BGE-Code-v1是以 Qwen2.5-Coder-1.5B 为基座打造的新一代代码向量模型,专为各类代码检索相关任务而设计,同时配备了强大的多语言文本理解能力。模型基于 CoIR 训练集和大量高质量代码 - 文本的合成数据进行训练,并使用课程学习,以 BGE-gemma2-multilingual 的 retrieval、STS 数据为辅助,进一步提升代码与文本的理解能力。BGE-Code-v1 适用于开发文档搜索、代码库语义检索、跨语言信息获取等多种实际应用场景,是面向代码 - 文本检索任务的最优选择。
CoIR 代码检索基准,收集了覆盖 14 种编程语言的 4 大类 8 个子任务,能够有效地评估模型在自然语言和代码的各类混合场景中的检索能力。CodeRAG-Bench 基准评估了代码检索模型在代码检索增强(RACG)中的表现。BGE-Code-v1 在两个基准上均以显著优势超越谷歌、Voyage AI、Salesforce、Jina 等商业 / 开源模型,登顶 SOTA。
BGE-VL-v1.5
通用多模态检索模型
BGE-VL-v1.5 完成多模态检索任务
BGE-VL-v1.5是基于 LLaVA-1.6(7.57B 参数)训练的新一代通用多模态检索模型,全面升级了图文理解能力并具有更强大的检索能力。BGE-VL-v1.5 在 MagePairs 300 万 (3M) 图文对齐数据基础上又收集了共 100 万条自然与合成数据(涵盖 image-captioning 数据、视觉问答数据、分类任务数据)进行多任务训练,显著地提升了模型在各类任务上的泛化性与理解能力。
基于 MegaPairs 数据,BGE-VL-v1.5 在多模态检索任务中性能优势显著,不仅在图像检索中表现强劲,更在通用多模态场景中展现高适应性与准确率,适用于图文匹配、多模态问答、跨模态推荐等场景。
左为 BGE-VL-v1.5-zs 和其他 zero-shot 模型在MMEB上的表现,右为 BGE-VL-v1.5-MMEB 在 MMEB 基准检索任务上的表现
MMEB 是当前使用最广泛的多模态向量基准,由:分类、视觉问答、检索、视觉基础知识,四类任务构成。基于 zero-shot 设置(未使用 MMEB 训练集),BGE-VL-v1.5-zs 在 MMEB 基准中刷新 zero-shot 模型最佳表现;在检索任务上,基于 MMEB 微调的 BGE-VL-v1.5-MMEB 以 72.16 分登顶 SOTA。
BGE-VL-Screenshot
实用强大的视觉化文档向量模型
实际场景中网页、文档等多模态任务常由图文、符号、图表等多元素混合数据构成,这类任务称为 “可视化信息检索”(Vis-IR),因此,多模态模型不仅需要具备从复杂结构中提取关键信息的视觉能力,还需精准理解文本与视觉语义。目前,现有检索模型在此类任务中表现欠佳。
BGE-VL-Sc 基于截图与文本检索
BGE-VL-Screenshot模型基于 Qwen2.5-VL-3B-Instruct ,以新闻、商品、论文、文档、项目主页等七类数据源进行训练,收集超过 1300 万张截图和 700 万组标注截图问答样本。
为了准确评估模型在 Vis-IR 任务上的表现,团队设计并推出了多模态检索基准MVRB(Massive Visualized IR Benchmark,榜单链接:https://huggingface.co/spaces/BAAI/MVRB_leaderboard),涵盖截图检索、复合截图检索、截图 QA 和开放分类 4 项任务共 20 个数据集。
左为多语言 MVRB 测评结果,右为不同尺寸多模态检索模型 MVRB 评测结果对比
BGE-VL-Screenshot 在 4 项任务中表现出色,以 60.61 的综合得分达到 SOTA。在此基础上,通过少量 query2screenshot 多语言数据训练,模型实现了在英文之外的多语言任务上的出色表现。
智源研究院将继续深耕向量模型与检索增强技术,进一步提升 BGE 模型系列的能力与通用性。未来期待与更多科研机构与产业伙伴合作,共同推动检索与人工智能发展。欢迎广大研究者与开发者关注并使用 BGE 系列模型,共建开放繁荣的开源生态。
时事1:国产➕无码➕又爽又刺激黑人
05月22日,万余名跑友齐聚 2024敕勒川草原半程马拉松激情开跑,
进一步加强信息、督查、政策研究材料的报送工作。地委办公室承办的信息、督查和政策研究工作既是各某地某、各部门向地委乃至自治某地党委工作的主渠道,也是地委掌握各某地某、各部门贯彻落实党委决策和各项工作部署情况的重要手段。近年来,各某地某、各部门积极报送各类信息、督查和政策研究材料,做了大量工作。某某、巴里坤某地、伊吾某地、经贸委、发展计划委员会、统计局、农业局、林业局、建设局、公安局、安全局、劳动保障局等单位在这些方面做得较好。希望继续发扬成绩,再接再厉,力争各项工作能再上新台阶。其他单位也要认真查找不足,努力赶上来。与此同时,我们也要清醒看到,目前党委的信息、督查和政策研究工作与新形势、新任务的发展需要相比,同各级党委的要求相比,还有一定的差距,还存在一些问题和不足。主要表现在:一是信息、督查和政策研究的整体水平还不高,报送的材料有的针对性不强、文字质量不高、数据不准确;有的简单停留在现象表层,缺乏深度思考和分析,也没有提出操作性较强的应对措施,能上升到地委领导决策视野的偏少;二是部门一些重要信息、紧急信息的报送还不够及时,甚至有迟报、漏报、瞒报的现象。三是机构改革以后,督查机构进行了新的设置,有的部门对党委督查工作缺乏足够的重视。这里我要强调指出的是,党委督查的机构设置虽然有变化,但督查工作的重要性没有变,督查工作的内容、手段、要求没有变。希望大家切实利用好信息、督查和政策研究工作这一渠道,知不足而思进,采取切实有效的措施,认真加以解决。
,别c我了~C烂了。05月22日,【风起黄埔】黄埔“廖氏三兄弟”后人:父辈保家卫国 坚定信仰不做亡国奴,
消息传出去,四方震动,更高层次的诸多洞天福地内,不少强者都吃了一惊,觉得有点不可思议。
,美女裸体被❌涩涩漫画软件,国产精品㊙️入口免费直播大尺度,散兵被摁在床上C了一天。时事2:海姆斯利外网原版pdf
05月22日,新疆夏尔希里自然保护区风光秀美,
20xx年,是企业保持良好势头稳健发展的一年。在国内餐饮行业的不景气及市场竞争形势激烈的情况下,经企业各级领导和全体员工共同努力,在创新管理制度的同时,全面落实质量管理八字方针,深入贯彻“五常”管理方法,勇于创新,真抓实干,各项事业都取得了一定的成就,实现了阶段性的跨越发展,完成了稳健发展之年预期的各项工作目标任务。 在这一年里,企业秉承“求真务实,开拓创新”的精神,在创新经营管理、市场开发、产品质量等方面,认真调查、研究,分析市场状况,调整产品结构,改进管理措施。加强了员工队伍建设和人才培养力度,抓好企业文化建设,发挥“党,团,工会成员的积极作用,使市场竞争力得到了提升,企业运行保持了稳步发展,经济总量得到了增长,经济效益稳步提高,为今后企业的经营发展取得一定的业绩,打下了坚实的物质基础和创造了良好的发展条件;在确保产品质量与食品安全的同时,积极研发新产品、区域化产品,优化了产品组合,满足了消费者的需求。同时通过开展党工团建设,组织各种户外拓展活动、强化了企业文化,提高了团队的凝聚力和向心力,树立了企业良好的社会形象,展现了企业的风采。
,美脚の诱脚舐め脚,乖让我尿到里面h男女羞羞视频,免费涩涩18🈲️在线观看。05月22日,一季度西藏农特产品出口2206.3万元,
令人吃惊的是,这条紫金蛇速度极快,竟人立而起,尾巴一弹,迅速飞跃出去二十几米远,避过了这一击。
,娼年贞德漫画汉化版免费,果冻传媒HDⅩXXXXX,白丝jk美女教师❌❌接吻小说。时事3:美女露%100的奶头无挡动态漫画
05月22日,江苏去年审结涉房地产案件8.9万件 推动160多家楼盘续建交房,
让我们与未来来个美丽的约定吧:
,㊙️韩H漫画免费羞羞漫画观看,动漫美女❌爆奶水摇舌头,最爽人妖shemaleonthego。05月22日,科学减重,从“管住嘴”开始|科普时间,
尊敬的音乐学院和、同志们、朋友们:
,双男主被❌到爽🔞流,FreePorno💋👙29,女性向小h片资源在线观看。时事4:班长拉起胸让我的🍌伸进去动漫
05月22日,地球日论坛2024在港举办 聚焦转型金融发展,
碧海起伏,群雄寂静,这个少年未免太强了,就是莫殇、韩天也不见得能绝对镇压,他的表现令海中的生灵心惊!
,高超➕紫薇➕白丝➕白浆➕色欲,师母归来2高清在线播放,碧蓝航线美女图片。05月22日,珠海机场北快线北段工程首座隧道顺利进洞施工,
“天啊,不,这是什么凶兽,怎么会如此强大?”
,女学生喷浆视频❌❌❌软件苹果,国产福利姬G奶紧身包臀裙,点不下W看网站。责编:杨志雄
审核:杨祖亮
责编:母家亮