太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic

2025-06-01 18:32:06
来源:

猫眼电影

作者:

王文艳

手机查看

  猫眼电影记者 熊克武 报道w3u7903ejky2ywls

智东西编译 金碧辉编辑 程茜

智东西5月28日消息,据科技媒体The Decoder 5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型进行多模态能力标准化评估。

LMEval基于LiteLLM框架(能让开发者通过统一API便捷调用GPT、Claude、Llama等上百款大模型,并支持流式响应、批量推理及成本监控等功能的开源框架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大厂商API接口,首次实现文本、图像、代码三类任务的一站式评测,并通过增量评估技术减少80%重复测试算力消耗。

LMEval的源代码和示例笔记本已经在GitHub上公开,供广大开发者使用和研究。

地址:https://github.com/google/lmeval

一、跨平台互通,采用增量评估+多线程并行计算技术,测试效率提升5倍

LMEval基于LiteLLM框架,将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口标准化,开发者无需针对不同平台重写测试代码。

同时,科技媒体The Decoder援引谷歌官方说道,LMEval系统采用增量评估技术,配合多线程并行计算,能节省80%算力,原本8小时的测试流程可压缩至1.5小时。

在评估场景层面,LMEval突破了单一文本问答的局限,将图像理解、代码生成等场景纳入评测范畴,满足多领域对大模型能力评测的需求。

在题型方面,LMEval提供了是非判断、多选问答、开放式生成等多达12种题型,为全面评估模型在不同任务形式下的表现创造了条件。同时,LMEval模块化设计允许开发者依据自身研究或业务需求,灵活添加新的评估维度,增强了框架的扩展性与适应性。

在安全评估层面,LMEval新增的规避性回答检测功能能够识别模型在面对敏感问题时所采取的推诿策略,这对于评估模型在处理敏感信息时的可靠性意义重大。

▲Giskard的安全评分显示了不同的AI模型如何有效地规避潜在的有害内容。百分比越高,安全性就越高。(图源:谷歌)

在数据存储与隐私保护层面,LMEval将测试数据存储于自加密的SQLite数据库中,本地访问需密钥验证,有效阻断搜索引擎抓取,在数据使用过程中全方位保障数据安全与隐私。

二、评测成本直降90%,月之暗面已部署

据The Decoder报道,LMEval采用增量评估技术后,企业新增测试场景的运维成本降低90%。国内大模型创业公司月之暗面技术负责人王海明、刘征瀛在今年5月26日谷歌LMEval框架发布后的媒体沟通会上透露,该工具已应用于其内部流程优化,在未使用LMEval前,月之暗面针对新模型或新场景的评测往往需要数周时间来搭建测试环境、设计评测流程以及执行测试。

而引入LMEval后,原本复杂冗长的流程得以简化,现在仅需几天就能完成一轮全面评测,研发周期大幅缩短超两周。

LMEval配套的LMEvalboard可视化工具支持生成雷达图,能直观对比不同模型在各项能力上的表现短板。

开发者点击图表即可查看具体错误案例,还能并排对比不同模型对同一问题的响应差异,助力精准定位模型性能优劣,为模型的优化与改进提供有力依据

结语:谷歌开源LMEval框架,打通五大厂商API接口

谷歌开放的开源框架LMEval基于LiteLLM框架,打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,让开发者能在统一环境下评测不同来源模型。通过模块化设计,它可同时满足文本、图像、代码等多模态评估需求,提供12种题型,还能灵活添加新评估维度。而增量评估技术配合多线程并行计算,节省80%算力,使企业新增测试场景的运维成本降低90%,显著提升测试效率、降低测试成本。

谷歌推出的LMeval框架通过标准化和灵活性的结合,为研究人员和开发者提供了便利。在未来,随着AI技术的不断演进,LMeval框架或有可能成为行业内评测工作的标准,助力推动AI模型的持续发展与优化。

来源:The Decoder

 时事1:卡戴珊被啪21分钟在线

  06月01日,河北宽城:硕果挂枝头 葡萄喜丰收,

  二、充分认清我市城镇化建设的形势

,ℋღ᭄幸福🍒᭄💞࿐。

  06月01日,【滔滔两岸潮】台青张鸿文投身北京金融业:与客户共同成长,

  刹那间,莽牛吼音就震的人头皮发紧,几乎要软倒在地上。

,娜美吃路飞棍子原视频,猛男GayGay✅视频网站,斗罗大陆❌18禁同人游戏。

 时事2:妲己被🈲️黄漫扒衣服

  06月01日,罗马尼亚宪法法院确认总统选举第一轮投票结果,

  一、实施教育教学质量提升工程。

,周于希视频原版链接,美女露隐私秘免费视频网站,Zoo Sex woman HD。

  06月01日,迈出新步伐|制→智→质,“链”出新“津”彩,

  1、不要独自一人外出游泳,更不要到不摸底和不知水情或比较危险且宜发生溺水伤亡事故的地方去游泳。选择好的游泳场所,对场所的环境,如该水库、浴场是否是卫生,水下是否是平坦,有无暗礁、暗流、杂草,水域的深浅等情况要了解清楚。

,啊哈嗯嗯用力cao我视频,t66y技术讨论区2024,红太狼被小灰灰肉本子H。

 时事3:女同❌互慰吃奶互揉微博

  06月01日,外籍人士:新疆现代化建设经验值得学习,

  各位领导、教师、同学们:

,玩12—14女娃黄文,海角乱怆破解,专看孕妇分娩的网站。

  06月01日,8项公安交管新措施将于7月1日起实施 将减少办事成本30亿元,

  提到消防,同学们自然会想到令人毛骨悚然的火灾二字。是的,火,带给人们光明,赋予人们温暖。但是火也吞噬了无数生命,留下了累累伤痕。我们不会忘记,_年11月24日凌晨,俄罗斯莫斯科人民友谊大学学生宿舍发生火灾,近200名学生受伤,41名学生死亡,其中,中国留学生受伤46人,死亡11人。这场大火用血淋淋的数字和惨痛的代价,给我们敲响了安全防范的警钟,警醒我们火灾是威胁日常学习、生活安全的重要因素。身处人员密集的校园的我们,应在脑海中长期鸣响“119”警铃,提高防火意识和技能。希望大家能做到“三懂”、“三会”。“三懂”即懂得火灾的危险性,增强消防意识;懂得火灾形成的原理,不玩火;懂得火灾预防,积极开展消防宣传。“三会”即学会火灾报警方法,学会使用灭火器扑救小火,学会火灾自护自救的方法。要时刻牢记消防安全,学习消防知识,消除火灾隐患,防微杜渐,防范未然。

,女S调教男M视频丨VK,欧美老年人靠比XXXXx,小舞乖~腿弄大一点就不疼了视频。

 时事4:巧露视频站

  06月01日,国风新业态“一夜兴起” 商家转型“带火”王羲之的家,

  族长轻轻一叹,道:“很多事,连我们自己都遗忘了,传承早已断绝。直到有一天,一对年轻的夫妇寻到这里,提及这些,我们才知晓,故老所说可能是真的。”

,LOL女英雄18禁无遮挡图,美女又爽❌又黄❌视频无声音,HD XXX Porn Video。

  06月01日,安徽省阜阳市政协原副主席、阜阳市第二人民医院原院长葛阳接受监察调查,

我国银行开业致辞900字 篇4

,小宝探花在线观看免费直播电视剧,Japan HD XXXX Videos 100,自慰喷水私人影院九一制片厂。

责编:张师正

审核:阳淼

责编:洛特兹

相关推荐 换一换