猫眼电影
猫眼电影记者 西诺瓦茨 报道w3u7903ejky2ywls
智东西编译 金碧辉编辑 程茜
智东西5月28日消息,据科技媒体The Decoder 5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型进行多模态能力标准化评估。
LMEval基于LiteLLM框架(能让开发者通过统一API便捷调用GPT、Claude、Llama等上百款大模型,并支持流式响应、批量推理及成本监控等功能的开源框架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大厂商API接口,首次实现文本、图像、代码三类任务的一站式评测,并通过增量评估技术减少80%重复测试算力消耗。
LMEval的源代码和示例笔记本已经在GitHub上公开,供广大开发者使用和研究。
地址:https://github.com/google/lmeval
一、跨平台互通,采用增量评估+多线程并行计算技术,测试效率提升5倍
LMEval基于LiteLLM框架,将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口标准化,开发者无需针对不同平台重写测试代码。
同时,科技媒体The Decoder援引谷歌官方说道,LMEval系统采用增量评估技术,配合多线程并行计算,能节省80%算力,原本8小时的测试流程可压缩至1.5小时。
在评估场景层面,LMEval突破了单一文本问答的局限,将图像理解、代码生成等场景纳入评测范畴,满足多领域对大模型能力评测的需求。
在题型方面,LMEval提供了是非判断、多选问答、开放式生成等多达12种题型,为全面评估模型在不同任务形式下的表现创造了条件。同时,LMEval模块化设计允许开发者依据自身研究或业务需求,灵活添加新的评估维度,增强了框架的扩展性与适应性。
在安全评估层面,LMEval新增的规避性回答检测功能能够识别模型在面对敏感问题时所采取的推诿策略,这对于评估模型在处理敏感信息时的可靠性意义重大。
▲Giskard的安全评分显示了不同的AI模型如何有效地规避潜在的有害内容。百分比越高,安全性就越高。(图源:谷歌)
在数据存储与隐私保护层面,LMEval将测试数据存储于自加密的SQLite数据库中,本地访问需密钥验证,有效阻断搜索引擎抓取,在数据使用过程中全方位保障数据安全与隐私。
二、评测成本直降90%,月之暗面已部署
据The Decoder报道,LMEval采用增量评估技术后,企业新增测试场景的运维成本降低90%。国内大模型创业公司月之暗面技术负责人王海明、刘征瀛在今年5月26日谷歌LMEval框架发布后的媒体沟通会上透露,该工具已应用于其内部流程优化,在未使用LMEval前,月之暗面针对新模型或新场景的评测往往需要数周时间来搭建测试环境、设计评测流程以及执行测试。
而引入LMEval后,原本复杂冗长的流程得以简化,现在仅需几天就能完成一轮全面评测,研发周期大幅缩短超两周。
LMEval配套的LMEvalboard可视化工具支持生成雷达图,能直观对比不同模型在各项能力上的表现短板。
开发者点击图表即可查看具体错误案例,还能并排对比不同模型对同一问题的响应差异,助力精准定位模型性能优劣,为模型的优化与改进提供有力依据
结语:谷歌开源LMEval框架,打通五大厂商API接口
谷歌开放的开源框架LMEval基于LiteLLM框架,打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,让开发者能在统一环境下评测不同来源模型。通过模块化设计,它可同时满足文本、图像、代码等多模态评估需求,提供12种题型,还能灵活添加新评估维度。而增量评估技术配合多线程并行计算,节省80%算力,使企业新增测试场景的运维成本降低90%,显著提升测试效率、降低测试成本。
谷歌推出的LMeval框架通过标准化和灵活性的结合,为研究人员和开发者提供了便利。在未来,随着AI技术的不断演进,LMeval框架或有可能成为行业内评测工作的标准,助力推动AI模型的持续发展与优化。
来源:The Decoder
时事1:XXXHentai3Dmmd4k
06月02日,2019年来新疆兵团药品和医用耗材集采已节约医疗费用逾15亿元,
第四,注意交通安全,自觉遵守交通规则,红灯停,绿灯行,宁停三分,不抢三秒。过马路左右看,走斑马线,绝对不横穿马路。
,sone-312。06月02日,打通“以旧换新”的堵点 来看旧家具家电如何“再生”,
也只有在这边疆地域或许才不那么安稳,因为不时有异族来叩关,洗劫人族,吞食生灵,但这对于浩瀚古国来说,一些小的战役算不得什么。
,中国裸男体㊙️无遮挡软件,大乳老师婬荡呻吟HD电影,浪货今天就把你🌿到服为止的。时事2:姬小满裸乳被爆❌白浆9
06月02日,“黑科技”扎堆亮相浙江交博会 展现智慧交通新图景,
“早就等你多时了!”蛟鹏战意高昂,既然败过,那么就要再赢回来。
,男主挤女主奶喝的动漫,成人免费❌❌❌app,naruto❌sakura18。06月02日,“学中文是一件如此美丽的事”|元首外交 大国风范,
所有大族群全灭了,而后浩劫波及到了更远的疆域。
,雏田爆乳❌🔞🔞视频,日本伦理电影大妈的爱,futa动漫女同3D同人。时事3:国产农村妇女XXXⅩ性高湖
06月02日,俄媒:乌军无人机袭击别尔哥罗德州致数十人死伤,
村干部培训班的 篇2
,扒开小舞❌狂揉❌3d,美女私㊙️比基尼慢慢脱,三级片女人自己演说。06月02日,“白名单”扩围 保交房增效(经济聚焦),
“怎么会这样?!”诸强惊呼。
,小柔seeu裸体污照无码,海贼王女帝汉库克被海军汉化版,女仆扒开腿㊙️让人桶漫画。时事4:脱裤子❌打屁屁站91
06月02日,停课停航停运!广东清远遭遇极端性强降水,
“是的,犹如一片真实的国度。”柳树回应道。
,♥同人♥黄本子♥,51漫画❌黄漫免费网站,国产丨熟女丨国产熟女视频。06月02日,贵州册亨:溶洞图书馆 书香山村,
有一句话这么说,权利对神说,你是属于我的。神把权力赶出了伊甸园;爱对神说,我是属于你的。神给爱长住伊甸园的自由,因为谦逊。“优于别人并不高贵,真正的高贵是优于昨天的你”。
,宝宝你被c的时候好骚,初中生黑脚射丝鞋,一拳超人龙卷被❌十八禁视频。责编:王效
审核:马新意
责编:海尔宾