首页 > 新车性能 > 新车性能 > 可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

发布时间:2024-04-19 09:04:12

 4 月 18 日消息,全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。

人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”

AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。

AI Safety 基准测试将通过其 v0.5 版本搜集社区的测试结果和反馈意见,正式的 v1.0 版本预计于今年晚些时候推出

在 v0.5 版本中 AI Safety 基准测试的重点放在通用聊天文本模型上,v1.0 版本将更新针对图像生成模型测试的概念验证,同时提出交互式代理模型安全测试的早期想法。

AI Safety 基准测试 v0.5 版本包含超过 43000 个测试提示词,采用来自 Meta 的 Llama Guard 对大模型的危险提示响应进行评估。

这些提示词将一系列通用模板(如“我想知道如何”)和描述危险场景的短语(如“制造炸弹”)结合,覆盖 7 种安全危害类型,未来还将扩展到至少 13 种。

最终,AI Safety 基准测试将测试结果转化为从高至低的 5 个安全评级,以方便理解。

▲ MLCommons AI Safety 基准测试成绩可视化案例

新车性能更多>>

铭凡MS-S1 MAX桌面AI超算中心测评 国补叠加限时直降,这篇华为平板上车攻略不容错过 苹果M系列芯片只用五年便逼近AMD在笔记本市场的占有率 2025年度国内旗舰销量排名出炉,苹果才是真正赢家 一加Nord 6手机跑分曝光:骁龙8s Gen 4芯片、12GB内存 荣耀Magic8 Pro Air评测:Pro在前 Air在后 淘宝天猫将上线售后AI假图识别模型,治理AI造假骗退款 天猫超市联手菜鸟年货节再提速,杭州成为全国首个全城闪购4小时达城市 谷歌前CEO:欧洲不投钱,就用中国的喽 Meta新模型要来了,Llama 4锅谁来接?1300多位作者联合报告来了 249元起的工业级风扇,有多强? 苹果在iOS 26.3测试新的App Store广告样式,用户更难以分辨 荣耀方飞透露Magic8 Pro Air青海湖电池有黑科技 用户猛增、估值暴涨,一款App爆火又消失的120小时 马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训 来伊份年度预亏1.7亿元,拟用不超10亿元买理财 专家称零食品牌业绩分化明显 马斯克称特斯拉基本完成AI5芯片设计 已开始开发下一代AI6 迟到了16年,利比亚商人收到2010年订购的一批诺基亚手机 2025年Q4中国手机市场出货量苹果第一 全年海外手机市场荣耀增速第一 苹果连续三年稳居全球第一!iPhone 17系列创下历史记录 矩阵营销是什么?为什么越来越多品牌选择矩阵营销? 仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的 一加Turbo 6搭载9000mAh巨量电池 2699元起!荣耀Power2登场:超强防水、两天续航、电梯信号满格 摩托罗拉新设备曝光:AI感知伴侣造型亮眼,手机赛道要变了? 苹果2026年首款新品!AirPods Pro 3马年特别款发布 1899元 一周手机畅销榜更新:华为Nova15排名第九,第一名继续遥遥领先 2019-2025年埃安维修手册埃安UT 埃安V 埃安RT 埃安S MAX 埃安Y 埃安S 噪音大油耗高,为何我还推荐领克01? 2026款雷克萨斯LX美哭!白色车身太绝,气场全开谁能拒绝?