大模型安全对抗攻击评测

云服务器

大模型AdvBench评测是什么，大模型AdvBench评测方法

大模型AdvBench评测是专门针对大语言模型进行红队测试（Red Teaming）的安全基准，旨在量化模型在面对恶意提示词时的防御能力，核心指标为“拒绝率”（Refusal Rate），即模型成功识别并拒绝执行有害指令的比例，什么是AdvBench评测体系？AdvBench并非单一的工具,而是一套标准化的安……

2026年6月22日
0050