UQLM,使用最先进的不确定性量化技术进行大型语言模型 (LLM) 幻觉检测。

黑盒评分器(基于一致性),通过衡量从同一提示生成的多个响应的一致性来评估不确定性,它们与任何 LLM 兼容,使用直观,并且不需要访问内部模型状态或标记概率。

白盒评分者(基于代币概率),利用标记概率来估计不确定性,它们比黑盒方法更快、更便宜,但需要访问 LLM 的内部概率,这意味着它们不一定与所有 LLM/API 兼容。

LLM as-a-Judge 评分员,使用一个或多个 LLM 来评估原始 LLM 响应的可靠性,它们通过提示工程和法官 LLM 的选择提供高度的可定制性。

合奏记分员,利用多个单独评分器的加权平均值来提供更强大的不确定性/置信度估计,它们提供高度的灵活性和可自定义性,允许您根据特定用例定制集成。

UQLM,使用最先进的不确定性量化技术进行大型语言模型 (LLM) 幻觉检测插图

Github地址:https://github.com/cvs-health/uqlm

论文地址:https://arxiv.org/abs/2504.19254



微信扫描下方的二维码阅读本文

UQLM,使用最先进的不确定性量化技术进行大型语言模型 (LLM) 幻觉检测插图1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。