随着人工智能技术的飞速发展,以ChatGPT为代表的生成式人工智能大模型深刻地改变了人类的生活,同时也对生成内容检测技术提出了更高要求。相较英文生成文本,中文生成文本检测研究起步较晚,资源相对匮乏。基于零样本学习思想,提出融合条件独立采样与对数似然对数秩比(LRR)机制优化的人工智能生成中文文本检测方法。首先验证了人工智能生成的中文文本同样具有经扰动变体后的文本概率位于模型负曲率区域的特点,之后通过条件独立采样替代了传统施加扰动的采样机制,添加注意力机制模块进一步提取采样文本的概率分布特征,并利用参数赋权法评估条件概率曲率指标与优化的LRR指标,最大限度发挥两个指标的检测作用。实验结果表明,该方法的准确率最高可达90%,平均准确率为87.7%,时间效率相对于施加扰动的DetectGPT方法提升了近6倍。
文章目录
0 引 言
1 相关工作
1.1 概率曲率
1.2 LRR机制
2 融合条件独立采样与LRR机制优化的中文生成文本检测
2.1 条件独立采样
2.2 LRR优化
2.3 条件独立采样与LRR优化参数赋权
3 实验及分析
3.1 实验环境
3.2 大语言模型及数据集
3.2.1中文语言模型
3.2.2中文数据集
3.3 实验1:零样本学习泛化性验证
3.4 实验2:融合条件独立采样和LRR优化的检测可行性验证
3.5 实验3:综合评估检测方法的准确率与时间消耗
4 总结