易混淆样本驱动的簇间分布优化短文本聚类

2025-06-06 40 3.6M 0

  短文本聚类旨在将无标签的短文本实例划分为不同的语义簇。针对该任务中易混淆样本难以有效区分以及语义相近簇间特征分布重叠的挑战。提出了一种易混淆样本驱动的簇间分布优化短文本聚类方法。该方法首先基于信息熵采样不确定性较高的样本作为易混淆样本,并选取其邻近簇样本构建候选集;随后引入大语言模型进行语义判别,构造“易混淆样本-正样本-负样本”三元组;同时,采用参数随机扰动机制为每个样本生成自身正例;最终在对比学习框架下实施簇间分布联合优化。在四个公开短文本数据集上的实验结果表明,与现有先进模型相比,所提出方法的聚类效果均有提升,平均准确率提高了5.14%,平均标准互信息提升了2.51%。分析实验的结果进一步验证了所提方法不仅显著提升了模型对簇间易混淆样本的语义辨别能力,而且有效缓解了语义相似簇间的特征分布重叠问题。



您还没有登录,请登录后查看详情



 
举报收藏 0打赏 0评论 0
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1