首页 > 文档 > 学术/知识/论文 > IT/计算机/信息技术 > 计算机软件及计算机应用

易混淆样本驱动的簇间分布优化短文本聚类

2025-06-06 1180 3.6M 0

　　短文本聚类旨在将无标签的短文本实例划分为不同的语义簇。针对该任务中易混淆样本难以有效区分以及语义相近簇间特征分布重叠的挑战。提出了一种易混淆样本驱动的簇间分布优化短文本聚类方法。该方法首先基于信息熵采样不确定性较高的样本作为易混淆样本，并选取其邻近簇样本构建候选集；随后引入大语言模型进行语义判别，构造“易混淆样本-正样本-负样本”三元组；同时，采用参数随机扰动机制为每个样本生成自身正例；最终在对比学习框架下实施簇间分布联合优化。在四个公开短文本数据集上的实验结果表明，与现有先进模型相比，所提出方法的聚类效果均有提升，平均准确率提高了5.14%，平均标准互信息提升了2.51%。分析实验的结果进一步验证了所提方法不仅显著提升了模型对簇间易混淆样本的语义辨别能力，而且有效缓解了语义相似簇间的特征分布重叠问题。

您还没有登录，请登录后查看详情

易混淆样本短文本聚类大语言模型对比学习

下一篇：华裔作家中国叙事与文化身份认同探析——以陈舜臣为中心
上一篇：面向飞行自组网的路由协议仿真评估研究进展

点赞 0举报收藏 0打赏 0评论 0

久存网超级..
加关注4
~~没有留下签名~~~~

本类推荐

	基于Delphi+AHP+FCE的公立医院智慧药房绩效考核指标体系的构建及评价
	面向知识图谱补全的大模型方法综述
	基于多尺度特征融合与矫正的渐进式深度图超分辨率重建
	RC-PBFT: 一种基于信誉分组的改进PBFT算法
	基于细节增强与多尺度特征融合的水下目标检测
	大语言模型与知识图谱协同增强知识组织理论架构研究
	基于注意力的双学生知识蒸馏异常检测方法
	第一类投毒攻击及其特征分析
	道路环境感知的联合特征学习框架
	基于深度学习的壁湍流近壁区域粒子图像测速算法

下载排行