短文本聚类旨在将无标签的短文本实例划分为不同的语义簇。针对该任务中易混淆样本难以有效区分以及语义相近簇间特征分布重叠的挑战。提出了一种易混淆样本驱动的簇间分布优化短文本聚类方法。该方法首先基于信息熵采样不确定性较高的样本作为易混淆样本,并选取其邻近簇样本构建候选集;随后引入大语言模型进行语义判别,构造“易混淆样本-正样本-负样本”三元组;同时,采用参数随机扰动机制为每个样本生成自身正例;最终在对比学习框架下实施簇间分布联合优化。在四个公开短文本数据集上的实验结果表明,与现有先进模型相比,所提出方法的聚类效果均有提升,平均准确率提高了5.14%,平均标准互信息提升了2.51%。分析实验的结果进一步验证了所提方法不仅显著提升了模型对簇间易混淆样本的语义辨别能力,而且有效缓解了语义相似簇间的特征分布重叠问题。