随着自然语言处理技术和深度学习算法的突破,生成式人工智能已具备对人类语言、行为和思想观念的深刻理解能力,并在政策信息检索、团队冲突解决等场景中展现出超越人类专家的潜力,但政务聊天机器人在实际应用中仍面临技术局限性,亟需系统性评估其能力。研究旨在聚焦大语言模型在公共管理领域的应用效能,构建人工智能赋能政务回应效能评估分析框架,分别通过“图灵测试”与文本质量评估,系统探讨大模型在政民互动中的实践潜力与局限性。首先开展图灵测试,选取人民网领导留言板的咨询、建议、投诉类民众留言,同时调用API要求DeepSeek模拟公务员批量生成回复文本,并通过问卷调查收集用户满意度评价,开展“图灵测试”;其次,基于文本长度、表述逻辑、情感倾向、回应相关性等客观指标,对公务员与大模型回复文本质量进行量化评估比较,揭示不同官员职务层次对回复文本特征的影响。研究发现,通用大模型对民众留言的回复功能已经通过“图灵测试”,大模型生成回复的满意度显著高于公务员回复文本,其在简单政民互动中的回复能力已经初步达到人类水平。相较于公务员回复,通用大模型回复文本具有诸多特征,并在文本长度、语言表述逻辑等方面具有明显优势,但在情感倾向与回应性方面仍有不足,同时在代表不同层级官员回应时存在无差异回复的特征,说明其未能捕捉中国制度下领导职务层级与话语风格的关联,暴露出技术逻辑与行政逻辑的脱嵌问题。最后为发挥生成式人工智能对公共服务供给的提升效能提出若干建议。