基于Civil-Eval的土木和交通工程大模型中文测评方法_建筑科学与工程_工程科技与自然科学_学术/知识/论文_文档

文件类型：PDF文档
文件大小：0.76M

　　自ChatGPT发布以来,预训练大语言模型以其广泛的多行业多任务“通用能力”得到了世界范围内的广泛关注,也为土木与交通工程行业的智能化转型提供了新动力。为了评测预训练大语言模型的能力边界,研究者在通用领域提出了一系列评测数据集来测试模型的基础能力,但是这些数据集没有涵盖土木领域的相关知识。然而,大模型在垂直领域应用上的表现距人类专家仍存在较大差距;尤其在土木工程领域,行业大模型研究处于起步阶段,在文本等单一模态的理解和推理等简单任务上尚未产生公认的性能良好的行业大模型,因此,本文将聚焦于专业领域中行业大模型最应具备的基本能力,重点测评其在语言模态的表现。基于土木工程行业国家级注册考试,如一级注册建筑师、二级注册建筑师、监理工程师等专业考试试题,通过人工筛选整理和复核,建立了涵盖8个科目,426道单选题、91道多选题的大模型土木与交通工程行业知识中文评测数据集CivilEval。并对10个国内外的代表性大模型以及推理大模型OpenAI-o1、DeepSeek-R1和土木工程知识大模型CivilGPT进行评测,结果表明:未经过土木工程行业语料库训练和微调的通用基座大模型在行业应用上与人类专家相比仍存在差距;在各科目的表现性能方面,大语言模型更擅长法律法规等常识问题的语言理解,但在涉及数理推理能力和多选问题上的性能有待提升;推理大模型OpenAI-o1通过内置思维链技术增强了其逻辑推理能力,在简单题和难题上均取得了性能提升;CivilGPT通过增加行业语料库预训练和微调等方式在简单题上提升了模型性能,但在涉及推理和多选等难题上无明显改善。基于评测结果,给出了行业大模型的发展建议:行业大模型的构建应当以具备良好推理能力和多模态处理能力的通用大模型为底座,通过高质量行业语料进行增量预训练和微调来实现。同时,构建高质量的思维链和专家反馈标注数据,对于提升行业模型的专业能力也具有至关重要的作用。