本院动态
范津砚教授“大型语言模型在多大程度上能够基于虚拟聊天文本准确评估人格?—不同提示语与评分的颗粒度对于大模型打分的心理测量学特性的影响”专题讲座圆满举行
返回列表
发布时间:2026-04-03

2026年4月2日,由浙江省人才发展研究院、浙江大学行政管理研究所联合主办的“大型语言模型在多大程度上能够基于虚拟聊天文本准确评估人格?—不同提示语与评分的颗粒度对于大模型打分的心理测量学特性的影响”在浙江大学紫金港校区北二教学楼114教室圆满举行。

本次讲座由浙江省人才发展研究院院长、首席专家、浙江大学行政管理研究所所长陈丽君教授主持,美国奥本大学心理系教授范津砚担任主讲嘉宾,浙江大学本硕博生参加了讲座。

讲座伊始,陈丽君教授对范津砚教授的到来表示热烈欢迎,并介绍范津砚教授是美国俄亥俄州立大学工业与组织心理学博士,目前任教于美国奥本大学心理学系,主要研究领域是人工智能、人事选拔、新员工入职培训和社会化过程、跨文化适应和培训。实践方面,范津砚教授还开发了一系列人才测评的工具、模型等,长期从事人力资源管理相关的企业咨询工作。

讲座环节,范津砚教授首先回顾了传统个性测评的局限性,并指出人工智能(AI)的兴起为人才测评领域带来了新的范式。他系统区分了两种技术路径:一是需要预先训练模型的“小模型”范式,其过程费时费力但可精确复刻自我报告分数;二是以ChatGPTDeepSeek为代表的大型语言模型(LLM),凭借海量预训练知识,无需专门训练,仅通过提示语即可直接对文本进行人格评分,极大降低了应用门槛。

针对当前研究多片面关注大模型“汇聚效度”而忽视其他心理测量学品质的不足,范教授分享了一项其团队完成的前沿比较研究。该研究以一项严格的“小模型”研究为基线,系统考察了大模型在不同提示语和评分颗粒度下的信度、效度、内在结构及增量效度。结果发现:在人格子维度水平上,小模型在分半信度、重测信度以及与自我报告分数的绝对一致性上显著优于大模型;然而,在汇聚效度和辨别效度上,大模型却表现出明显优势,且在预测真实行为结果(如学业成绩)时展现出更强的增量效度。

范教授总结指出,大模型与小模型并非简单的替代关系,而是“各有胜负、优势互补”。小模型擅长忠实再现个体自我认知,而大模型则在捕捉人格特质的区分度和预测外部效标方面潜力巨大。两者结合使用,可产生最优的预测效果。他由此强调,当前学界不应草率抛弃小模型,而应审慎探索两者的协同机制。最后,范教授还直面了AI测评时代的新挑战——候选人利用AI作弊,并分享了其团队在该领域的研究探索,引发在场师生的深入思考。

现场互动提问环节,与会师生就关心的问题与范津砚教授展开深入讨论。关于测评输入材料的选择,陈丽君教授率先提问,不同输入(如视频、语音、文本)对AI评分结果有何影响,采用文本输入如何应对被测者提供AI生成的文本?范教授回应指出,业界实践已表明,语音和面部表情通道因预测力不足且易引发种族偏见与法律诉讼,已被多数领先的AI面试系统放弃,目前仅保留文本通道。他进一步解释,文本分析虽相对稳健,但面临候选人利用AI作弊的新挑战,这已成为测评行业亟待解决的核心问题。关于AI评分的可解释性与公平性,有同学担忧大模型作为“黑箱”,其评分缺乏可解释性,难以向未通过者提供有说服力的反馈。范教授指出,大模型反而比小模型更具优势,因为它能够生成评分理由与发展建议,尽管这些理由的质量尚不稳定,但至少提供了可追溯的解释路径。他同时强调,当前大众对AI测评的期望过高,而实际上人工面试的评分一致性也相当有限,只要AI的表现达到与人类相当的水准,就应给予合理的容错空间。关于AI作弊的检测与应对,针对同学们关心的如何识别候选人使用AI代答的问题,范教授透露其团队已开发出不同于计算机领域的新策略,正与加拿大一家公司合作,通过分析文本特征来识别作弊行为,并期待未来能公布更有效的检测方法。此外,范教授还就小模型的特征提取、效标变量的选择以及大模型在不同人格特质上测量效果的差异等问题与现场师生进行了深入交流,其回应兼具学术深度与实践洞察,赢得了阵阵掌声。

在互动讨论结束后,陈丽君教授对讲座内容进行了总结发言。她首先感谢范津砚教授带来的精彩报告,并高度评价了研究的现实意义。陈教授指出,“未来已来”,我们已全面进入AI时代,与其焦虑,不如主动携手人工智能。她呼吁在场同学和研究者积极投身于这一前沿议题,共同探索AI在人才测评等领域的应用与治理。最后,她再次对范教授的莅临表示感谢,并期待未来能持续开展此类高水平的学术交流。

未来,浙江省人才发展研究院和浙江大学公共管理学院将继续搭建此类高层次学术交流平台,促进不同学科的融合对话,助力人才发展理论与实践的共同进步。