学术评判中,“AI考官”能被委以重任吗
“AI考官”能评判学术背后的思想重量吗?一项大规模研究,将当前最先进的生成式AI推上了学术评判的席位。
英国剑桥大学领衔的研究团队让Claude、ChatGPT等前沿模型,为来自英国三所大学考试和考核中的761篇本科论文逐一打分。结果显示,AI给出的评分与专家评审授予的学位等级仅仅有约半数相符。更为严峻的是,这些系统在识别优秀的学术成果和薄弱的作业时屡屡失准,暴露出其对语言形式过度敏感、对学术实质把握不足的缺陷。
这份新近发布的报告警示,尽管AI可以在一些阅卷流程中充当辅助工具,但若将其推向前台独立裁断,不仅可能抹杀学生的个性才华,更将动摇高等教育赖以维系的信任根基。
评分模式“掐头去尾”
|
|
