- 沈晨;罗双虎;
基于现有英语听说考试人机互评的评卷模式,探索双机评测模式可行性,使用上海市初中外语听说测试全真模拟数据试验,对比3种独立计算机智能评分算法的效果。结果显示,机评分与报道分一致性达到96%以上,具备良好的效果,但存在1659份样本双机评后仍误判的效果风险,综合考虑双机评测模式的评卷组织、机评评价机制仍不完备,暂不具备可行性,需要进一步的算法提升和应用方法研究;算力改变对比验证结果表明,评分准确性几乎不下降的情况下,采用GPU算力结构的评分算法的运算速度相当于CPU算力结构的6倍,这可以使得评分时间和硬件投入大幅度减少。
2023年03期 v.19;No.98 75-90页 [查看摘要][在线阅读][下载 1281K] [下载次数:113 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:3 ] - 沈晨;罗双虎;
基于现有英语听说考试人机互评的评卷模式,探索双机评测模式可行性,使用上海市初中外语听说测试全真模拟数据试验,对比3种独立计算机智能评分算法的效果。结果显示,机评分与报道分一致性达到96%以上,具备良好的效果,但存在1659份样本双机评后仍误判的效果风险,综合考虑双机评测模式的评卷组织、机评评价机制仍不完备,暂不具备可行性,需要进一步的算法提升和应用方法研究;算力改变对比验证结果表明,评分准确性几乎不下降的情况下,采用GPU算力结构的评分算法的运算速度相当于CPU算力结构的6倍,这可以使得评分时间和硬件投入大幅度减少。
2023年03期 v.19;No.98 75-90页 [查看摘要][在线阅读][下载 1281K] [下载次数:113 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ] - 宋一硕;
大规模测试需求与信息技术的进步,要求评价标准与之适应。在人机结合的测评模式和复杂的测试流程背景下,普通话水平测试标准研制经受住了特殊测试环境的检验。以测试工作问题为导向,在专家指导及一线调研的基础上,形成了由5个一级指标、10个二级指标、51项评价要素组成的评价标准。通过理论研究结合实地调研,建立高校普通话水平测试工作的评价标准。实践证明,该标准有效地提高了高校普通话水平测试的管理水平,具备一定的推广价值。
2023年03期 v.19;No.98 91-99页 [查看摘要][在线阅读][下载 1236K] [下载次数:75 ] |[网刊下载次数:0 ] |[引用频次:1 ] |[阅读次数:3 ] - 宋一硕;
大规模测试需求与信息技术的进步,要求评价标准与之适应。在人机结合的测评模式和复杂的测试流程背景下,普通话水平测试标准研制经受住了特殊测试环境的检验。以测试工作问题为导向,在专家指导及一线调研的基础上,形成了由5个一级指标、10个二级指标、51项评价要素组成的评价标准。通过理论研究结合实地调研,建立高校普通话水平测试工作的评价标准。实践证明,该标准有效地提高了高校普通话水平测试的管理水平,具备一定的推广价值。
2023年03期 v.19;No.98 91-99页 [查看摘要][在线阅读][下载 1236K] [下载次数:75 ] |[网刊下载次数:0 ] |[引用频次:1 ] |[阅读次数:1 ]