|
|  |
|
大学英语考试效度研究
|
大学英语四、六级考试到92年9月时已实施五年,为了验证大学英语四、六级考试的效度,进一步改革与完善大学英语四、六级考试,自92年10月起至95年12月进行了为期三年的大学英语四、六级考试效度研究。 ·大学英语考试效度研究的目的1.论证大学英语四、六级考试作为一种大规模标准化考试的可靠性、科学性,检验大学英语四、六级考试能否为准确测量学生英语水平提供科学的手段;2.改善大学英语考试的后效,推动教学大纲的贯彻执行,使考试更好地为教学服务;3.如有必要,改进大学英语考试的设计,采用新题型,完善考试的格式和形式;4.验证大学英语四、六级考试的统计分析手段,验证它能否为教学提供必要的动态信息;5.推动对语言测试和大规模标准化考试的理论研究。·大学英语考试效度研究的组织 大学英语四、六级考试效度研究是经国家教委和英国文化委员会批准的中英合作项目,为期三年,其中英方得到了英国政府海外开发署的支持,中方由全国大学英语四、六级考试委员会负责,并成立了专门的效度研究小组;英方由雷丁大学(UniversityofReading)应用语言学研究中心(CALS)负责。 ·大学英语考试效度研究的内容 大学英语四、六级考试效度研究涉及结构效度(constructvalidity)、内容效度(contentvalidity)、同期效度(concurrentvalidity)、预期效度(predictivevalidity)、表面效度(facevalidity)等,此外还对题型、记分体制、统计分析软件、考务管理等方面进行了全面的研究检验。在三年研究期间,制定了大学英语四、六级考试内容规范、完成了大学英语四、六级考试范型试卷、组织了各种大规模的对比考试、实验研究、问卷调查、座谈会等,此外还进行了阅读测试过程的内省法心理研究。通过对所得到的大量数据及实验结果进行统计分析,可以得出如下结论:1)大学英语四、六级考试是一项信度极高的考试,每次考试客观题的内部信度都达到0.9以上;2)大学英语四、六级考试是一项效度相当高的考试,回收问卷中有92%的教师认为大学英语四、六级考试能反映学生的实际英语水平;3)大学英语四、六级考试是一种尺度相关-常模参照性考试,其设定的及格线与教师对学生是否及格的判断,相关高达0.82;大学英语考试成绩与教师判断的学生成绩,名次相关高达0.7,这在大规模标准化考试中是极难做到的;4)大学英语四、六级考试的内容设计合理,86%以上的教师认为各部分内容比例适当,内容对各专业学生均公正;5)大学英语四、六级考试已建立了一整套完整的制度;在试卷设计方面,从命题、预测、试题项目分析到题库建设等都有严格的质量控制措施,保证了该考试学术水平的稳定性;在统计分析及成绩发布方面,从自动阅卷、IRT等值处理、作文分调整到成绩正态化处理等都有成熟的措施,保证了成绩报导的科学性和一致性;在考务组织方面有严格的制度,保证了考试的严密性和公正性;6)大学英语四、六级考试已开发了一系列计算机软件,为考试的组织、实施、管理和成绩的统计计算提供了条件,实现了考试过程管理的计算机化,每次考试为各级教学行政部门进行决策提供了大量信息;7)大学英语四、六级考试实施八年来已建立了一支有相当规模的、老中青结合的专业队伍,并已经具备有一定规模的计算机设备及图书资料,有能力开展语言测试方面的重要研究。详见《大学英语四、六级考试效度研究》
计算机自适应考试传统的测验,不论考生水平高低全部要接受同一批题目的测验,结果对水平低的考生来说,那些难度大的题目,根本无法作答,反而引起焦虑。对高水平考生来说,那些难度小的题目,又测不出考生的真实水平,徒然浪费精力。理论的分析与实践的经验都证明,当题目难度跟考生水平相适应时,题目所提供的信息量最大,考生的积极性最高,测验效度也就最好。八十年代中期兴起的机助自适应测验解决了主动适应考生状况的"因人施测"问题。其理论基础题目响应理论(IRT)建立了深刻地、综合地反映考生作答反应与题目质量及能力水平间关系的非线性模型,估出的能力水平不依赖于特定的施测题目样本,而且能明确算出信息量即测量精度,因而,即使两考生各自接受了一批难度变化不同的测验,据此估出的能力水平值也是可以相互比较,处于同一量表上的值。编制自适应测验,首先要建立大型题库,题库要有一定的教学模型,没有教学模型的试题称为题堆,在测试中没有使用价值。机助自适应考试以题目响应理论(IRT)为教学模型建立题库,这是一项要耗费大量人力和财力的工程。而考试的施测大体分为两个阶段,一是考生能力水平的探查阶段。具体做法可以是,从题库中随机调取一中等难度水平题目施测;若考生能正确作答,则继之以更难的题目;若考生不能正确作答,则继之以较易的题目,到考生既有答对题目又有答错题目时,就可以初步估出其能力值。第二步针对初步估计能力值继续从题库中挑出难度最适当、信息量最大的题目施测,并不断地估计考生能力,逐步向考生的能力真值逼近,直到满足测量精度要求为止,从面对考生的真实能力作出准确的评价。自九十年代初期开始,全国大学英语四、六级考试委员会一直致力于题目响应理论和"机助自适应测验"的研究和开发。目前IRT已成功地用于CET分数等值处理过程中,机助自适应测验题库也正在建设和完善过程中,我们希望不久将推出CET机助自适应测验系统,为中国英语测验开辟一块新的园地。
|
(
2000/12/12,09:53
) |
|