| 全文共8717字,建议阅读时17分钟 |
转载自公众号:教师专业测评
微信号:jszyfz_edu
摘要
我国走班制教学的兴起得益于高考新方案中“3科固定+3科自选”的选考自由政策,它在兼顾教育的大众化和个性化、实现因材施教等方面具有重要意义。不过,走班制教学涉及到分类分层的实施和评价问题,而常用的终结性测评手段不能适应这种变化,因此推荐使用形成性测评模式。文章就走班制教学中实施形成性测评的意义和操作方法等进行了探析。
关键词:走班制教学;终结性测评;形成性测评
随着高考新方案“3科固定+3科自选”的试行,“选课走班”教学模式[1][2][3]受到了广泛的关注。走班制教学的主要特征是实施分类分层教学,从教学模式上保障因材施教的落实,使得每个学生都可以扬长补短,从而激发学生的学习动力和热情。不过,关于如何分类与分层,特别是关于如何给部分学科优秀的学生推送“优才课程”,以及如何给部分学科落后的学生推送“援助课程”,却没有多少成功的案例可以借鉴。有的学校把“优才课程”演变成了“赶进度提前学”,有的学校让接受“援助课程”的学生感到“没有前途”,还有的学校生怕出错,继续使用固定班级授课制,并强调基础好坏和能力高低不同的学生,必须被完全均衡地分派到各个班级以突显“公平”。以上这些做法都特别值得警惕,它们很可能带来拔苗助长、放弃“差生”、违背因材施教规律等问题。如何才能上好“优才课程”和“援助课程”以兼顾教育的大众化和个性化需求?如何调整作业安排和测评工作以适应分类分层教学的需要?这些问题的解决没有唯一的标准答案,不同学校在面对具体问题时需要做具体分析。本文尝试从形成性测评(formative assessments)[4][5]的角度,为推进走班制教学提供一些参考思路。
一、形成性测评对走班制教学的意义
从支持走班制教学的角度看,一切测评活动都应该是“为了学习的测评”(assessments for learning)。从工作任务的角度看,测评工作可以是学习结果的测评(assessments of learning),也可以是学习过程的测评(assessments as learning)。其中,第一种任务属于终结性测评(summative assessments),第二种任务属于形成性测评。终结性测评的主要目的是检测学生在某个特定教学时间段接受特定教学指导后,已经取得的学业成就水平或者现有的能力发展状况,包括知识结构与层次水平、能力结构与层次水平两个部分,其结果表现形式可以是某种常模参照性分数(norm-referenced scores),也可以是某种领域或标准参照性分数(criterion-referenced score)或等级等,这种分数大多用来对学生学识水平的合格、优秀等做出终结性裁决。形成性测评是一种通过诊断教育计划、教学过程、教学结果等所有环节,以提供教与学反馈信息为主要目的的考试或者课堂观察记录等,其常见的表现形式为教学过程中的随堂小测验、单元测试或学生自测、教师按照一定标准评定学生的课堂学习表现,它关注的是正在发生的教与学的活动,而不是教与学活动的结果,等等。形成性测评对于走班制教学的意义主要体现在以下几个方面。
1
形成性测评与走班制教学中的个性化教育匹配度较高
在走班制教学的运行过程中,为什么值得把形成性测评手段推荐给“优才课程”和“援助课程”?这主要是由走班制教学强调个性化教育的特点所决定的。因为实施个性化教学,必须得有恰当的学情诊断以确定教学难度,需要有及时的学情追踪以调整教学进度等。这就要求测评的量表不能出现“天花板效应”和“地板效应”,测评人员需要根据情况随时调节量表的覆盖范围。量表范围的可调节性正是形成性测评的长处。
事实上,对于大多数终结性测评来说,所有学生所要求作答的试题通常是统一的,其能力覆盖范围也通常是固定的。于是,常常会出现高水平学生获得满分或接近满分的“天花板效应”,以及低水平学生获得零分或很低分数的“地板效应”。一方面,对于水平很高的学生来说,教师只知道他们水平很高,顶到“天花板”了,但并不知道他们真正高到什么程度,因此很难根据这种遇到“天花板”的成绩找准他们的“最近发展区”,也无法制定出符合他们发展需要的教学方案。另一方面,对于水平较低的学生来说,由于他们大多数题目都做错了,教师也很难根据这种落到“地板”的分数来确定他们的水平到底低到什么程度,因而同样很难准确定位其“最近发展区”,制定出符合他们发展需求的教学方案也就变得不切实际。
2
形成性测评容易满足走班制教学中快节奏教学诊断的需求
与固定班级授课制不同,走班制教学强调因材施教,要求不断诊断出学生的知识和能力水平状况,以便调整教学难度和进度,因此检测的次数可能会比较频繁。这就要求测评工作不能太复杂,成本也不能太高。而终结性评价的标准化程度一般要求较高,操作成本也比较大,大家不太可能常常使用它。因此,终结性评价不太符合走班制教学过程中及时获得反馈信息的要求。与此不同,形成性测评既可以是标准化程度很高的测评,也可以是标准化程度不高的测评,比如,形成性测评中的表现性测评(performance assessments),其标准化程度的要求就不太高。由于走班制教学要求快节奏诊断学习效果,可以根据需要频繁诊断教学效果的形成性测评就十分适用。
特别地,对于一些测评技术不高的企业所提供的教育测试,对于那些仅对分数排名感兴趣,而对所测内容目的不太明白,或对分数背后的意义不太关注的教师或学生来说,学生的一个分数或成绩的相对排名信息,根本不能对学校的教与学工作带来积极价值。显然,终结性测评对走班制教学的意义有限,要想充分发挥走班制教学个性化的价值,就一定要通过形成性测评,随时随地了解学生的学习状况,制定出符合学生需求的个性化教学方案。
3
形成性测评关注“优才课程”或“援助课程”背后的思维加工速度和质量
通常,“选课走班”中的“优才课程”或者“援助课程”,特别强调学生在获得知识的过程当中提升自己的思维层次、补救思维结构中的缺陷、打通思维发展过程中的障碍。这就要求教师能够观察到学生知识学习背后的思维加工过程和效果。为了实现这类目的,我们需要为教与学活动提供配套的形成性测评。比如,国外广为使用的“分级阅读”项目,对于设计和实施“优才课程”或“援助课程”就很有意义。“分级阅读”的鲜明特点是:它是不仅仅停留在给学生提供书籍、鼓励学生大量阅读等方面,而是由各出版集团投入海量研发经费,为自己所出版的每本小说或其他读物,配送相应的符合现代测量学原理的形成性测评服务,进而实现为阅读活动提供及时准确的阅读诊断报告、为不同学生制定各不相同的个性化阅读方案,以及激发学习热情和动力等方面的目的。这种为所有阅读材料提供形成性测评服务的做法,特别值得国内同行借鉴。
4
形成性测评可为“优才课程”中的探究式学习提供全过程的评价
理想的走班制教学,特别鼓励学生把传授知识和自主探索相结合,因此,一项可以为自主探索提供形成性诊断服务的测评服务显然很有价值。在这个方面,以美国教育考试服务中心(Educational Testing Service,ETS)科学家Randy Bennett为首研发的“作为学习的结果、目的和工具的基于认知的测评项目(cognitive-based assessment of,for,and as learning,CBAL)”[6][7]具有很好的参考意义。与“分级阅读”强调阅读与自测不同,CBAL项目涵盖了数学和语言等多个学科,即使是语言学科方面的测评,也包括了更多具体的语言细节内容,并特别强调从认知加工的角度剖析学生的学习过程。
5
形成性测评可为“优才课程”中的合作式学习和项目式学习提供全方位的评价
从国外的情况看,走班制教学特别鼓励合作式学习和项目式学习(project-based learning,PBL)。也就是说,走班制教学经常需要评价不同小组,或同一个小组中不同成员完成不同方面学习任务的效果。要实现这种全方位的测评,形成性测评是最好的选择。比如,同一个小组的不同成员,面对同一个项目,需要像企业产品研发一样进行分工合作。同一个问题,有人研究其发生发展的历史,有人研究其生物学因素,有人研究其社会管理方面的问题,等等,这些学习任务,可能涉及到政治、历史、地理、数学、物理、化学、生物、经济、文化、教育等众多主题,并需要几天甚至几周的课内外工作,学生需要围绕课本但又不局限于课本的拓展性阅读,需要辨别事实与观点,需要对所读内容进行整合诠释,需要进行论证评价、反思质疑甚至开拓创新等。对于这种全方位的学习任务,统一的终结性评价显然不太合适。因此,引进能够针对不同的人或小组,做出不同类型教学诊断的形成性测评十分必要。
二、走班制教学之形成性测评方案设计
走班制教学的核心价值在于发挥“优才课程”和“援助课程”的作用,实现因材施教,即让每个学生都能在自己最拿手的学科上得到最大的发展空间,在最需要帮助的学科上得到最有价值的“援助”。要实现这个目标,首先要有可操作的手段,对每个学生的知识结构和层次、能力结构和层次做出精准的诊断。有了这种诊断,教师方能为每个学生推送最合适的教学资源或信息,并提升相关的思维能力水平。换句话说,走班制教学要把知识的获得过程,设计成学生思维体操的演练过程,并由此提升学生的知识和能力水平,以便在应对难题的时候,让学生不仅没有知识点方面的结构性漏洞,而且具有用高阶思维技巧分析低阶思维难题的本领,从而增加问题解决和获得高分的把握。服务于走班制教学的形成性测评,其首要任务就是兼顾知识结构及其层次、能力结构及其层次的考察。
具体来说,一项测评工作通常涉及到九个环节:(1)编写测试说明(test specification);(2)设计测试蓝图(test blueprint);(3)编题(item development)或研制评定量表;(4)题目或量表的试测(pilot study or fieldtesting);(5)测量学分析(psychometric analysis);(6)研制标杆试卷(reference form);(7)建立常模(scaling and norming)或领域掌握分数(domain score)级别;(8)新卷研发及其等值(new form and test equating);(9)分数的报告及其使用(score reporting)。下文就其中的四个特殊环节做一些说明。
1
测试说明的编写
测评说明的主要内容包括确定测评的目的、内容、层次、形式,提供样题、样卷等。在走班制教学中,形成性测评的目的比较容易确定,就是针对不同知识和能力层次的学生群体,从教与学的各个环节,诊断出学生知识结构方面的缺陷,判断出学生思维过程中的障碍,为制定或调整教学方案提供依据。这里,形成性测评的重点在于对各个教学环节的诊断、对学生每个知识或能力维度上具体情况的掌握,以及从多个方位评定学生的行为表现,其结果可能是领域掌握分数,而不是一个抽象的原始总分或其他常模参照分数。这是形成性测评与常规考试的不同之处。
2
测试蓝图的设计
测试蓝图通常表现为测评的双向细目表,其任务是把测评的内容和深度等要求变成具体的实施方案。其中,学科知识结构及其层次的要求可以直接参考国家课程标准和权威的教材内容等,一些国家版本的考试大纲,比如高考考试大纲,也是确定测评内容的重要依据。而相应的学科素养或能力结构与层次的要求,则需要同时参照课程标准、教材、考试大纲以及关于能力发展的理论与方法。比如,Bloom教育目标分类学中关于认知领域的能力层次要求就包括了“识记、理解、应用、分析、综合和评价”六个层次,或者修订后的“记忆、理解、应用、分析、评价和创新”六个层次。[8][9]当然,具体学科一般还会有不同的特殊要求。比如,《中国英语能力等级量表》[10]针对国人在英语的听、说、读、写和翻译等五个类别上的学习任务,分别制定了九个层次的能力标准。表1是其中的口头表达能力的九个层次标准。
表1 《中国英语能力等级量表》之口头表达能力标准
表1所列的层次标准是实施英语口头表达能力形成性测评的一个极好的参考依据。不过,对于某个具体的学段来说,其能力层级范围不必涵盖所有九个级别。比如,处于高中学段的学生的能力层级范围大约介于三级和四级之间;大学本科非英语专业的学生的能力级别则应该处于四级和五级之间,等等。对于同一个级别,我们还可以通过设置“达标/未达标”或“优/良/合格/不合格”等评定办法来实施形成性测评。
3
评定量表的研制
对于学科教学来说,形成性测评通常表现为“单元小测试”或“随堂小考”等形式,其标准化程度要求不高,因此,测试题目的编写主要依靠教师或一些专业的测评机构来完成。而对于“优才课程”或“援助课程”中惯常使用的“合作式学习”或“项目式学习(project-based learning,PBL)”,编写测试题目的教师或专业测评机构则需要具备一定的测评量表研制水平。事实上,PBL等项目属于多种学科知识的综合应用,并表现为一系列任务完成行为,比如,学生需要主动从众多资料来源中提取信息,对材料中的内容进行分析、比较、归纳、概括,或评价他人的观点、论据和推断等。在一些小组讨论等学习活动中,每个人提出的观点和使用的方法也可能很不相同,答案完全是开放式的。显然,常规的考试不太适合这种测评要求。
解决PBL等测评问题的一个常用办法,就是针对不同年龄特点和不同类型的PBL,研发相应的评定量表。例如,在研制“学生是如何分析某个论点”的评定量表时,我们可以参照CBAL的框架,设计一个如表2所示的学生论点分析水平之评定量表。
表2 基于CBAL模式的学生论点分析水平之评定量表
一旦研制好了类似于表2的行为表现评定量表,对走班制教学中涉及的多个方面的教学活动展开形成性测评就变得容易操作。
4
测评结果的分析
与终结性测评结果着重报告一些卷面原始分数或常模参照分数不同,形成性测评的结果报告往往侧重领域掌握分数。现分两类情况进行讨论。
首先,假若手头拥有某种高水平的专门用于做诊断服务的测评量表,则可以直接利用该工具实施形成性测评,快速获得教与学所需的参考信息。表3是《青少年学能发展量表》[1][3]在形成性测试方面的一个应用示例。它展示了每个学生在阅读理解、逻辑推理、假设辨认、事实判断和论证评价五个方面的言语思维品质水平,以及数字规律、数量关系、图表信息和图形推理四个方面的量化思维品质水平。
表3 《青少年学能发展量表》
用于形成性测评之领域掌握分数报告示例
根据表3,我们可以立即为每个学生制作出一个思维品质结构特点的雷达图。图1和图2即表3中学号为1001学生的言语思维品质和量化思维品质的结构特点图。
图1 学生1001言语思维品质的结构特点雷达图
图2 学生1001量化思维品质的结构特点雷达图
根据表3和图1、图2,教师或学生很容易了解到每个人思维品质的结构特点和水平。比如,对于学号为1001的学生,从图1我们很容易发现其言语思维品质中的“阅读理解”能力发展得相对较弱,其领域掌握分数仅仅为14%。这表明该学生领会并解释阅读材料的能力不强,其信息理解、分析、综合和概括的能力有待提升。与此同时,该学生言语思维品质中的“论证评价”能力相对较强,其领域掌握分数为86%。这表明他独立思考和质疑论点、论据、论证过程的准确性、充分性、必要性及恰当性等能力较强。此外,由图2发现,该学生量化思维品质中把握“图表信息”的能力比较弱,其领域掌握分数仅仅为13%。这表明他从图表中获取有效信息、对数据进行分析和整合的能力有限,其解决综合性问题的能力有待提升。显然,这些信息为制定1001学号学生的个性化教与学方案提供了科学依据。
其次,假若手头缺乏高水平的用于诊断服务的测评量表,教师则需要根据教学任务自行研发形成性评定量表。表2是一个教师自行研发的关于学生学习表现的形成性评定量表,其量表的测评结果可以表达成如表4所示的一种认知诊断矩阵(Q矩阵)。
表4 学生论点分析水平评定之Q矩阵示例
其中,Q矩阵中的“1”表示该学生具有这种素质(attribute),“0”表示该学生还没有完全掌握好这种素质。对于这种Q矩阵的数据分析,一个简单的方法是计算每个学生合格维度的总数。合格维度数目越多,表明他具有的思维品质的内涵越丰富,反之,则表明其思维品质的内涵比较贫乏。不过,要对这种数据结构的价值进行深度挖掘,则需要使用一定的认知诊断模型。[11][12]限于篇幅,基于认知诊断模型的分析方法将另外行文。
总之,走班制教学兼顾了大众化教育和个性化教育的要求,其形式和内容丰富多彩,常用的终结性测评不太适应这种教学模式,因此推荐使用形成性测评模式。形成性测评的基本环节与常规测评差别不大,但其中的某些要求不太一致,包括测试说明所强调的重点、测评蓝图所关注的思维内容和层次、形成性评定量表的研发、测评结果的分析方法等,都需要研究者尝试新的手段。文章列举的几个案例对形成性测评的开展具有一定的参考价值。
参考文献
[1]杨志明.新高考与走班制教学之分类分层探析[J]. 决策与信息,2018(3):109-117.
[2]杨志明.新高考与走班制教学的推进[J]. 教育测量与评价,2017(11):5-11,18.
[3]杨志明.走班制教学与学能诊断测试[J]. 教育测量与评价,2017(8):5-12.
[4]杨志明. 基于《中国英语能力等级量表》之形成性阅读能力测试:以《傲慢与偏见》阅读测试为例[J]. 教育测量与评价,2018(5):5-10.
[5]杨志明,吴本文.中文分级阅读及其形成性评价[J].教育测量与评价,2017(6):5-13.
[6]O’Reilly,T. & Sheehan,M.,K.. Cognitively Based Assessment of,for,and as Learning:a Framework for Assessing Reading Competency[R]. ETS Research Report ETS RR-09-26,2009.
[7]Bennett,E.,R..Cognitively Based Assessment of,for,and as Learning(CBAL):a Preliminary Theory of Action for Summative and Formative Assessment[J].Measurement,2010(8):70-91.
[8]佚名. Bloom’s Taxonomy of Learning Domains[EB/OL].[2018-04-10]. http://www.nwlink.com/~donclark/hrd/bloom.html.
[9]Anderson,L.W.,Krathwohl,D.R.,Airasian,P.W.,Cruikshank,K.A.,Mayer,R.E.,Pintrich,P.R.,Raths,J.,Wittrock,M.C.. ATaxonomy for Learning,Teaching,and Assessing:a Revision of Bloom’s Taxonomy of Educational Objectives[M]. New York:Pearson,Allyn& Bacon,2001.
[10]教育部考试中心.中国英语能力等级量表[Z]. 北京:高等教育出版社,上海:上海外语教育出版社,2018.
[11]Tatsuoka,K..Cognitive Diagnostic Assessment:an Introduction to the Rule Space Method[M]. New York,NY:Routledge,Taylor & Francis,2009.
[12]De La Torre,J..An Empirically Based Method of Q-matrix Validation for the DINA Model:Development and Applications[J].Journal of Educational Measurement,2008(45):343-362.
杨志明/湖南师范大学测评研究中心主任、外国语学院教授,ETS Assessments(Beijing)顾问,(美国)教育考评局(ERB)原技术总监,香港中文大学博士。
本文来源:《教育测量与评价》(2018年第6期)
喜欢我们就多一次点赞多一次分享吧~
有缘的人终会相聚,慕客君想了想,要是不分享出来,怕我们会擦肩而过~