关于形成性评估与隐形性评估——美国《教育传播与技术研究手册 ( 第四版 )》让我们深受启发的亮点之三

2017 年 8 月 11 日 MOOC 何克抗

| 全文共9051字,建议阅读时长7分钟 |

 

本文由《中国电化教育》杂志授权发布

作者:何克抗

摘要

该文介绍了总结性评估、形成性评估和隐形性评估,特别是后面两种评估(即形成性评估和隐形性评估 ),文章着重从其基本内涵、核心要素以及不同教学环境下的评估方式和应用案例等方面,既深入地介绍了第 25 章作者的观点,也从不同角度详细描述了个人的感受和体会(具体体现在对该文的组织与论述上)。

关键词:总结性评估;形成性评估;隐形性评估;基于证据的评估设计;沉浸式学习环境


“形成性评估与隐形性评估”是《“教育传播与技术研究手册”(第四版)》第三部分(“评估与评价”篇)第25章的内容[1],这一章首先对当前在评估实践中存在的主要问题做了简要介绍(作为开篇的“导论”);在此基础上,分别对总结性评估、形成性评估和隐形性评估进行阐述——尤其是对后面两种评估(即形成性评估和隐形性评估),从其基本内涵、核心要素以及不同教学环境下的评估方式和应用案例等方面,作了较深入的剖析。下面就是对这几方面内容的简要介绍,和个人对这些内容的学习、思考及体会。

一、导论


评估(Assessment)在教育系统中历来起重要作用,并普遍表现为“标准化考试”。标准化考试能达到“问责”的目的,所以有其必要性,但也可能会拉大学生之间的差距,使某些学生丧失信心。学术界认为,当前在评估领域存在的主要问题是,“评估信息没有被用于支持教育和学习,更未被及时利用”[2][3]。通常对课堂教学的评估(考试或测试),大都是在完成主要教学内容之后进行,这将导致评估结果无法对教学做出及时有效的反馈。西蒙兹(Symonds)在对这种状况进行研究时,把几十所学校分为两组:能成功缩减学生之间差距的为一组,未能成功缩减学生之间差距的为另一组。结果显示,这两组学校在评估方式上有明显差别——能缩减学生之间差距的学校往往对学生进行多次测试,并利用测试结果改进教学;而另一组学校则没有对学生经常测试,所以没有能利用数据改进教学[4]。西蒙兹的研究说明以下两点:一是教学需要频繁、可靠数据的支持;二是学校领导应鼓励教师有效地使用测试数据。


在课程与教学论中,通常把测试结果用于支持教学评估的称为“形成性评估”。虽然有大量证据表明,形成性评估确实能促进学生的学习,但在课堂教学过程中成功进行这种实践的案例却不多,这是因为形成性评估在课堂中实施有以下两方面的局限:一是难以实施;二是经常被误解为另一种测验(正如有学者所指出,“形成性评估是一种基于测验的过程,而不是一种测验形式”[5])。


为了能够找到在课堂教学中有效运用形成性评估的途径与方法,需要了解与此相关的概念及知识(例如,“测验”“评估”和“总结性评估”等概念、知识);另外,作为21世纪的教师对于形成性评估的最新发展——“隐形性评估”,也应当有清醒的认识。后面的几个部分就是与此相关的内容。

二、测验与评估


从传统的经验看,对学生进行“测验(Test)”的目的,是要对学生加以区别,并根据测验成绩排名。如果“测验”是采用上述这种“问责制”方法(例如标准化考试),所反映的是最后的测评结果——那么,这种测验将属于“总结性评估”,它对于日常的教学过程及学生学习过程的指导作用并不理想。事实上,不同的测验模式对应不同的教学方式,在实际教学过程中对学生的学习有不同的影响;而以学生为中心的经常性测验则属于“形成性评估”——这种测验便于形成及时反馈,所以将有利于促进教师的“教”与学生的“学”。


评估(Assessment)通常作用于个体,并可能包含测验、观察等内容。评估可以是一种工具,也可以是针对特定目标的相关信息进行收集的过程[6]。由于对一个人的判断是基于他对有限评估结果的反应,所以用评估作基础的结论并不完全准确。教育测量的目的在于缩减这些不确定性的错误;于是“信度”和“效度”也就成为衡量评估质量的主要依据。

信度是指评估结果的一致性,即是否对不同学生采用统一的排名标准;效度是指对事物衡量的准确程度,以及任务执行结果所获取信息的准确性。在下面有关各种评估的讨论中,不仅关注测量学生外显能力和潜在能力的信度与效度,也关注如何将信息应用于教学互动和教学支持。因此最终的落脚点是在形成性评估,而非总结性评估;而且随后还将进一步阐释“隐形性评估”——将形成性评估融入教学环境的一种方式,这种评估是无形的,完全不会干扰学生的自主学习和对学习过程的参与。

三、总结性评估与形成性评估

正如学者罗伯特(Robert Stake)所言,“当厨师品尝汤时,是形成性评估;当顾客品尝汤时,是总结性评估”——这是对两种评估的最通俗又准确的概括。采用哪种评估方式,取决于教育目的。如上所述,当今学校大量采用总结性评估(如标准化考试)——这对于达到最终关注提高分数的“问责制”目的是很有用的,但是对促进学生的学习没有多少帮助;而以学生为中心的经常性测验则属于形成性评估——为了学习而进行的评估,这种评估有助于引导教学和促进学生的学习,但却很少被持续、有效地应用。和总结性评估相比较,形成性评估往往是非标准化的、不是很细致的,同时也缺少评估工具和评估数据。

(一)总结性评估

总结性评估一般使用传统方法(如标准化考试)去评估教学结果,它通常是在学年末、入学前、或是在某个标志性的学习阶段之后实施。总结性评估具有以下几方面的优点:

1.通过清晰的教学目标和教学标准,来比较学习者在不同群体中的差异;

2.能为不同对象(如学习者、教师、管理人员等)、不同部门(如学校、地区、省市、部等教育行政管理部门)履行自身职责提供可靠的依据(分数);

3.对国家教育政策的制定有启示(例如对“课程设置”和“资金投入”方面的决策)。

(二)形成性评估


1.形成性评估的含义及核心要素

形成性评估是教学过程中的一种渐进性的评估方式,它将评估融入课堂教学过程,以学生开展学习活动时所表现的信息作为依据,用来及时调整教学(包括对教学内容、方法、策略的调整),从而有效促进学生的学习。


在上面所述的形成性评估内涵中,应特别关注其中的两个核心要素:一是“融入”——要将“评估”的操作及相关活动自然地融入当前的课堂教学过程,尽量不让学生感到有压力;二是“反馈”——通过观察学生在课堂教学活动过程中的表现、或分析随堂测验分数所得到的结果,用于调整教学和促进学习,从而实现对“教”与“学”两个方面的“双重提升”。


实施形成性评估的常见例子是:教师针对当前学生的学习内容进行突击测验,然后快速分析学生的测验分数,并据此调整教学内容(要特别关注大多数学生普遍误解的内容)。和总结性评估相比较,教师往往更喜欢、更频繁地应用形成性评估——对于不同学科的教学内容和不同年级的学生,这种评估都能取得较好的、促进学习的成效[7-10]。

在形成性评估过程中,还有一个不可缺少的条件:支持性工具。这些工具能帮助教师在各种不同的教学环境中“收集证据”“挖掘数据”“解读数据”,还能协助调整教学(这些工具通常是嵌入在专业开发的“形成性评估系统”中;这种形成性评估系统除了可以提供上述工具以外,还可帮助学习者激发学习动机、提高学习者的意志力、自我效能和解决问题的能力)。

2.形成性评估在课堂中的实施


对课堂中实施的形成性评估进行认真设计能有效提升学生的学习。研究数据表明,通常需要一年时间进行学习的课程内容,在有效实施形成性评估的课堂中只需六个月即可完成。此外,还有证据证明,形成性评估能够显著提升学生在高中毕业时的两个指标:“自我效能”和“动机”[11][12];形成性评估还为后进生带来了福音——当教师知道学生的问题出在哪里时,他们可以及时调整教学(如重新讲授、尝试其他教学方法、改变作业要求、或提供更多实践机会),从而使后进生也能更快地进步[13]。


形成性评估要在课堂实施中达到有效提升学习的目标,必须认真关注“反馈”这一核心要素,它涉及“支持学习”和“支持教学”这两个方面:


“支持学习”的反馈——包含“及时对学生的行为做出具体评论”“指出学生错误所在”以及“如何改进的建议”等环节;及时和正确的反馈能引导学生专心于具体的学习任务,而不是只关注正确答案和测验分数。在这种反馈过程中,教师应当用不同类型的评估数据对学生的学习提供支持,这些评估数据有的是关于提高学生理解能力的对话信息,有的则是向学生启发或暗示应如何准备好新单元或新知识的学习。

“支持教学”的反馈——包含“如何利用评估信息去调整教学的建议(如教学进程应提速或减速)”“下一步应怎么做的建议”以及“如何连接网络的相关资源”等环节。事实上,在如何通过反馈来“支持教学”方面,教师在对形成性评估结果的利用上还有很大的提升空间,例如,在如何准确地调整教学、以及如何确认最有针对性的教学方法等方面,很多教师目前还难以达到要求,这正是今后教师专业发展应当努力的重要方向之一。

3.形成性评估在信息化教学环境下的实施
 

目前信息化环境下的教学系统(如计算机辅助教学系统、智能导师系统、和基于网络的教学系统等)都具有形成性评估功能——由基于计算机的专门的“形成性评估系统”提供支持。这种评估系统的比较典型的案例是ACED(Adaptive Content with Evidence-based Diagnosis)[14]。该系统使用以证据为中心(基于证据诊断)的设计模式[15],开发调整型、对话式评估系统,用来评估、支持代数课程的知识与技能教学;其教学支持是利用及时而详细的反馈。这一系统在实施形成性评估过程中的关键是要确认系统的反馈在以下两个方面有什么样的影响与作用:
 

第一,对课程教学质量(例如对信度、效度、效率等)有怎样的影响;
 

第二,能否真正起促进学生学习的作用。舒特(Shute,V.J.)曾对268名九年级学生进行过基于ACED评估系统的有效性研究[16],结果显示,评估质量并未因反馈而受影响;相反,使用ACED系统的学生和未使用该系统的对照组学生相比较,不仅对学习内容有更好的理解,而且对学生自我效能的提高及对学习的促进方面也有明显效果。
 

4.在课堂中有效运用形成性评估的十条建议

《教育传播与技术研究手册(第四版)》第25章的作者为了让广大教师能够在课堂上更有成效地运用形成性评估,经过广泛、深入的调查研究和认真思考,最后提出了颇有价值的关于“在课堂中如何实施形成性评估的十条建议”的内容:

(1)关注认知性研究(Cognitive Research)——应使用具有认知发展基础的评估;

(2)提供较复杂的任务(Complex Tasks)——要让学生参与具有认知需求的较复杂任务,从中认真思考问题;

(3)明确学习目标(Learning Goals)——要清晰地告诉学生具体的(或整体的)课程或单元的学习目标;

(4)认真执行(Administration)——要经常使用现有各种评估类型、评估方式,并要求全体学生都应积极参与评估过程中的交互式对话;

(5)及时反馈(Feedback)——要通过有针对性的评论(而不是测验分数)及时给予学生反馈;

(6)培养学生的个人责任感(Personal Accountability)——要给学生评估自己和评估他人的机会,以促进个人责任感和独立思考、自主分析能力的培养;

(7)使用基于证据的诊断(Evidence-based Diagnosis)——要充分利用形成性评估中的各种证据,并以此作为诊断学生进步或退步的依据;

(8)提前设计问题和路径(PreplanQuestionandPaths)——要提前设计出能探测学生心理活动的各种问题,并精心拟定能根据学生回答而灵活调整的教学路径;

(9)与过去的知识进行链接(Leverage Prior Knowledge)——在进行新知识、新概念的教学时,一定要考虑学生的原有知识状况,要以学生既有的知识和理解为基础,这是认知结构深化与扩展的前提条件;
 

(10)加强教师之间的合作(Collaboration)——教师之间要加强合作,每位任课教师要经常与其他教师一起选择学习活动、讨论学生表现、设计能启发学生深入思考的问题和共同分享经验等。

以上是关于形成性评估的基本内容,它对教师的“教”与学生的“学”都有良好的促进作用(可实现“双重提升”)。但有一个缺陷是,需要在教学过程中多次中止教学、去收集相关信息,以便从中获得“反馈”来支持“教”与“学”。是否有可能将形成性评估深度融入教学环境、使学习活动和评估活动之间的区别模糊化,从而克服上述缺陷?这就涉及形成性评估的最新发展——“隐形性评估”,也正是下一小节将要阐述的内容。

四、隐形性评估

进入21世纪以来,教育心理测量方面的新发现让我们能对学生能力做出更准确的判断,新技术还能使形成性评估无缝地融入教学环境——在学习者感觉不到的情况下,教师就能从学习者那里提取正在进行的、多层面的信息,并及时做出有效的回应(反馈)。像这样一种形成性评估,学术界将其称之为“隐形性评估”[17][18]。
 

(一)“隐形性评估”的内涵与核心要素

“隐形性评估”是一种基于证据的评估方法,在学生深度参与的沉浸式、交互性任务中进行评估——例如在视频游戏或其他基于计算机的教学系统中,通过自动评分和智能推理技术,推断出学习内容是否太难或太耗时;它和形成性评估一样,旨在促进学习者对重要内容的学习与核心能力的提升,所以必须在学习者学习或者玩游戏的过程中持续捕捉(而且是自动捕捉)其绩效数据,以形成对学习者知识与能力水平的正确推论[19],并把这些推论储存在学习者的动态模型中。

隐形性评估不仅要促进学习者对内容的学习和能力的提升,还力图使学习者一直保持在最佳的学习状态——全身心投入到当前的学习活动中,没有自我意识,感觉不到时间的流逝;而且完全是因为参与活动而喜悦(而非外在的奖励),并且是自觉投入当前以目标为导向的、复杂的学习活动[20]。与此同时,隐形性评估也力图消除或减轻学习者对测验的焦虑(但并不降低评估的信度与效度)。


隐形性评估的核心要素包括:
 

1.基于证据的评估设计——这是一套概念设计框架,能帮助创建有条理的评估,还能系统地分析有关学习者和相关证据的评估论述;它适用于多种场合的评估:从教室小测验到以模仿为主的评估。这个概念框架包含诸多模型(如学习者模型、证据模型、任务/行动模型等,在下面的应用案例中会涉及到这些模型的具体应用),这些模型通过共同作用来回答各种具体问题,如“测量哪些特性”“如何打分”等等。
 

2.能有效促进学习的形成性评估及反馈——隐形性评估是形成性评估的深入与发展,所以其核心要素必须包含形成性评估方面内容,而且应有更高要求,以达到更好的成效。除此以外,隐形性评估还应为“向学习者提供定制学习内容”这类教学决策作好准备和给予支持[21][22]——在此过程中要用到的认知类信息与非认知类信息都储存于“学习者模型”中,从而使学习者模型中形成大量有关学习者的准确且实时更新的档案资料。

(二)典型应用案例

为了说明隐形性评估的具体应用,下面介绍一个有关创新性问题解决的“游戏课程”案例。这是一种单人3D版的角色扮演游戏,场景是想象中的中世纪世界。先由玩家自已选择充当某种角色(角色可以选“黑精灵”“海怪”或“古希腊神话中的英雄”等),然后进入游戏,每个角色都有特殊的技能(如格斗、隐身、或魔法)。


游戏的目标是要通过完成一系列的探索,来发展角色的技能。这些探索活动涉及如何在各种危险环境中保护国王,为此需要解决大量复杂问题。在这种“游戏课程”的实施期间,每个“角色”需要发展、提升大约20项不同技能,才能避免被黑暗中的怪物杀死。

该游戏课程所要培养的首要能力是“创新性问题解决能力”,即对既定的问题要能开发出新颖的方法、并能有效地加以实施和解决的能力。在这个应用案例中,“证据模型”将玩家的具体动作与相关技能的变量有机结合——这需要特定观察的详细记录,以及这些记录如何解释玩家对不同能力变量的掌握程度;而专门应用于隐形性评估的统计机器(如IRT或Bayesian网络软件)就能自动地把这两方面的功能集于一身,而不影响、更不会中断学习者的学习过程。

在上述例子中,任务模型(即行为模型)与游戏课程中的多种任务以及玩家在游戏中的各种行为有关。以玩家在过河时的情景为例(河里有很多凶猛、危险的鱼),可以有多种行为模型:“游泳过河”“找桥过河”“挖隧道过河”“用魔法冷冻河水后滑冰过河”……。其中,“游泳过河”因为在躲避危险鱼类上要花较多时间,所以效率较低;“挖隧道过河”具有一定的创新性,但若是能用魔法“冷冻河水后滑冰过河”,那么其效率和创新性都要更胜一筹。设计该游戏的专家已事先根据相关理论推断出:不同的行为模型所具有的“创新性”指标值及“效率”的分值如下表所示(高分值表示效率高、创新性高)。


在游戏过程中,玩家(学习者)选用不同行为模型时,Bayesian网络软件将自动记录下相关的分值,从而可为学习者的能力评估提供可靠的证据;而这一评估过程,是在玩家(学习者)毫无觉察、没有任何压力,更不会中断游戏的情况下完成的。这正是隐形性评估的魅力所在。

 

五、结束语


隐形性评估是形成性评估的新发展,具有一系列优点,但也存在一些局限和挑战。例如,其核心要素是“基于证据的评估设计”,这种设计需要有多种模型的支持(才能提供各种必要的证据);而这些模型的适用范围则不太容易选择:范围太大,会导致对学生相应能力做出判断的证据过少;若范围太小,又会导致评估内容来源过多,会过于复杂。此外,要在学生合作完成任务的游戏环境中,根据学生的不同行为开发出相应的行为模型,也具有较大的难度——比方说,在这种情况下如何来跟踪每个学生的行为?而当行为结果需要依赖集体的共同努力时,学生个体又会怎么想?
 

在实施隐形性评估过程中存在的另一种挑战是反馈的“质量”——即便具有量规、有数据支持的确切证据,但面对具有高度主观性的在线讨论和学生们丰富、复杂的个性特点,要能做出及时的、有针对性的反馈,仍是一项不易达到的要求。
 

如何来克服上述的局限和挑战呢?在游戏课程中,评估系统会让教师看到学习者模型(及其他模型)的进展情况,并依据模型中的相关信息作为调整教学或提供及时反馈的依据。例如,在测验过程中,若相关模型显示学生对当前所学内容有错误理解,教师就可以再作补充讲解,或是让尚未理解的部分学生和已经理解的学生一起进行小组讨论。关于学习者模型(及其他模型)中的信息还可应用于改进与完善“游戏课程”系统本身——例如把更具挑战性的、有较大难度的游戏场景呈现给解决问题能力较强的学生,从而实现对游戏场景的灵活设置(而不是固定设置);此外,基于游戏课程中嵌入的自动统计软件(如上述Bayesian系统),可以对学生的某种能力做出实时评估,并能够与游戏过程有机结合,随时展示学生的进步程度。不少游戏课程中还包含有“状态栏”,以便及时显示玩家当前的能力参数水平;如果在状态栏中增设难度更高的能力栏——如创造性解决问题能力、坚忍不拔的毅力、领导力等指标。那么,对状态栏的点击,就有可能形成对学生能力状况的更全面了解。
 

学生能够直接观看到自己在游戏过程中的表现及能力状况,这在文献中被称作“开放性学生模型(Open Student Model)”;有不少研究证明,这种模型能够促进元认知发展,从而支持个体的反思和知识的深层建构[23-27]。
 

总的来说,隐形性评估虽然存在一定的挑战与局限,但其优点还是很明显的。那么,如何把它有机地融入到教学过程中去呢?格斯塔夫松和伯冉赤(Gustafson&Branch)曾描述教学系统设计具有五个核心元素[28]:分析(Analyze)、设计(Design)、开发(Develop)、实施(Implement)、评价(Evaluate),简称“ADDIE”。这些元素能确保教学目标与策略方法的一致性,也确保了教学的有效性。在教学过程中应反复利用这五个元素,而评价(特别是隐形性评估)是反复调整教学过程的关键与核心。如上所述,从任何隐形性评估获得的信息都能让教学设计人员从“教”与“学”两方面去提升教学系统。此外,隐形性评估的重要组成部分(如学习者模型、证据模型、任务/行动模型等),正好与教学系统设计的步骤相一致——学习者特征分析与学习者模型要求一致,学习目标及学习内容分析与任务及内容分析一致,而隐形性评估正是教学系统设计中进行“评价”的一种最常用、也是最重要的一种方式。可见,如果教学系统设计人员能够与隐形性评估的开发者紧密合作、相互配合,从而设计并开发出含有隐形性评估的教学系统来,这对于“教”与“学”过程来说,应该都是最为有利、也是最为有效的。
 

本章主要内容涉及两大部分:分别论述在课堂(传统课堂或有多媒体教学环境的课堂)中应用形成性评估、和在沉浸式学习环境(有计算机或网络、以及自动评估软件支持的学习环境)中应用隐形性评估的实施方式及效果。两种评估都能够收集关于学生知识、能力的有效数据和证据,以支持教师的“教”、促进学生的“学”,还能减轻教师在教学管理方面的负担,从而使教师能把更多的精力集中在学生的培养上。



作者简介:何克抗:北京师范大学教育技术学院教授,博士生导师,研究方向为教育技术基本理论与实践 。


转载自:《中国电化教育》2017.6 总第365期

排版、插图来自公众号:MOOC(微信号:openonline)

 

有缘的人终会相聚,慕客君想了想,要是不分享出来,怕我们会擦肩而过~

预约、体验——新维空间站

《【会员招募】“新维空间站”1年100场活动等你来加入》

有缘的人总会相聚——MOOC公号招募长期合作者

《【调查问卷】“屏幕时代,视觉面积与学习效率的关系“——你看对了吗?》


本文编辑:慕编组成员(Lee)


产权及免责声明 本文系“MOOC”公号转载、编辑的文章,编辑后增加的插图均来自于互联网,对文中观点保持中立,对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证,不对文章观点负责,仅作分享之用,文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布,请及时与我们联系,我们会及时内审核处理。


了解在线教育,
把握MOOC国际发展前沿,请关注:
微信公号:openonline
公号昵称:MOOC

   

登录查看更多
0

相关内容

FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
基于视觉的三维重建关键技术研究综述
专知会员服务
160+阅读 · 2020年5月1日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
安全和健壮的医疗机器学习综述,附22页pdf
专知会员服务
46+阅读 · 2020年1月25日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
57+阅读 · 2020年1月3日
【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
开年重磅——周志华团队综述归纳逻辑程序设计
计算机研究与发展
10+阅读 · 2019年1月22日
学界 | 终结吧!机器学习的数学焦虑
大数据文摘
9+阅读 · 2018年9月14日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2018年3月30日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
基于视觉的三维重建关键技术研究综述
专知会员服务
160+阅读 · 2020年5月1日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
安全和健壮的医疗机器学习综述,附22页pdf
专知会员服务
46+阅读 · 2020年1月25日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
57+阅读 · 2020年1月3日
【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授
Top
微信扫码咨询专知VIP会员