特稿 >

行业洞察 >

揭秘自适应学习的背后原理(第一集)

揭秘自适应学习的背后原理(第一集)

投稿 丨 行业洞察

16074
2323

2017-07-31

星河融快

Xtecher特稿作者

关注

胡天硕.jpg


去年年初美国著名的自适应学习平台Knewton完成了一笔5200万美元F轮的融资,国内研发自适应学习产品的乂学教育更是在天使轮融资就达到了1.2亿元人民币,一瞬间国内涌现出越来越多的自适应学习应用,甚至全球范围内宣布做自适应学习机构中有 70% 来自中国。我们在《国内K12独角兽“猿辅导”的一路艰辛》中曾提到的猿题库就通过智能算法对学生的学习数据进行分析和挖掘,利用自适应学习工具准确评估每一位学生的能力,从而满足其个性化的学习需求。


类似的应用场景还有很多,跟风追赶“自适应”时代的创业者也不少,然而热闹的背后我们不禁反思为什么要做自适应教学?一套自适应学习系统又包括了哪些环节?对于创业者而言又该如何用自适应教学提高自己的产品差异化?


我们认为目前的在线教育课程完成率低、对学生的自制力要求高、学习效果差;而传统线下教育师资又相对紧缺、招聘困难。然而自适应可以用少数名师和研发团队辅助老师教学,判断出每个学生的薄弱项,为他们提供个性化学习和指导。最大化的调动学生的积极性,这个是我们持续看好的。因此从本周起我们与胡老师针对自适应教学创业展开为期三周的系列讨论,尽可能用通俗易懂的语言告诉在线教育的创业者,应该如何搭建和改进自适应学习的系统,希望对你有所帮助。

以下,供你参考。


第一  为什么要做自适应学习?

任何教育科技都不是万能药,我们首先应该带着怀疑的眼光去问,为什么要做自适应学习?常见的理由有这么几个。

A. 自适应作为一个营销的噱头

这个看起来是一个不错的理由,用这个噱头与自己的竞品打差异化。但从我过去的经验来看,自适应是一个不太好的宣传方式。考虑到自适应的概念并不普及,这相当于你在面向最终用户之前首先要教育用户。虽然自适应非常好,可是假如用户不买账,这就会很尴尬。

如果直接宣传产品的效果,弱化自适应,我倒觉得是一个比较明智的方法——比如可以这样宣传:“我们这个产品在试点的时候可以提XX分”,如果用户问起为什么能提分,可以回答:“因为我们有一个自适应的学习引擎”。

打一个比方:小米手机,如果它整天都是在宣传自己的手机是什么参数的CPU、GPU,用户会产生很大的困惑。因此在实际宣传中,他会说小米是跑分最快的,为什么呢?因为用了XXX、XXX等芯片和技术。同理,Tesla也不会整天宣传他们用的s是什么发动机,而直接会说,特斯拉百公里加速度3.9秒,拥有超过布加迪的推背感。

B. 自适应可以诊断出学生更详细的学习问题

有一些厂商只是对题库打了标签,然后就号称自己做了一套自适应的学习系统;有的还会打印出几页纸的详细报告让家长掏钱。实际上用户得知自己上千个标签的学习情况这件事本身的价值就如同患者去医院抽血后,医生给你一张密密麻麻的检验报告单,不给任何意见就直接让你自己去药店拿药一样。

很显然,使用电脑的用户要的不是查毒软件,而是要杀毒软件,对于学生来讲,诊断不过是自适应学习的一个初期环节,如果只有诊断,却没有治疗,自适应学习的学、练、测评闭环是不完整的,只能说是一个高级一点的评测项目。

C. 自适应学习系统可以让每一个人有与众不同的学习路径

过去,在没有自适应学习、又不是一对一的情况下,只能做分层、分班教学。有了自适应,似乎就可以让每一个学生拥有专门属于自己的一条路径。可是一人一个路径这个说法是有缺陷的,是完全忽略了同学们之间需要社交、老师需要统一管理学生的现实需求,更何况学生需要知道他自己在整个知识体系里所处的位置。

可汗学院经常会提到Mastery Learning(掌握学习)这个概念。过去的课堂里,为了统一教学进度,不管学生学得是否扎实,都会讲下一个章节。而Mastery Learning认为只要每一个学生在不同的环节花充分的精力,都可以打好扎实的基础。

一个自适应的学习系统,应该符合Mastery Learning的教学法则。什么意思呢?学生刚开始使用系统的时候,他的知识网络可能跟奶酪一样里面全都是洞,可是随着时间的推进,之前的知识漏洞应该被补上了,新暴露的问题也是可以归类的。

虽然每一个人的路径看起来不同,但是针对某一个知识点总能找到具有相同问题的同学。所以自适应学习完全是可以做在线大班课的。比如某一个同学对不懂的知识点进行了反馈,平台通过算法找到该学生,然后把相同问题的学生聚在一个虚拟的教室进行教学,既实现了自适应教学,又不会有一个人在网上学习的孤独感。其实这非常像王者荣耀,通过天梯的机制,让能力相近的人匹配在一起。

传统的知识结构,不应该是加上自适应学习后就全盘推倒的。几年前曾经有过一款智能音乐推荐引擎叫做Jing.fm,技术很先进,也对各种歌曲打了标签,但是只有推荐和搜索两种方式,没有专辑、作曲家,或者是汇总专辑的分类方法。纯靠推荐是Jing.fm的项目失败的一个原因之一。用户还是会有自己的自主性,自适应不应该是强制规定的路径,而更应该是在自由的情况下给用户一定的引导。

D. 自适应可以让学生哪里不会补哪里

基本上这个思路是对的。问题是该怎么补?学生在反比例函数的定义域上有了问题,就推送20道相关题直到用户彻底掌握为止,显然是一种反人性的教学法。为每一个细节知识点都配上8分钟的精彩微课,又工作量太大。

做过自适应学习系统的朋友都应该知道,最难的环节不是技术开发,而是通过教学和教研,发现了学生的问题,而怎么让学生从学不明白到学明白,这才是自适应学习最大的价值。

甚至,就算没有上线自适应学习,如果真的研发出来的内容已经能够做到学生学习之后,一定会从“不会”转变为“会”,那么完全可以设计一种课程结构,由主线课程和支线课程构成,主线是必学的,支线是学生自己发现自己有问题选学的,这种课程结构也完全可以解决大量学生哪里不会补哪里的问题。

所以当很多人关注点还在如何找到学生的问题时,其实真正关键点还是,找到了问题之后,如何解决这个问题,所谓自适应学习的核心,依然是做好教学。

好的教学,没有自适应,依然是一个好产品。

好的自适应,没有好的教学,依然是一个不好的产品。

E. 自适应学习,就是要去适应人脑的学习方法

这是我认为自适应学习最合适的定义。

大脑的学习方法与电脑拷贝文件的方法差别太大了。电脑可以几秒钟拷完一本辞海,而人脑学习这么多词汇,可能终其一生都学不完。

我在和一些创业团队聊的时候反复强调,自适应首先不应该是知识的自适应,而应该是engagement(投入度/情绪)的自适应。一个学生,你为他设计了上千种不同的路径,可是他还没有到第一个岔路口就觉得没意思离开了,你的路径就属于白设计。

举一个我自己生活中的例子,为了锻炼我孩子的跳跃能力,我几个月前在走廊的天花板上用一根绳子栓了一个气球,正好把高度设计成他跳五次,大概有两三次能摸到。在那几天里,他对什么高级的故事机、乐高都失去了兴趣,就喜欢路过那个走廊去够那个气球,可以玩个不停。等我回家时发现他明显跳得更协调,也更容易够到了,于是再把绳子缩短一节,构成新的挑战。

一个自适应的产品,不应该是设计成用户哪里不会就做哪里,一直受挫,最简单的设计其实就是不断让用户一会儿有一些成就感,过一段时间又有一点挑战,让学习成为一个上瘾的过程。ZPD理论强调,最佳的学习内容,应该是用户够着脚尖就将将能够到的。

大脑是喜欢新鲜感的,一定要把东西混在一起来,自适应从来也没有规定说必须有了错误就马上解决,很大程度上,遇到了问题,这周内能解决就足够了。举一个直接例子,用户hit和height说不清楚,那也不应该是马上给他出kit和kite、bit和bite、spit和spite等一大堆训练,而是应该在后续的练习里更加注意穿插一些短音长音的练习即可。

很多背单词软件,或者类似anki、memrise这类记忆软件,都强调自己采取了符合大脑遗忘曲线的方法(所谓用spaced repetition去使用艾宾浩斯遗忘曲线),然而却认为“简单重复”的记忆编码方式是一个好的方式。实际上同一个词汇,或者知识点,应该是在不同的场景下出现才有价值。就像错题本一样,如果每次都是出同样的题目,学生都已经记住了答案,对于其复习巩固毫无意义。一定是要出近似,而不完全一样的题目。

当然判断近似习题不应该只看题面,而更应该关注解题方法和技巧。下面这两道求阴影面积题看起来是同类习题,但实际上,做起来思路和难度完全不一样(大家不妨试试看)。

求阴影面积.jpg

第二  一套自适应学习系统应该包括哪些环节?

A.收集学习行为数据

需要一套学习行为统计框架,以日志形式结构化地记录学生的详细学习行为。通常来讲,一个日志条目以json格式呈现,包括用户id、题目/视频/学习行为id、触发时间、有效的学习时间、停留时长和与这个行为相关的个别属性。

例如视频可能会包括播放时长、拖动时间轴的次数、中途是否暂停离开、视频交互的答案、是第一个观看还是复习巩固等等。而题目要包括学生的选项是否正确、是否使用提示、是否查看解析、是否收藏题目等等。国际上的行为数据标准是xAPI(原名tincanapi)但是过于复杂的标准让其无法普及开来,只能借鉴学习。

B. 存储、初加工学习行为数据

数据统计后,自然要存放一份儿到一个原始的数据中心,但是光存放是不够的,还要对数据进行初加工。初加工的过程可以判断出来,学生快速做题后,根据答题的正确率,可以判断出学生是作弊了还是没有认真答题。如果学生反复做同样一套题,可能会涉及刷分。只有过滤掉脏数据后,才能把干净的数据作为训练样本进行学习。

正常来讲IRT模型对于每一道题目要求至少有1000个不同的、干净的做题数据才能初步收敛。这个初加工的过程中就可以对一些“大块的”事件进行标注,例如,学生下午3点打开《极限的定义》这节课是属于认真学习,还是属于敷衍了事,还是复习巩固?当学生、家长和老师去查看学习轨迹的时候,他们并不想知道每一个细粒度的行为,而更想要知道粗粒度的概况。

C. 用学习行为更新学生的知识点网络

学生的知识点网络模型的每一个节点都会有两个值,一个是掌握度,一个是置信因子(confidence level)。当学生刚进入自适应学习系统的时候,系统是不清楚学生每一个节点的学习情况的,所以置信因子是最低的;当学生做得题越多时,置信因子会不断变高,掌握度也会更加准确。举一个直接的例子,张三两道题做对两道,和李四100道题目做对98道,如果题目难度和知识点完全一样,实际上李四有更大概率比张三学习更好,但是从分数来讲,张三的分数是100分,李四却是98分。置信因子正是解决这个矛盾的关键点。

初始化的时候可以认为学生什么都不会,如果是高三总复习阶段,也可以按照系统平均水平去初始化(所谓有易错、较难知识点)。

真实的题库里,一定有不同难度、考察多个知识点、涉及不同技巧和方法,所以标注好的题库是自适应学习的前提,这背后的教研工作量浩大,远比开发系统所需要的技术困难。知识点与知识点之间也会形成依赖、组合、干扰等各种关系,所以搭建一个细粒度的知识图谱也是有一定难度的。这里我们不会展开,下一讲我会专门针对知识图谱、题库和算法进行深入讲解。

D. 学习结果可视化+改变路径,形成完整闭环

自适应学习系统的可视化应该直观,应该多做减法,多把详情隐藏起来,而让用户看到最关键的信息。

学生既然遇到了问题,或者有了进步,一定要让学生、老师、家长能够一目了然地看到。详细知识点列表和雷达图似乎是自适应系统的标配,但是真正更有价值的是学生接下来关注什么,对于老师最大价值也不应该是全班的知识图谱列表,而是应该关注哪些易错,关注哪些普遍的知识点缺陷,并且找到那些需要重点关注的学生。

路径的改变一般有多种方式,一个是改变用户的学习流,原来是abc,现在改为abdc——这种方式偏向强制性,要求学生必须完成规定动作。另外一种是解锁型,原来你不用去学这个课,现在出现了一些新的题目和课程可以去学习——这种方式的自由度更大,但学生完全可以选择不去学习。

我个人推荐的是通过游戏化的任务系统去完成自适应的推荐,学生一方面可以按照课程顺序或者自己想学的顺序去学习,同时会有一个任务系统引导他去完成主线、支线的任务。学生如果按照我行我素的方式学习得到的“虚拟奖励”积分少,如果是按照系统的引导去完成,得到的“虚拟奖励”积分多。

【本文来自投稿,文中观点不代表Xtecher立场。】


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机