悠悠色
诞生新的课堂课程是一项复杂且耗时的责任。西宾需要创建课程并在不同条款下对宽阔学生进行现实,以确保课程适当统共学习者。
斯坦福大学的学者们暴虐了一个趣味的问题:AI 能否改善这一历程?在最近发表的一项商议中,他们展示了大型言语模子(LLMs)奈何效法创建和评估新材料的巨匠,匡助课程想象者更快速地为学生提供高质料的培植本色。
“在传统身手中,西宾需要想象每一个细节,从涵盖的主题到学生需要处置的示例问题,再到辅助的视频和其他媒体。然后他们会在学生中测试这些材料,望望哪些是有用的,”斯坦福大学推断打算机科学博士生 Joy He-Yueya 说谈,他是斯坦福 AI 现实室(SAIL)的一员。“这是一个逐渐且充满了挑战的历程。咱们以为,也许有更好的主义。”
在多年期 Hoffman-Yee 商议资助的辅助下,He-Yueya 和她的共同导师——斯坦福工程学院的推断打算机科学副指示 Emma Brunskill 和斯坦福东谈主文与科学学院的心扉学副指示 Noah D. Goodman——运回来脑风暴寻找替代身手。
此前,AI 商议东谈主员曾尝试构建学生学习的推断打算模子,以优化教学材料;然则,由于难以建模东谈主类学生的贯通动态,猎U者这种身手未能得胜。于是,这三东谈主组念念知谈,能否考试一个模子,让其像西宾相通使用我方的判断来评估新学习材料。
AI看成西宾
当先,学者们需要考据 LLM 是否能有用评估培植材料。在模拟巨匠评估中,学者们要求 GPT-3.5 研讨学生对数学看法的先验学问,以及一组特定的词题,并瞻望学生在课程后测试题上的发扬。商议团队但愿了解某些学习材料是否对不同的学生变装(如学习代数的八年纪学生或苦苦造反于分数的五年纪学生)有用。
为了评估模子看成模拟培植巨匠的才气,学者们决定运行一小组基本测试,望望模子的课程评估是否能重现培植心扉学中的两个闻明状态。第一个状态是跟着学习者手段的发展,教学计策需要改革。入门者从结构化率领中受益,而更熟练的学生在最少率领下发扬更好。斯坦福团队以为,如若 LLM 在其学习材料的评估中复制了这种“专科逆转效应”,这将是 AI 效法东谈主类西宾后劲的精熟指引。
小宝 探花第二个状态称为“变异效应”,即引入更多种类的熟谙题并不老是有助于学生掌抓看法,因为这可能会超载他们的追想容量。换句话说,少就是多。
当学者们让他们的模子评估触及方程组和不同学生群体的数学词题时,恶果再次呼应了已知的恶果风物。
教学优化身手
在阐明 AI 西宾评估新材料的后劲后,学者们运转探讨两个模子能否协同责任以优化培植本色的问题。他们暴虐了一种活水线身手,其中一个模子生成新的培植材料,另一个模子通过瞻望学生的学习恶果来评估这些材料,以后测试分数为估量圭臬。他们将这种教学优化身手应用于诞生新的数学词题责任表。
总体而言,AI 身腕发扬精熟:在一项触及 95 名有教学指示的东谈主的商议中,这些巨匠宽阔招供 AI 评估器对哪些 AI 生成的责任表更有用的看法。学者们注重到一些例外情况,即西宾们莫得发现 AI 以为显耀不同的责任表之间有显耀各异。这项商议的恶果贯注记载在 2024 年培植数据挖掘会议上发表的论文《愚弄大型言语模子判断评估和优化培植本色》中。
“尽管 LLM 不应被视为替代教学专科学问或对于最好辅助学生的真正数据悠悠色,但咱们但愿这种身手能匡助辅助西宾和教学想象者,”Brunskill 说谈。