更新时间:2024-12-24 16:38:01点击:
按:7 月 12 日至 7 月 14 日,2019 第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳月开会。峰会由中国计算机学会(CCF)主办,、香港中文大学(深圳)主办,深圳市人工智能与机器人研究院主办,获得了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,目的打造出国内人工智能领域极具实力的跨界交流合作平台。7 月 14 日,预示着议程转入到第三天,本次大会也步入了为期一天的智慧教育专场。
在这个专场中,好未来 AI 实验室负责人刘子韬博士同台,做到了为题《Building The Next Generation of Smart Classroom》的主题演说。在演说中,刘子韬从好未来在智慧课堂上的探寻和研究实践中抵达,谈及了 AI+ 教育的发展过程中数据提供的复杂性,并由此谈及了 AI + 教育中的四个挑战,分别是:一是数据量小。机器学习必须有标签的数据,而教育场景中的数据大部分都是无标签的,有标签的数据非常少;二是异构性。异构性和多模态是强劲初始化的,有所不同来源产生的数据,有天然的异构性;三是数据的质量问题。
一般来说我们的标签提供是十分艰难的,上了一堂课想要预测这堂课好不好,好不好必须打一个标签,这个时候打的标签主观性十分强劲,十个人给老师评分,有可能有六个好,有四个很差,这堂课是好还是很差,6:4 就谈谈,这是有歧义的;四是评价。短期无法分析,对 AI 有一些艰难和影响。
由此,刘子韬谈及了好未来在面临挑战的过程中明确提出的 AI 涉及解决方案,并得出了适当的案例;比如说数据众包打标签、作业辅助测验和在线课堂监控等。最后,刘子韬得出了自己的观点:AI 在参予到教育应用于的过程中所邂逅的很多问题都是未曾被研究过的,这其中有很多的挑战,当然也有很多的机遇。在演说完结后,刘子韬拒绝接受了(公众号:)的专访。
针对 AI 如何到底赋能教育的问题,刘子韬回应,AI 作为一项技术本身其根本性起到在于提高效率,就像 Google 提高了人们搜寻并获取信息的效率,AI 某种程度也能在教育领域提高效率,比如说作业的自动测验、教育领域的运营管理(比如说培训机构)等等;不仅如此,AI 还需要在教育范围内提高产品的体验,是学生们在自学过程中取得更佳的体验,比如说智能教室等。以下是刘子韬在 CCF-GAIR 大会上的演说内容,对其展开了不转变本意的编辑整理:大家早上好!今天我代表好未来跟大家共享好未来在智慧课堂上的探寻和研究,今天我主要谈一下我们的进展和整个过程中遇上的艰难和挑战。
好未来是一个以智慧教育和开放平台为主体, 以素质教育和课外辅导为载体, 在全球范围内服务公办教育,助力民办教育,探寻未来教育新模式的科技教育公司。好未来的人工智能实验室,是好未来在集团范围内的 AI Lab,它的职责就是通过 AI 技术来赋能好未来的各个事业线,让好未来的各个事业部享有先进设备的 AI 技术。对于好未来的 AI 来说我们要超过什么样的目的?我们有四个愿景:一是期望通过 AI 可以获取更加优质的教学内容;二是期望通过 AI 能获取更加有效地的教学体验;三是期望获取更加科学的评测体系;四是更加公平的教育资源。我们提及教育或 AI+ 教育的时候,最重要的是什么?我们想要中间最重要的是教学环境,也就是 Learning Environments。
当我们说道教学场景的时候,我们可以做到一个非常简单的区分,比如说选三个维度: Z 轴可以看见教室有多少学生。比如说 1 对 1,也可以是在线小班,可以三到九个,传统的面授课堂有二十到五十个学生,大班网校有可能 90、100、500 个学生都是有可能不存在的,这是课堂里的学生数量。横轴是年龄,可以是幼儿园、小学、中学、高中、大学。
纵轴是放学的形式。放学的形式可以分成线下放学,跑到教学点线下放学、线上通过直播的方式,学生在学生家、老师在老师家通过直播的方式放学,这里只是随便列出几个纬度,还有学科,比如说教教的是数学课、英语课还是物理课等科目。有所不同的维度可以把场景展开精细的区分,其中每一块都有它的独特性,比如说在教教小学线上一对一和教传统线下大班高中生,只不过有相当大的差异。自学场景不会不一样,产生的数据不一样,教学设计的理念不会不一样。
针对有所不同的教学场景 AI 必须针对每一块展开优化和自定义。教育和 AI 最宝贵的是什么?就是非常丰富的数据,数据是在各个场景中能产生的数据。这些数据的产生也中选两个维度区分一下:上面一行是数据什么时候产生。首先是放学之前产生什么样的数据,除了一些学生的课前侧,还不会还包括家长、销售、学生之间的交流记录;其次是课中,课中不会产生很宝贵的数据;再度是课后,课后不会产生学生的课后练习题、家长的对系统和给家长的报告。
产生数据的主体是老师、学生,中间还有一个相当大的环节,我们这里不会称作管理者。什么样是管理者?管理者是较为绿的概念,在整个的教学仅有流程中,还包括课前、课中、课后,教学管理者还包括跟家长交流的自学规划师,或是有些地方叫顾问,还有一些销售。还包括管理老师的人,大家告诉培训机构有很多老师,如何把老师管理好,让他们的教学质量完全一致、归一化,这些都会产生很多的数据。这里是细粒度的区分,给大家荐几个例子,课中的时候,老师可以做到什么?老师可以跟学生发动语音对话 Voice Interaction,可以跟学生换回脸 Face Filter,直播的时候可以老大学生换回脸、换场景。
老师手里有什么?老师手里有很多 Pad、智能笔,学生手中不会有很多的答题器,学生可以通过答题器和老师对话,课中的环节不会有很多的数据。管理者有售前的销售,给家长销售什么样的课程,以及和销售的聊天记录。课后上完了以后,自学规划师不会跟家长交流、交流,不会告诉他你这堂课学生展现出怎么样、孩子怎么样,这些都会有交流,不会以数据的形式溶解下来,数据的产生和全流程的把控对 AI 十分最重要。
前面谈了教育的数据,各个环节都能产生各种各样的数据,当这些数据产生以后不会是什么样?用一个较为学术上的词是 Multimodal ,也就是多模态,主流的多模态不会有三种融合:一是文本数据,很多的数据以文本的形式产生出来。二是放学的时候多数不会以视频的形式记录下来,不会有一些视频的信息。三是还有一些语音信息,中间老师说道了什么,学生问了什么,这些数据不会被记录下来。
对于 AI 来说,这些都是很宝贵的资源。它一定是 Multimodal Machine Learning,今年 CMU 的教授写出了一篇新的文章,文章很好地总结了 Multimodal 的问题,这里有五大问题是我们期望能解决问题的:1、Multimodal 的情况下,我们怎么样做到一些密切相关,密切相关自学可以自学到所有的数据。2、Translation,有了视频数据和音频数。
3、Alignment,这两个对应一起,老师谈一个课件,这张课件是惯性的,第一个授课件的上面,第二个是课件的下面。4、Fusion 融合。5、Co-Learning。
明确应用于到必须的 AI 技术,这个大家都较为解读,更好是方向上的东西,Multimodal Machine Learning 必须辨别有所不同的数据,必须的 AI 技术也是各种各样的,它是各种融合的过程。比如说 Speech,我们必须 ASR、必须减震的方法;比如说数据挖掘,它必须更加综合的能力,我们预测学生什么时候不会上架,如何给学生引荐最合适他的老师,还包括做到一些个性化科学知识图谱,它必须的各种技能是不一样的,还包括很多的模型是部署在末端上的,教室的资源受限,我们在末端上不会有一些模型的加快和优化。前面谈了数据和大约 AI 的范畴,我们中间不会遇上什么样的挑战?这里的挑战十分多: 一是小数据。各种教学场景可以产生海量数据,但大部分的数据是无标签的,小数据是指标签的数据不会非常少,机器学习是必须有标签的数据。
二是异构性。异构性和 Multimodal 是强劲初始化的,数据由有所不同的来源产生,有天然的异构性。三是数据的质量问题。数据质量是什么意思?高质量的标签提供是十分艰难的,上了一堂课想要预测这堂课好不好,好不好必须打一个标签,这个时候的标签主观性十分强劲,有可能给十个老师打,有可能六个好,四个很差,这堂课好不好是有分歧的。
四是评价,短期不了分析,对AI有一些艰难和影响。基于上面说道的问题,好未来做到了一些很接地气的 AI 应用于,来明确解决问题好未来场景中解决问题的问题。
我们部署的系统在好未来早已跑起来确实在用了,每天都会在处置成千上万节课,这些工作我们都会公开发表在涉及的会议或是顶级的杂志上,比如说 WWW、ICDE、AIED 等,还包括我们部署的系统,还包括课堂的监控这些维度,以及还包括我们做到的中文评测传达等。较慢荐几个例子: 第一,我们今年早已在澳门 ICDE 上公开发表过一篇文章,如何自发性包在的标签中展开自学?为什么我们要众包在标签自学?我们必须大量的数据展开自学,除了必须大量的数据,我们必须很精准的标签,现实的世界中有标签的数据较为小。我们怎么办?就是去找人标,这是毫无疑问的,去找人标就是 Crowdsourcing,寻找人标的数据一定不是海量的数据。基于这样的情况,如何用于现有的方法解决问题现有的问题?我们的数据量受限,可以做到一些 Grouping,蓝色是于是以事例,红色是负例,蓝色 100,红色 50 个,一共 150 个样本,这是无法做到深度自学的;虽然样本单个较小,但是我们可以做到一些人组和筛选,通过人组我们可以产生很多的样本量。
五个人打标签有可能是 3 比 2,最简单的情况下,虽然是 3 比 2 给它一个闻信度,给它 0.6,每个人打的标签不一样。我们明确提出了深度自学的框架,通过 Grouping 的方法和对样本标签的 Confidence,和 Model Learning,我们可以获得深度自学的模型。明确细节可以详尽读者我们的论文 Learning Effective Embeddings From Crowdsourced Labels: An Educational Case Study。接下来我们讲解自动批改作业。
自动测验的场景是什么?自动测验不是你给我一个中考卷子,我给你改出多少分,只是想要解决问题特定的问题;比如说一个学生在家解法一道题,他的父母在侧面拍电影小视频,这个视频不会传遍我们的后端,后端不会有程序展开自动测验,这是数据产生的场景。我们不会给学生布置题目,在好未来不会称作口述题,口述题想解决问题什么问题?众所周知,相对于外国人的开朗,中国人以前受到的教育要佩服、高调,可能会较为木讷一些;我们期望中国人在这方面不输给外国人,我们自小培育学生的中文口语表达能力。
基于这个大背景,我们期望小孩不时地说道,我们期望给小学生出有一道题,他能介绍这个题的过程,我们不关系这道题的答案,期望他能介绍出来,这是我们设计题的想法。从明确案例来看,这个题目是很热门的,效果也很不俗,但背后我们遇上一些问题,就是老师改不过来了。
比如说一下,如果一个班如果有 30 个学生,一个学生上载两到三分钟的视频,老师听得、写出评语、改为一下,一个学生老师要花上五分钟,有三十个学生,老师凭空多花 150 分钟,十分浪费时间。那么 AI 能无法老大老师做到一些辅助测验?基于这样的想法,我们设计了 AI 辅助测验解决方案,我们有学生的答案和老师的标准答案,我们不会有两方面的文本;通过 Transformer 和 Multiway Attention,对学生递交的答案和涉及的问题,展开深度的语义融合和给定,构建口述题的辅助测验。我们做到了很多实验,我们创意明确提出的方法,击败了传统机器学习的方法、深度自学的方法。明确的构建细节,可以参照我们今年在 AIED 上公开发表的论文 Automatic Short Answer Grading via Multiway Attention Networks。
下面讲解我们在后台上线的现实系统,这个系统就是在线课堂质量管控系统。荐一个非常简单的例子,这是一个传统的在线一对一的放学画面,一旁是老师,一旁是学生,中间是课件。其中的问题是什么?这堂课上下来只有学生告诉、只有老师告诉,没其他任何人告诉这堂课上的怎么样,因为家长是会躺在边上看的;假如这个学生立刻中考了,他不爱人自学,成绩很差,常常在家打游戏,如果这个老师并没很好地教学生上课,而是教教学生如何打游戏,不会再次发生什么样的情况?学生很快乐,家长问学生这堂课习得怎么样?学生会说道这个老师教教得尤其棒,教教得尤其好……这样的情况是我们不期望再次发生的。
我们想要杜绝这些不应当在传统课堂上再次发生的现象,通过人工检查的方式一定是做到将近的,而这种案例是极为可怕的,家长找到一次这样的情况,家长仍然坚信这个品牌,不会产生退课和一系列的怕的口碑传播。所以我们期望通过 AI 来监控课堂质量,学生维度和老师维度我们都会监测。在学生维度,我们期望这堂课学生频密开口,我们不会监控学生的传达次数,同时还包括学生是不是主动发问,学生的发问次数、学生是不是按老师的拒绝记笔记等。老师纬度我们不会监控更加多,我们期望提升整体的教学质量,还包括红线词(老师上课是不是说道骂人的话),老师的静默时间,老师是不是发问学生,老师是不是带着学生记笔记,老师是不是谈和学科涉及的东西,而不是闲谈等。
第一步是非常简单的运营手段,有了这个我们可以有运营的管理闭环,很差的事情再次发生,可以对老师展开处置,这是 AI 落地教学管理运营的闭环。这不是我们的最后目的,我们的目的是用 AI 获取淋漓尽致的教学体验和超过较好的教学效果。
这个教学体验可以通过 AI 展开多维度分析,我们称作“四色分级”,红色是最好,绿色是最差的,上完课会对课堂评分,如果是红色解释这堂课十分劣,随着课堂的演变和变化效果更加好,期望最后都是绿色,这是课堂的分析。在做到 AI+ 教育的过程中,有很多的挑战,也有很多的机遇。
其中要解决问题的很多问题都是学术界未曾不存在的问题,还包括众包的涉及问题以及很多小数据的问题;现阶段学术界很多东西才刚开始做到,还包括小样本自学。我刚才讲解了 AI+ 教育的挑战以及落地的应用于,很多时候里面的机会相当大,还有很多的问题未曾被人研究过。这里挑战是很极大的,同时也有相当大的机遇。谢谢大家!「AI投研邦」将在近期上线CCF GAIR 2019峰会原始视频与各大主题专场白皮书,还包括机器人前沿专场、智能交通专场、智慧城市专场、AI芯片专场、AI金融专场、AI医疗专场、智慧教育专场等。
「AI投研邦」会员们可免费观赏全年峰会视频与研报内容,扫码转入会员页面理解更加多,或私信助教小慕(微信:moocmm)咨询。原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:南宫NG·28-www.etmoc.net