如何在大学英语网络自主学习中运用数据挖掘技术

作者：张雪松
　　【摘要】当前，很多高校都建立了大学英语网络自主学习平台，随着自主学习平台的应用的日益广泛，数据库中堆积了大量的学习和考试数据，而这些数据只作为备案与核对之用，如此造成信息浪费情况严重。本文旨在探究如何运用数据挖掘技术来分析学生在大学英语网络自主学习的成绩，找出学生在学习中存在的薄弱环节，并为其提供指导性的建议，促进学生学习能力的提高。
　　【关键词】网络自主学习;聚类分析;关联原则;应用;数据挖掘技术
　　【作者简介】张雪松，内蒙古科技大学。
　　高校中所有的网络学习平台都是以数据库为基础的系统软件，软件中存储了大量的学生网络自主学习的数据，包括考试成绩，但这些数据基本都是“沉睡”在数据库中的，没有发挥其应有的作用。本文中，我们着重讨论数据挖掘技术在大学英语网络自主学习中的应用。
　　一、聚类分析法的应用流程
　　所谓聚类就是从大量的数据中找出数据间的相似性，并将其聚在一起的过程，目的在于能够找出一组对象的特性，从中找到一组对象的规律性，而非单独研究某个个体，以节省时间和精力。分类聚类法、层次聚类法是其常用方法，本文主要采用分裂聚类算法。具体有以下应用流程：
　　1.数据收集。学习者在进行自主学习时往往进行相应的水平测试，以确定自己的英语等级，所以在进行聚类分析时笔者以我校大学生自主学习中心学生的网络自主学习信息为依据，比如英语水平测试的成绩数据，除此之外，还应选取学生的基本信息（年龄、性别、年级）等作为聚类挖掘的分析依据。
　　2.数据处理。在获取了包括学习者的基本信息和水平测试等数据后，接下来的工作就是按照聚类的要求对这些数据进行预处理，使其合乎聚类算法的格式并进行存储。因为是以水平测试成绩作为分析依据，而测试成绩又由听说读写四部分组成，每项成绩都以百分制计算。同时按照分析需要本文将学习者的英语水平分为入门级、初级、中级、中高级、高级和精通级等六个级别。
　　3.聚类工具的选取和结果分析。经认真比对和权衡，本文选择SPSS作为分析工具。根据对英语网络自主学习6个水平等级的划分，运用SPSS把各个英语等级作为簇的中心，同时将聚类类别数设置为6与之相对应的点则为学生听说读写的各部分成绩，代表各部分的点距离哪个簇近则说明学习者属于哪个等级。
　　二、关联分析法的设计使用流程
　　网络自主学习资料来源多种多样，练习题形式灵活，所以在学习者自主学习和测试的过程中会产生大量的数据。然而这些数据在数据库中基本处于“沉睡”状态，并没有被充分利用起来，任课老师也只是通过对这些数据进行简单的处理得到一些较为肤浅的信息，因此更多隐形有效的数据并没有被充分挖掘出来。如何充分利用学习者的各种数据并将其转化为有效的信息，为网络学习平台设计者提供参考信息并帮助任课老师了解学生的学期情况便成了一个非常值得研究的课题，而关联分析法在数据转化过程中发挥了重要作用。具体流程如下：
　　1.数据收集。大学英语网络自主学习平台的学习内容大多都是分等级的，每个等级有不同的单元构成，每个单元大体都有听说读写译等几个组成部分，由于每个单元的学习数据非常庞大，所以为了保证数据的有效性，我们可以抽样选取某一单元作为研究分析的对象。数据收集的内容主要包括学习者的基本信息和学习信息，如学号、年龄、性别、英语等级、听力成績、阅读成绩、写作成绩、翻译成绩和总评成绩等。听力成绩、阅读成绩、写作成绩、翻译成绩和总评成绩等字段作为关联数据挖掘，在挖掘结果的分析中将学号、年龄、性别等字段。
　　2.数据预处理。要进行关联原则分析，，须将数据转化为T/F格式，并利用Clementine软件进行数据处理和分析，利用Excel软件中的VBA编程可以对大量的数据进行处理。利用在聚类分析法中得出的结果，我们可以设置数据的阈值大小。以听力成绩为例，我们可以用T表示听力成绩大于60分的，F则表示成绩小于60分的。
　　3.选择工具进行关联分析。在运用Clementine进行关联分析之前必须先建立一条由数据的导入、预处理、建模和分析等四步构成的数据流，并据此对学习内容的数据进行处理。对应数据导入、预处理、建模和分析等四个步骤，首先，通过Clementine向数据流中加入数据节点，并将各种数据导入数据流中;其次，把源数据进行处理，并使之符合关联分析建模的需要，设置字段的数据类型、属性等;再次，根据研究的需要选择关联规则算法模型，建立分析模型;最后，把分析所得的关联规则集通过网络图、直方图等图形输出。
　　4.关联结果的分析。经过关联规则分析所得的关联规则集中，并非所有规则都是有用的，因为有可能存在与英语学科研究不符的规则，因此必须对这些规则进行筛选。要进行筛选第一步就是通过设置最小支持度和最小置信度将关联低的规则去掉，然后根据需要对剩余规则进行筛选，最终得到对研究有用的规则。
　　三、总结
　　本文运用数据挖掘的部分方法，对当前大学英语网络在线学习者的各项数据进行分析，对学习者进行聚类，确定其英语等级，便于任课教师针对不同的学生因人而异安排学习内容;通过对学生的聚类，使任课教师能够准确地了解学生的英语水平，从而能够根据学生的具体情况提供符合学生自身水平的个性化辅导;运用关联规则对学生所学的听说读写译等内容的相关性分析，任课教师可以得知导致学生英语水平不高的症结所在，同时还可以根据板块之间的强弱关联来安排学习的次重点，从而为任课教师对学生提供个性化指导提供依据。
　　参考文献：
　　[1]甘容辉，何高大.大数据时代学习分析与外语教学研究展望[J].外语电化教学，2016，（3）：40-45.

相关推荐