大数据时代下的教育管理信息化建设实践与探索

28.01.2016  18:18

   一、引言

  “十二五”期间,高校信息化建设进入了一个“跨越式”发展的阶段。硬件基础设施得到了进一步地提升,数字化业务系统功能不断扩展,极大地提高了教育信息化水平。随着云计算、物联网、移动互联、大数据处理等技术地快速发展,人类已经迈入了大数据时代,硬件系统以及业务软件系统背后产生的原始数据,数据量呈几何级数从TB 级向PB 级乃至ZB 级快速增长,如何发挥这些海量数据的隐藏价值,进一步提升教育教学管理信息化水平,是我们长期关注、思考的问题。在此背景下,研究大数据处理技术,对数据进行采集、整合处理、分析、挖掘研究,使原来分散、利用率低、不被注意的数据得以充分利用,为学校的教学管理、发展战略和决策支持提供科学的依据有重要的意义。

   二、学校信息资源现状分析

  随着学校软、硬件资源的增添,产生大量的数据,数据包含结构化、半结构化和非结构化的数据,大致包括以下来源:

  (1)数字化软件系统:是学校各个应用系统,可以执行业务需要的分析并获取需要的洞察。软件系统大致包含统一认证平台、支付平台、移动平台、图书借阅、学工系统、教务系统、信息门户、各个网站、餐饮一卡通系统、网络认证系统等。

  (2)数据管理系统:数据管理系统存储逻辑数据、流程、策略和各种其他类型的文档:Excel电子表格、Word 文档,这些文档可以转换为可用于分析的结构化数据。

  (3)数据存储:数据存储包含学校数据仓库、操作数据库和事务数据库。此数据通常是结构化数据,可直接使用或轻松地转换来满足需求。这些数据不一定存储在分布式文件系统中,具体依赖于所处的上下文。

  (4)智能设备:智能设备能够捕获、处理和传输使用最广泛的协议和格式的信息。这方面的示例包括智能电话、仪表设备。这些设备可用于执行各种类型的分析。绝大多数智慧设备都会执行实时分析,但从智能设备传来的信息也可批量分析。

  (5)聚合的数据提供程序:这些提供程序拥有或获取数据,并以复杂的格式和所需的频率通过特定的过滤器公开它。每天都会产生海量的数据,它们具有不同的格式,以不同的速度生成,而且通过各种数据提供程序、传感器提供。

  (6)硬件资源数据:大致包含常用的计算机、服务器、交换机、路由器、防火墙、无线控制器、无线AP、门禁道闸等,一般都是利用这些硬件的基本用途,例如:交换机的数据交换、路由器的路由交换链路互通,只关心网络畅通,可以进一步利用这些设备的日志信息,挖据深层的数据资源,为网络管理人员和学校职能处室提供分析决策。

  (7)其它数据:视频资源、社交网络数据、登录Wifi数据以及入侵检测、防御设备、上网行为等设备分析到的数据,移动互联数据等。

   三、大数据技术及实践

  在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

  目前使用较多的三个大数据处理工具是Hadoop、Storm、Spark,都是JVM上的语言写成的。

  下面简单叙述我校如何将大数据技术应用于校园网络安全管理平台。

  校园网络安全管理实验平台的功能架构如图1所示。

  从图1可以看出,该平台需要搭建大数据的基础运行环境和数据管控平台,其中基础运行环境包含Hadoop基础运行环境、基于内存的迭代计算框架和基于流处理的计算框架;需要网络支撑平台和信息共享交换平台,数据的标准化与建模;数据的检索、关联融合、安全检测;数据可视化分析与显示、多系统融合数据的高性能分析,数据即服务产生可以抽取利用的信息存放到数据池以备基础运行环境检索使用。

  实验平台的技术架构如图2所示,该架构包含了数据采集层,数据集成层、文件存储层、数据存储层、数据计算层、数据分析层和平台管理层。

  实验平台采集到的数据包含应用系统数据、网络访问日志、各个网络设备的SNMP Trap信息、各个核心设备以及安全设备Syslog日志(包括IDS、Wireless AC、负载均衡设备、路由器、防火墙、上网行为审计设备等)、服务器访问日志、Snort信息、SFlow数据和Netflow数据以及端口镜像数据。

  网络中的Syslog日志和网络访问日志将会是一个海量的数据,考虑到日志更新频繁和海量数据的特点,实验环境在Linux服务器上安装并启动的程序有Tomcat8,Hadoop2.6.1,Zookeeper3.4.6,HBase0.98.5,Flume1.5。选择了Flume + HBase的采集和存储方案,Flume最早是Cloudera提供的日志收集系统,Flume可以在日志系统中定制各类数据发送方,用于收集数据,Flume提供对数据进行简单处理,并写到各种数据接受方,Flume可以从Console(控制台)、RPC(Thrift-RPC)、Text(文件)、Tail、Syslog日志系统、Exec(命令执行)等数据源上收集数据。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。实验平台以Tomcat为Web服务器,通过Flume实时监控网络的日志文件并将新增日志收集、清洗并保存到HBase中,供Spark等分布计算框架分析使用。

  计算层主要包括离线数据处理、近似实时批处理、实时流处理。其中:离线数据处理采用Hadoop的分布式存储和并行计算模式MapReduce编程模型。Hadoop是一个分布式系统的基础架构,非常适合对大数据集进行离线计算。通过读取数据,对数据进行映射(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的输出。该功能模块采用聚类分析、分类计算和关联规则等算法对网络中的日志进行离线分析。在海量数据下,数据冗余模块往往成为整个系统的瓶颈,实验使用了内存NoSQL来处理冗余原始数据,并采用尽可能多的节点进行处理冗余信息。网络流的实时处理采用Storm和Spark框架模型进行处理,实时处理消息更新数据库,可对数据流做查询,计算时将结果以流的形式输出给Hive/Pig进行聚类分析、拟合、协同过滤、展示。效果图如图3所示。

  从图3中可以直观的看到服务器的网络流量信息,可以协助网络管理人员了解服务器的访问情况,分析是否有异常流量。

  大数据技术的应用,提高了网络管理的信息化,通过该平台可以直观地查看服务器的访问情况、通过服务器的进出流量情况以及一个会话流量数据的差值信息可以展示服务器的访问会话是否正常以及是否有异常攻击行为,查看网络中的主机行为是否存在异常流量,是否被木马程序控制等。

   四、大数据技术在教学管理中的应用展望

  通过对学校的各个信息系统数据、多方采集的信息资源(包括宿舍门禁、图书馆门禁、校园Wifi、用电情况、视频资源)、社交网络等信息的多维度融合,数据关联分析、挖掘,可以发现——①大数据技术应用到学生管理:可以了解学生的出勤情况、心理情况、学习情况,全面客观地记录学生成长轨迹,沉淀和积累多维度的学生成长数据,让反映学生发展状态的数据完整显示出来,推进教育质量观的落实,为学生辅导员多方面了解学生提供新渠道,提前预知学生的生活学习动向,可以做到因材施教、个性化指导服务、提高学生的多方面能力、挖掘学生的兴趣度、分析并帮助学生选择就业方向;②大数据技术可以应用到教学管理:结合教师在课程平台中的问题答疑及作业布置情况、上课学生出勤情况、登录Wifi情况、学生考试情况、课堂的视频资源、学生评教信息等数据可以对教师的教学情况进行全面的了解,有利于规范组织教学、示范教学;③大数据技术应用到学校管理:大数据时代,学校师生员工几乎“透明”地生存,每个人在数据空间中都会留下痕迹,折射其兴趣爱好、需求意愿、性格特征等内心世界。管理者只需收集和分析相关数据便可以洞悉和预判现实中师生员工的未来行为,准确定位师生的需求,从而实现精细化管理;④大数据技术应用到后勤管理:通过学生的餐饮数据可以调整食堂的布局和用餐的品种以及用餐时间的保障,通过课表信息、学生进出教学楼的信息对教室电源控制管理起到节能效果。

   五、结束语

  在“互联网+教育”的背景下,通过让大规模的数据产生关联性,让碎片化的数据变成一个融合的整体,通过数据的集成、管理、分析,使人们可以基于大数据来发现事物的本质、预测未来的趋势,创新应用大数据技术不断推进信息技术与教育教学的深度融合,充分发挥教育信息化在教育改革发展中的支撑与引领作用。研究应用大数据技术的意义在于可以让大数据“导航”学校教育管理信息化,“预测”教学效果、学生未来的发展趋势。