英文名称Mining Web Massive Datasets

主讲人杨征路

课程类型:硕士课程

时间20169-12月 每周四下午200-340

地点:南开大学津南校区计算机与控制工程学院(信息东楼)424会议室

备注信息:课堂讲授采用以ppt为工具的多媒体教学为主,黑板板书为辅的教学方式讲授28学时,实验上机习题4学时

教学大纲

  1.数据挖掘

  2. Map-Reduce并行系统

  3.相似集查找

  4.数据流挖掘

  5.链接分析

  6.频繁集挖掘

  7.聚类

  8.推荐系统

  9.社交网络图挖掘

主要简介

本课讲解从大量数据中提取模型和信息的基础算法,重点介绍高效处理大规模数据的技术。本课向学生介绍现代分布式文件系统和MapReduce,包括从优秀的算法中挑出优秀的MapReduce算法的一般方法。课程的另一部分讲解从大量数据中提取模型和信息的算法。学生将学到Google对网页重要性建模的PageRank算法,以及它用于多个用途的扩展。课程会讲到位置敏感的散列(hashing),能让你在数据集中找到相似条目,而这数据集本身大得你不可能逐个条目进行比较。当数据以一个非常大的稀疏矩阵存储,通常降维是一个数据建模的好方法,但标准的降维方法效率不高;课程将介绍更高效的方法。课程还会讲到很多大规模算法,它们已在课程大纲中列举。

教材

Mining of Massive Datasets. Anand Rajaraman, Jeffrey David Ullman. Cambridge University Press.