大数据技术研究所

英文名称：Mining Web Massive Datasets

主讲人：杨征路

课程类型：硕士课程

时间：2016年9月-12月每周四下午2：00-3：40

地点：南开大学津南校区计算机与控制工程学院（信息东楼）424会议室

备注信息：课堂讲授采用以ppt为工具的多媒体教学为主，黑板板书为辅的教学方式讲授28学时，实验上机习题4学时

教学大纲：

1.数据挖掘

2. Map-Reduce并行系统

3.相似集查找

4.数据流挖掘

5.链接分析

6.频繁集挖掘

7.聚类

8.推荐系统

9.社交网络图挖掘

主要简介：

本课讲解从大量数据中提取模型和信息的基础算法，重点介绍高效处理大规模数据的技术。本课向学生介绍现代分布式文件系统和MapReduce，包括从优秀的算法中挑出优秀的MapReduce算法的一般方法。课程的另一部分讲解从大量数据中提取模型和信息的算法。学生将学到Google对网页重要性建模的PageRank算法，以及它用于多个用途的扩展。课程会讲到位置敏感的散列(hashing)，能让你在数据集中找到相似条目，而这数据集本身大得你不可能逐个条目进行比较。当数据以一个非常大的稀疏矩阵存储，通常降维是一个数据建模的好方法，但标准的降维方法效率不高；课程将介绍更高效的方法。课程还会讲到很多大规模算法，它们已在课程大纲中列举。

教材：

Mining of Massive Datasets. Anand Rajaraman, Jeffrey David Ullman. Cambridge University Press.