英文名称:Mining Web Massive Datasets
主讲人:杨征路
课程类型:硕士课程
时间:2016年9月-12月 每周四下午2:00-3:40
地点:南开大学津南校区计算机与控制工程学院(信息东楼)424会议室
备注信息:课堂讲授采用以ppt为工具的多媒体教学为主,黑板板书为辅的教学方式讲授28学时,实验上机习题4学时
教学大纲:
1.数据挖掘
2. Map-Reduce并行系统
3.相似集查找
4.数据流挖掘
5.链接分析
6.频繁集挖掘
7.聚类
8.推荐系统
9.社交网络图挖掘
主要简介:
本课讲解从大量数据中提取模型和信息的基础算法,重点介绍高效处理大规模数据的技术。本课向学生介绍现代分布式文件系统和MapReduce,包括从优秀的算法中挑出优秀的MapReduce算法的一般方法。课程的另一部分讲解从大量数据中提取模型和信息的算法。学生将学到Google对网页重要性建模的PageRank算法,以及它用于多个用途的扩展。课程会讲到位置敏感的散列(hashing),能让你在数据集中找到相似条目,而这数据集本身大得你不可能逐个条目进行比较。当数据以一个非常大的稀疏矩阵存储,通常降维是一个数据建模的好方法,但标准的降维方法效率不高;课程将介绍更高效的方法。课程还会讲到很多大规模算法,它们已在课程大纲中列举。
教材:
Mining of Massive Datasets. Anand Rajaraman, Jeffrey David Ullman. Cambridge University Press.