第一阶段: 网络爬虫设计与网络数据抓取
1门课程
11小时58分钟
在实战中学习如何对新浪、淘宝、微博等网站数据进行抓取,学员将学习如何独立设计相应的网络爬虫,抓取所需的页面数据,满足自身工作和研究中的几乎所有数据抓取需求。
-
不会写代码?学习网络爬虫!
61节
11小时58分钟
课程目标:
本课程内容已全部发布,未来将根据学员反馈不定期更新。【学员基础】有EXCEL之类的Office软件使用经验即可,不要求事先接触/使用过网页抓取工具。【课程大纲】序章:网络爬虫,有啥可怕,不写代码,照样干翻!案例一:先拿某浪新闻开刀案例二:双11之后伸向某宝的黑手案例三:微博很牛?照样学习!案例四:微信公号,统统拿下!尾声:我们和专业爬虫工程师相比还差什么?彩蛋:如果你需要高速抓取静态页面网站【课程长度】总时长:12小时【视频清晰度】1080P,请学习时在播放器右下角将视频清晰度调为超清格式。
第二阶段: 数据预处理
1门课程
10小时4分钟
学习学习Pandas包的使用方法,学员将能够独立使用Pandas包完成数据读入、数据清理、数据准备方面的工作,为后续进一步进行数据分析建模和数据挖掘打下坚实基础。
-
Python数据分析系列视频课程--学习Pandas
67节
10小时4分钟
课程目标:
Pandas包是基于Python平台的数据管理利器,已经成为了Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,学习其使用方法,是使用Python进行数据分析和数据挖掘的必备条件。本课程将从中国高校综合排名和北京PM2.5实测数据两个实际案例出发,在实战中学习Pandas包的使用方法。学习完本课程后,学员将能够独立使用Pandas包完成数据读入、数据清理、数据准备方面的工作,学习如何使用统计图表工具进行数据信息呈现,为后续进一步进行数据分析建模和数据挖掘打下坚实基础。本课程已全部连载完成,未来将根据Pandas功能的变化不定期更新内容。【更新历史】2021年3月,对数据包和下载课件进行了更新2020年9月,针对课程发布后Pandas至最新的 1.1.1 版增加的新功能对各章节做了增补和更新2020年3月,增加第13章:如何优化Pandas2020年3月,更新第2章:增加如何无缝读写SPSS数据文件,增加对读写命令的整体介绍【课程长度】总时长:9小时【学员基础】学员需要懂得Python语言的基本编程知识,可以先学习免费课程“Python语言轻松入门”。学员事前不要求学习统计分析的基本知识。学员事前不要求有任何统计软件的使用经验。
第三阶段: 文本数据的挖掘分析
1门课程
10小时20分钟
多面学习文本挖掘技术的各个方面,从词袋模型直至目前最热的word2vec,gensim 等均结合实际案例进行学习,学员最终将能够独立使用Python环境完成中文文本挖掘的各种工作。
-
Python数据分析系列视频课程--学习文本挖掘
64节
10小时20分钟
课程目标:
请至PC端网页下载本课程代码课件及数据。文本挖掘(TM),又称自然语言处理(NLP),是AI时代炙手可热的数据分析挖掘前沿领域,其所涉及的人机对话系统,推荐算法,文本分类等技术在BAT等企业中都得到广泛应用。本课程将使用经典武侠小说、大众点评抓取结果、微博语料数据等多个实际案例进行教学。本次课程将会从基本的分词、词袋模型、分布式表示等概念开始,多面介绍文本挖掘技术的各个方面,特别会针对目前最热的word2vec,gensim 等结合实际案例进行学习,帮助学员直接升级至业界技术前沿。学习完本课程后,学员将能够独立使用Python环境完成中文文本挖掘的各种工作。本课程已全部更新完毕,未来将根据方法学的**进展做不定期更新。【课程长度】总时长:约11小时【学员基础】学员需要懂得Python语言的基本编程知识。建议学员事先学习本系列课程中的Pandas课程,本课程中的数据管理将会用到Pandas的相关知识和操作。【课程大纲】第1章:文本挖掘概述第2章:磨刀不误砍柴工第3章:分词第4章:词云展示第5章:文档信息的向量化第6章:关键词提取第7章:抽取文本主题第8章:文本相似度第9章:文档分类第10章:情感分析第10章:自动摘要第11章:自动写作
课程名称 |
操作 |
不会写代码?学习网络爬虫! |
付费用户专享
|
Python数据分析系列视频课程--学习文本挖掘 |
付费用户专享
|