爬虫基础复习3:正则表达式复习与编写技巧总结
本课程是《Python金融大数据挖掘与分析》系列课的第2版块,主要介绍Python爬虫的基础知识,并对百度新闻进行深度挖掘,包括批量获取多个公司的百度新闻、自动生成数据报告、自动异常处理、24小时实时数据挖掘、批量爬取多个网页等多个知识点,从而初步搭建简易舆情监控系统。
之后将讲解搜狐新闻 & 新浪财经 & 新浪微博 & 中国证券报等网站的数据挖掘,深入熟悉了解Python商业爬虫相关知识点。之后我们会讲解常见的数据清洗优化技巧:数据清洗、日期统一、文本内容深度过滤、数据乱码问题处理,之后还会通过jieba实现爬虫数据中文分词并绘制相关词云图。最后会介绍一个完整的舆情监控评分系统,使大家更好的熟悉爬虫的文本分析技巧。
课程特色
亮点1:零基础入门Python爬虫,案例为王
(1)只需初中以上的数学及英语基础,即可快速入门Python爬虫世界,教学通俗易懂,适合零基础学习;
(2)在入门后会通过多个实际商业案例来真正学以致用,手把手教你搭建一套初步的舆情监控系统。
亮点2:配套书籍 + 源代码文件
(1)配套书籍(感兴趣的可淘宝/京东等搜索“王宇韬”购买):
《Python金融大数据挖掘与分析全流程详解》 与
《Python大数据分析与机器学习商业案例实战》等相关书籍
(2)提供所有源代码文件及相关辅助材料。
亮点3:配套练习
(1)章节都提供相关练习题方便练习,巩固相关知识点;
公开笔记对他人可见,有机会被管理员评为“优质笔记”
{{ noteEditor.content.length }}/2000
讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。
课程大纲
- 第一章 Python爬虫基础知识点复习回顾(章节概览+复习巩固)
- 1-1试看 章节概述及源代码获取地址04:25
- 1-2爬虫基础复习1:常见报错解析03:25
- 1-3爬虫基础复习2:网页结构与进阶复习04:46
- 1-4爬虫基础复习3:正则表达式复习与编写技巧总结04:12
- 1-5必看!Python学习常见问题解答(也可以后回头来看)07:31
- 第二章 金融数据挖掘实战 - 百度新闻深度挖掘
- 2-1批量爬取多家公司的百度新闻14:45
- 2-2批量生成舆情报告准备知识点:自动生成txt文件12:56
- 2-3批量生成txt舆情报告实战13:23
- 2-4爬虫异常处理+数据乱码和IP代理初窥12:05
- 2-524小时不间断爬取实战05:21