编写多进程爬虫-51CTO学堂-python爬虫编写

{{ interaction.likeNum == 0 ? (pageType === 'video' ? '抢首赞' : '点赞') : formatNumber(interaction.likeNum) }} {{ interaction.collectionNum == 0 ? '收藏' : formatNumber(interaction.collectionNum) }} {{ interaction.discussNum == 0 ? (pageType === 'video' ? '抢沙发' : '讨论') : formatNumber(interaction.discussNum) }}

提问 {{ interaction.noteNum > 0 ? interaction.noteNum + '篇笔记' : '记笔记' }} 离线观看

下载学堂APP

缓存视频离线看

报告问题离线观看

下载学堂APP

缓存视频离线看

课程介绍

讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}

适合人群

帮助Python初级程序员提高项目实战能力帮助想从事Python网络爬虫开发的人员深入掌握并理解网页抓取的方法

你将会学到

提高项目实战能力；帮助深入掌握并理解网页抓取的方法

我们将通过网页爬虫的开发，在实战过程中带大家快速掌握爬取网页的原理

课程简介

一、介绍

网络爬虫程序是一个沿着链接漫游web文档集合的程序。它一般驻留在服务器上，通过给定的一些url，利用http等标准协议读取相应文档，然后以文档中包括的所有未访问过的url作为新的起点，继续进行漫游，直到没有满足条件的新url为止。requests是唯一的一个非转基因的python http库，人类可以安全享用。lxml是python的一个解析库，支持html和xml的解析，支持xpath解析方式，而且解析效率非常高。这门课程将应用python、requests、lxml、sqlalchemy、multiprocessing等技术开发一个简单的网页爬虫。我们将通过网页爬虫的开发，在实战过程中带大家快速掌握爬取网页的原理。

二、章节

第1章：知识点介绍

1-1：网络爬虫介绍

1-2：http介绍

1-3：爬虫技术架构介绍

第2章：开发环境准备

2-1：安装python语言环境

2-2：安装pycharm编辑器

2-3：安装mysql数据库

2-4：安装第三方依赖包

第3章：编写网页爬虫

3-1：案例需求分析