4 http请求简单说明

467 未经授权,禁止转载了解课程

试看结束,购买课程后可继续观看

试看结束,本课程暂不对外售卖

课程介绍
讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}
适合人群
希望学会分布式爬虫的人群
你将会学到
分布式爬虫
课程简介

Ⅰ. 简介

    一. 什么是分布式爬虫:

1. 默认情况下,我们使用scrapy框架进行爬虫时使用的是单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。

2. 分布式爬虫实现了多台电脑使用一个共同的爬虫程序,它可以同时将爬虫任务部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫。


    二. 分布式爬虫的前提:

1. 要保证每一台计算机都能够正常的执行scrapy命令,能够启动爬虫,这是对计算机硬件的zui低水平、计算机系统环境和网络等多方面的基本需求,不再赘述。

2. 要保证所有的爬虫程序可以访问同一个队列一个set集合。


针对第二个条件,需要以下特殊声明:

想要满足第二个条件,我们要使用scrapy_redis。想要保证多台机器共用一个queue队列和set集合,在scrapy框架中,是需要结合scrapy_redis完成的。分布式爬虫可以让所有机器上的爬虫程序,从同一个queue队列中获取request请求,并且每个机器取出request,请求的对象是不一样的,直到所有的request被请求完毕。


    三. 分布式爬虫的适用范围/要求:

1. 分布式爬虫对电脑的性能有一定的要求(特别是处理器,也就是常说的cpu)。

2. 分布式爬虫对网速也有一定的要求 。


注意:电脑性能和网速如果不是很好的话,分布式爬虫效率反而不如单一爬虫。并不是任何时候都可以使用分布式爬虫,如果你需要大规模获取数据,不满足于单一爬虫的效率,而且硬件条件能够得到满足,那么就使用分布式爬虫吧。当然,大部分情况下,由于对硬件有要求,一些刚成立的小公司可能负担不起这样的成本。


    四. 分布式爬虫经常和redis数据库一起使用:

redis数据有几个特点,首先它的优点是:

1. 默认使用持久化数据方式

2. 体积小,使用方便

3. 如果存储数据量比较大的话,启动速度很快

4. 数据库中的数据和内存中的数据可以相互访问

最主要的缺点是:从安全性角度来说,数据持久化可能会容易崩溃,造成数据丢失



展开更多
发布
头像

{{ item.user.nick_name }} {{ EROLE_NAME[item.user.identity] }}

置顶笔记
讨论图
{{ item.create_time }}回复
  • 删除

    是否确认删除?

    确认
    取消
  • {{ item.is_top == 1 ? '取消置顶' : '置顶'}}

    已有置顶的讨论,是否替换已有的置顶?

    确认
    取消
{{ tag.text}}
头像
{{ subitem.user.nick_name }}{{ EROLE_NAME[subitem.user.identity] }}
{{ subitem.create_time }}回复
删除

是否确认删除?

确认
取消
发布
讨论区空空如也,你来讲两句~
发布
{{tips.text}}
{{ noteHeaderTitle }} 笔记{{ hasMyNote ? '我的笔记' : '记笔记' }}
{{ hasMyNote ? '我的笔记' : '记笔记' }}
优质笔记
更新于:{{ $dayjs.formate('YYYY-MM-DD HH:mm:ss', item.last_uptime*1000) }}
头像
{{ detail.username }}

公开笔记对他人可见,有机会被管理员评为“优质笔记”

{{ noteEditor.content.length }}/2000

公开笔记
保存
提问

讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。

记录时间点
记录提问时视频播放的时间点,便于后续查看
公开提问
提交

课程大纲

自动连播
华为新版模拟器ENSP_Pro 优缺点介绍软考施行机考,大家觉得是好?还是不好?评论区一起讨论一下吧!华为新版模拟器ENSP_Pro安装方法①51CTO上线短视频功能了-大家可以关注下哦华为新版模拟器ENSP_Pro安装方法③华为新版模拟器ENSP_Pro安装方法②软考施行机考,选择题如何高效备考呢?软考备考的四阶段学习模型误删数据不用慌,峰哥5分钟教你恢复Linux下误删除数据数据库讲师风哥入驻短视频,祝51CTO继续发展壮大,为IT人成长赋能软考报名后,该如何准备?Excel一个公式搞定所有数据的分类整理Oracle数据库日常巡检方法华为模拟器哪个好用?运维讲师徐亮伟刚发布一则短视频,祝51CTO18周年生日快乐!互联网架构发展趋势华为2023新版模拟器ENSP-Pro安装方法①基于Linux部署—肖哥大数据架构与生态圈01轻松理解并熟悉TCP三次握手网络管理不能随便乱做,一定要注意规范和安全要求系统集成项目管理工程师:信息技术基础WPS表格-Excel实用微技巧Snort Inline工作模式配置实战6分钟get视频监控系统配置方法两种不同的Snort架构实战无人驾驶是怎么呈现的?shell脚本一天一练--day1利用ChatGPT自动生成思维导图按能源的支配能力划分人类还处于不完整的行星文明【王佩丰】Excel2010基础视频第1讲:认识Excel 2010什么是Power Pivothybrid怎么就成华为或H3C私有技术了?华为2023新版模拟器ENSP-Pro安装方法③基于Windows部署—肖哥从开发工程师到架构师的角色转变SQL基础实战课程(SQLServer)Oracle19c快速安装过程rac数据库如何识别存储磁盘并创建asm磁盘组快速学习网络技术的小秘密!前端李游携手短视频,祝51CTO18周年生日快乐!如何成长为高阶售前100秒快速学习React数据分析之电商数据整体任务分析SSM框架开发的商城项目(太值得学习啦)统计学和工作与生活的关系用Springboot + WebSocket开发一个在线聊天应用,好像不难Python处理Excel数据:什么是模块、包、库8分钟了解家庭宽带的接入方式什么是自动化运维轻松理解并熟悉TCP四次挥手状态转换普通人能够利用ChatGPT这波趋势吃到红利?
该课程为PDU课程
请前往PDU官网查看
我知道了