当前位置:首页 > 天道酬勤 > 正文内容

python分布式爬虫(爬虫之scrapy)

张世龙2021年12月22日 05:48天道酬勤460

scrapy的基本使用

创建项目命令。 scrapy startproject ProName#例如,在这里创建一个名为demoPro的项目

打开# # #终端并输入:

scrapystartprojiectdemopro )。

目录结构

这里先介绍两个,之后的学习中介绍其他

` spiders `文件夹:爬虫文件夹

必须保存爬虫的源文件

` settings.py` :项目的性能分析

2 .光盘计划名称

创建项目后,必须首先进入项目目录

用# # #终端输入

cd demoPro3.用于创建爬虫源文件的命令:

scrapygenspiderspidernamewww.XXX.com

将对应的代码写入爬虫文件

其中:

- demo是爬虫源文件的名称

- -让我们自由编写网址,然后查看缺省生成的代码。

4 .执行工程

修改爬虫网站

导入脚本

classdemospider(scrapy.spider ) :

名称='德谟'

allowed _ domains=[ ' www.Baidu.com ' ]

start _ URLs=[ ' https://www.Baidu.com/'

def parse (自我,响应) :

pass执行工程命令: scrapy crawl spider名称

# #终端输入

scrapycrawldemo )。

以上是scrapy的基本操作步骤! 但是,我们看到没有登上我们想要的结果,有必要设置什么吗?

是的! 我们下节课学习scapy简单的爬虫配置! 关注Python可靠的糖豆! 多学习Python的知识!

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/26844.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。