当前位置:首页 > 天道酬勤 > 正文内容

python3网络爬虫实战(python快乐编程网络爬虫)

张世龙2021年12月22日 05:45天道酬勤580

在我们爬几个网站的时候,

获取数据需要登录。

怎么办?

登录的常用方法只有这两种。

输入帐户和密码进行登录; 输入帐户的密码验证码,然后登录。

我们先来谈谈第一个账户和密码的登录,验证码的下一篇文章。

第一招:Cookie大法!

你去平时不知道的网站的时候,

只要你登录一次

我可以一直看到你想要的内容,

需要一会儿后再次登录

这是因为Cookie在做奇怪的事情。

简单地说,

所有使用这个网站的人,

服务器给他饼干

下次请求数据时,

顺便把这个饼干递给我。

当查看服务器时,

啊,是个有魅力的笑容呢。

登录过,

直接把数据还给他吧。

该服务还可以设置Cookie的有效时间。

也就是说,

用典雅的眼神下次把过期的饼干带到服务器时,

虽然服务器知道你有迷人的笑容,

但是需要再次登录

然后再给你一个有效的饼干。

Cookie的时间周期由服务器端决定。

理解了这个之后,

玩一下吧。

以“逼”为例。

3359 BII Hu.CC /帐户/登录/

输入地址后,

单击F12,然后单击、

单击网络选项卡,然后单击、

登录你的账户,

单击其中一个,

你会发现请求头上有你的饼干。

饼干做好之后,

我们在代码中直接获取我的个人信息。

执行后,您会发现无需登录即可直接获取自己的个人信息。

第二招:表单请求大法

很简单

通过抓住包

获取请求登录时所需的用户名密码参数,然后单击、

然后,请求服务器将其作为表单。

在前一篇文章中,说明了用python伪装成浏览器,用表单提交数据的方法

有兴趣的人请看前面的文章。

使用Python爬虫教程的Urllib库假装浏览器

第三招:Selenium 自动登录法

小编前两篇文章:

Python爬虫爬行动物的神器selenium! 还不用那个的话你会出局

Python爬虫爬b站蔡徐坤打篮球的视频(包括工程源) ) ) ) )。

你应该已经看到了,

你们已经学会使用Selenium了!

Selenium可以执行以下操作:

获取两个输入框的元素,然后单击、

获取登录按钮,然后单击、

在输入框里写下你的账户密码,

然后自动点击登录。

登录后拿到Cookie :

如果有Cookies=webdriver.get_cookie () cookies ()的话,就可以得到想要的数据。

学习下面文章账户的密码验证码解决网站登录问题!

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/26842.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。