当前位置:首页 > 天道酬勤 > 正文内容

爬取快代理IP(代理ip网页提取)

张世龙2021年12月22日 01:45天道酬勤1100

这是一篇记录自己踩到坑的文章

爬网页有三个步骤。

分析目标网站,着手编制代码保存数据

开始今天的主题吧。 目标网站(66个免费代理) () ) ) ) ) ) ) ) ) ) ) ) ) ) )。

首先分析网页。 我们要爬的是ip和端口号

所有数据都存在于表中

当查看web的源代码时,我们发现数据直接位于源代码中,然后开始下一步操作,提取数据,并使用BeautifulSoup进行分析。

获取各页的所有行后,提取各单元格的内容,参阅代码

# _ * _编码: utf8_ * _

导入请求

从bs4导入基本软件

从多处理导入端口

从pymongo导入mongo客户端

导入re

data=[] #用于存储已克隆的ip

获取# # #个页面的ip

defgetip (页面) :

db=mongo客户端(' 127.0.0.1 ',27017 ) .测试

# # URL=' https://www.89ip.cn/index _ % s.html ' % page #此代理检测不可用

URL=' http://www.66ip.cn/% s.html ' %页

headers={

'用户代理' : ' Mozilla/5.0 (windows nt 10.0; Win64; x64 )苹果WebKit/537.363

chrome/87.0.4280.88 safari/537.36 ',

“参考者”:“http://www.66ip.cn /索引. html”,

}

resp=requests.get(URL=URL,头=头,时间输出=2)。

soup=beautiful soup (resp .文本,' lxml ' ) ) ) )。

foriteminsoup.find_all('tr ' ) [2:]:

try:

IP=item.find_all('TD ' ) [0].get_text ) .条纹) ) ) ) )。

端口=item .查找/全部(TD ) ) [1] .获取文本.条纹) ) ) ) ) ) ) ) ) ) ) ) ) ) ) )。

DATA.append((IP': ) ) ) ) )。(格式) IP,端口),验证’:假) ) ) ) )。

if len (数据)==0:

print (结束) ) ) )。

是打印(数据)

db.ippool.insert _ many (数据)

# # print (端口) )。

except:

如果发生continue #异常,则跳过这次爬网,进入下一轮

经过一些操作,成功获取了数据,后面是比较糟糕的事情。 我们取得代理ip的主要目的是什么? 当然是用他们。 经我检查,一万多人的代理ip一个也不能使用。 [流泪][笑着哭]

之后试着找几个网站,今天先去这里。 我是爬虫的小白,今后也是

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/26727.html

标签: dataurl代理ip
分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。