2021-08-30-CR-006 Python爬虫使用requests和BeautifulSoup爬取网站上的代

相思落无声

那里爬与西推代办署理的下藏效劳器列表
先阐发页里的格局

那里能够看出去页里的第几页便是链接后背减数字战斜杠
然后测试下第一页也是能够的，2000页便是一个轮回便可调解url
需求的数据正在网页源代码的table内里，用BeautifulSoup便可挑选出去
代码：

import codecs
import re
import requests
from bs4 import BeautifulSoup as bfs
import csv
#T1
f = codecs.open('daili.csv','a','gbk')
w = csv.writer(f)
w.writerow(["IP",'和谈'])
#T2
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
for ii in range(1,2001):
r = requests.get("http://www.xiladaili.com/gaoni/"+str(ii)+'/')
# print(r.text)
# print(r.text)
soup=bfs(r.text,'html.parser')
trs=soup.select('tbody > tr')
# print(trs)
#T3
for tr in trs:
tds= tr.find_all('td')
ip=tds[0].get_text()
type=tds[1].get_text()
#http
http = ''.join(re.findall(r'[A-Za-z]', type))
print(http)
if http=='HTTPHTTPS':
http='HTTP'
#T4
proxies = {http: f'{http}://' + ip}
try:
r = requests.get('https://www.ip.cn/', headers=headers,
proxies=proxies, timeout=3)
html = r.text
except:
print('fail-%s' % ip)
else:
print('success-%s' % ip)
soup = bfs(html, 'lxml')
div = soup.find(class_='well')
if div:
print(div.text)
w.writerow([ip, http])
print(ip + '写进胜利')

复造代码

剖析：
T1部分是设置保留到的文件
T2开端爬与，设置用户代办署理，爬与每个页里内里的tbody上面的tr列表，那是按照页里的格局挑选的

T3开端逐一剖析那个tr，那里相称于剖析每页上里的那个表格
掏出前两个单位格的值
第两的格子暗示的是代办署理的规范，提与此中的英文，大概间接按照网页上的几个字停止判定去辨别规范
T4测试那个代办署理，假如胜利便把那个代办署理写进到文件里
步调便是如许了
那个测试偶然候一个ip会有成绩，第一次欠亨过，第两次又能经由过程，以是其实不能包管一切的可用ip皆被保留了下去
那里能够先没有写进文件里，保留到列内外，然后经由过程轮回多运转几遍，每次判定能否存正在大概间接最初转换为汇合，再写进到文件内里。
假如寻求的是下量量ip，那末能够对获得的ip再从头测试几遍，来失落出不对的ip，如许留下去的便皆是好用的ip了。
ip的畅达取可战当前时面的形态有闭，以是没有包管当前用起去是一样的。

免责声明：假如进犯了您的权益，请联络站少，我们会实时删除侵权内乱容，感谢协作！

2021-08-30-CR-006 Python爬虫 使用requests和BeautifulSoup爬取网站上的代

浏览过的版块

2021-08-30-CR-006 Python爬虫使用requests和BeautifulSoup爬取网站上的代