Python爬虫——requests篇
cmd中输入下面的命令进行安装
pip install requests
UA伪装
为了让浏览器分不出是电脑爬虫访问的,可以进行UA伪装 先定义一个字典,如下:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
这个字典先放在这,等会请求的时候带上
发起请求
使用requests库中的get方法即可获取到页面的数据
# 声明一个变量存放要爬取的网站的URL
url=‘https://www.sxzhongrui.com/j/chart/top_list’
# 声明一个字典存放请求时要带的参数
param = {'type': '24','interval_id': '100:90','action':'','start': '0',#从库中的第几部电影去取'limit': '20',#一次取出的个数
}
# 这里请求时带上的header是请求头,更改UA标识使用
response = requests.get(url=url,params=param,header=header)
这里获取到的response就是请求到的页面数据 使用response.json()即可获取字符串形式的页面源码