需要模拟浏览器来解决。但是有好多网上的UA都不能用,应该这种UA爬取东西过多,直接被网站记录了黑名单,需要更改为自己的UA。一般在浏览器的地址栏输入: about:version
获得本机的UA,然后或者得到不同人的UA,使用random来规避一些网站的反爬措施,
爬虫遇到问题 'Remote end closed connection without response'
requests.get反复请求, 应该是tcp连接次数过多. 利用requests模块提供的session来解决就好了
作者:WangLane 链接:https://www.jianshu.com/p/e456c3141091 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
cookies = {
'this': 'is',
'your': 'cookie',
}
headers={
'your': 'headers',
}
s = requests.session()
s.cookies.update(cookie)
s.headers.update(headers)
url = 'http://httpbin.org'
s.get(url)