python爬虫中采集中遇到的问题整理

时间:2020-11-27 小妮浅浅人气:0

在爬虫的获取数据上，一直在讲一些爬取的方法，想必小伙伴们也学习了不少。在学习的过程中遇到了问题，大家也会一起交流解决，找出不懂和出错的地方。今天小编想就爬虫采集数据时遇到的问题进行一个整理，以及在遇到不同的问题时，我们应该想的是什么样的解决思路，具体内容如下分享给大家。

1、需要带着cookie信息访问

比如大多数的社交化软件，基本上都是需要用户登录之后，才能看到有价值的东西，其实很简单，我们可以使用Python提供的cookielib模块，实现每次访问都带着源网站给的cookie信息去访问，这样只要我们成功模拟了登录，爬虫处于登录状态，那么我们就可以采集到登录用户看到的一切信息了。下面是使用cookie对httpRequest()方法的修改：

ckjar = cookielib.MozillaCookieJar()
cookies = urllib2.HTTPCookieProcessor(ckjar)   #定义cookies对象
def httpRequest(url):
 '''''
 @summary: 网络请求
 '''
 try:
  ret = None
  SockFile = None
  request = urllib2.Request(url)
  request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
  request.add_header('Pragma', 'no-cache')
  opener = urllib2.build_opener(cookies)  #传递cookies对象
  SockFile = opener.open(request)
  ret = SockFile.read()
 finally:
  if SockFile:
   SockFile.close()
 return ret

2、编码问题

网站目前最多的两种编码：utf-8，或者gbk，当我们采集回来源网站编码和我们数据库存储的编码不一致时，比如http://163.com的编码使用的是gbk，而我们需要存储的是utf-8编码的数据，那么我们可以使用Python中提供的encode()和decode()方法进行转换，比如：

content = content.decode('gbk', 'ignore')  #将gbk编码转为unicode编码

content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码

加载全部内容