Python基于BeautifulSoup和requests实现的爬虫功能示例
人气:0本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:
爬取的目标网页:http://www.qianlima.com/zb/area_305/
这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。
使用到的Python库:BeautifulSoup、requests
代码如下:
# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup url = 'http://www.qianlima.com/zb/area_305/' user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36' headers = { 'User-Agent' : user_agent} r = requests.get(url,headers=headers)#连接 content = r.text#获取内容,自动转码unicode soup = BeautifulSoup(content,"lxml") tags1 = soup.select('div .shixian_zhaobiao') tag1 = tags1[0] tag2 = tag1.find(name = 'dl') tags2 = tag2.find_all(name = 'a') tags3 = tag2.find_all(name = 'dd') for tag in tags2: print tag.get('href') print tag.string print tag.next_element.next_element.string
运行结果如下
希望本文所述对大家Python程序设计有所帮助。
您可能感兴趣的文章:
- 使用Python爬虫库requests发送表单数据和JSON数据
- Python爬虫库requests获取响应内容、响应状态码、响应头
- 使用Python爬虫库requests发送请求、传递URL参数、定制headers
- python爬虫 基于requests模块的get请求实现详解
- python爬虫 基于requests模块发起ajax的get请求实现解析
- python爬虫开发之urllib模块详细使用方法与实例全解
- Python爬虫之urllib基础用法教程
- Python爬虫 urllib2的使用方法详解
- python urllib爬虫模块使用解析
- python爬虫 urllib模块发起post请求过程解析
- python爬虫开发之selenium模块详细使用方法与实例全解
- python爬虫开发之PyQuery模块详细使用方法与实例全解
- python爬虫开发之Request模块从安装到详细使用方法与实例全解
- Python爬虫程序架构和运行流程原理解析
- python爬虫开发之Beautiful Soup模块从安装到详细使用方法与实例
- Python网络爬虫信息提取mooc代码实例
- Python爬虫实现模拟点击动态页面
- Python反爬虫伪装浏览器进行爬虫
- python 爬虫 实现增量去重和定时爬取实例
- python爬虫开发之使用python爬虫库requests,urllib与今日头条搜索功能爬取搜索内容实例
加载全部内容