零基础爬取堆糖网图片（一）

时间:2020-04-06 不喜欢马赛克的马克人气:0

## 零基础爬取堆糖网图片（一） ### 全文介绍：首先**堆糖网**是一个美图壁纸兴趣社区，有大量的~~美女~~图片今天我们实现搜索关键字爬取堆糖网上相关的美图。当然我们还可以实现多线程爬虫，加快爬虫爬取速度 ![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193144147-375816940.png) #### 涉及内容： 1. 爬虫基本流程 2. requests库基本使用 3. urllib.parse模块 4. json包 5. jsonpath库 #### 图例说明： 1. 请求与响应 ```mermaid sequenceDiagram 浏览器->>服务器: 请求服务器-->>浏览器: 响应 ``` 2. 爬虫基本流程 ```mermaid graph TD A[目标网站] -->|分析网站| B(url) B --> C[模拟浏览器请求资源] C -->D[解析网页] D-->E[保存数据] ``` ### 正文： #### 1. 分析网站 ##### 1.1 目标网址：[https://www.duitang.com/](https://www.duitang.com/) ##### 1.2 关键字: ![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193202734-246672431.png) 值得注意的是url当中是不能有汉字的，所以真正的url是这样的： https://www.duitang.com/search/?kw=%E7%BE%8E%E5%A5%B3&type=feed **思路：** ```python import urllib.parse label = '美女' label = urllib.parse.quote(label) # 输出：%E7%BE%8E%E5%A5%B3 ``` ##### 1.3 数据源：首先，这个网站的数据是**瀑布流**式的加载方式。 > 瀑布流举例说明：你去一个饭店，直接开口要十碗烩面，这个时候老板开始下面给你吃

加载全部内容