零基础爬取堆糖网图片(一)
不喜欢马赛克的马克 人气:0
## 零基础爬取堆糖网图片(一)
### 全文介绍:
首先**堆糖网**是一个美图壁纸兴趣社区,有大量的~~美女~~图片
今天我们实现搜索关键字爬取堆糖网上相关的美图。
当然我们还可以实现多线程爬虫,加快爬虫爬取速度
![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193144147-375816940.png)
#### 涉及内容:
1. 爬虫基本流程
2. requests库基本使用
3. urllib.parse模块
4. json包
5. jsonpath库
#### 图例说明:
1. 请求与响应
```mermaid
sequenceDiagram
浏览器->>服务器: 请求
服务器-->>浏览器: 响应
```
2. 爬虫基本流程
```mermaid
graph TD
A[目标网站] -->|分析网站| B(url)
B --> C[模拟浏览器请求资源]
C -->D[解析网页]
D-->E[保存数据]
```
### 正文:
#### 1. 分析网站
##### 1.1 目标网址:[https://www.duitang.com/](https://www.duitang.com/)
##### 1.2 关键字:
![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193202734-246672431.png)
值得注意的是url当中是不能有汉字的,所以真正的url是这样的:
https://www.duitang.com/search/?kw=%E7%BE%8E%E5%A5%B3&type=feed
**思路:**
```python
import urllib.parse
label = '美女'
label = urllib.parse.quote(label)
# 输出:%E7%BE%8E%E5%A5%B3
```
##### 1.3 数据源:
首先,这个网站的数据是**瀑布流**式的加载方式。
> 瀑布流举例说明:你去一个饭店,直接开口要十碗烩面,这个时候老板开始下面给你吃
加载全部内容
- 猜你喜欢
- 用户评论