亲宝软件园·资讯

展开

零基础爬取堆糖网图片(一)

不喜欢马赛克的马克 人气:0
## 零基础爬取堆糖网图片(一) ### 全文介绍: 首先**堆糖网**是一个美图壁纸兴趣社区,有大量的~~美女~~图片 今天我们实现搜索关键字爬取堆糖网上相关的美图。 当然我们还可以实现多线程爬虫,加快爬虫爬取速度 ![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193144147-375816940.png) #### 涉及内容: 1. 爬虫基本流程 2. requests库基本使用 3. urllib.parse模块 4. json包 5. jsonpath库 #### 图例说明: 1. 请求与响应 ```mermaid sequenceDiagram 浏览器->>服务器: 请求 服务器-->>浏览器: 响应 ``` 2. 爬虫基本流程 ```mermaid graph TD A[目标网站] -->|分析网站| B(url) B --> C[模拟浏览器请求资源] C -->D[解析网页] D-->E[保存数据] ``` ### 正文: #### 1. 分析网站 ##### 1.1 目标网址:[https://www.duitang.com/](https://www.duitang.com/) ##### 1.2 关键字: ![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193202734-246672431.png) 值得注意的是url当中是不能有汉字的,所以真正的url是这样的: https://www.duitang.com/search/?kw=%E7%BE%8E%E5%A5%B3&type=feed **思路:** ```python import urllib.parse label = '美女' label = urllib.parse.quote(label) # 输出:%E7%BE%8E%E5%A5%B3 ``` ##### 1.3 数据源: 首先,这个网站的数据是**瀑布流**式的加载方式。 > 瀑布流举例说明:你去一个饭店,直接开口要十碗烩面,这个时候老板开始下面给你吃

加载全部内容

相关教程
猜你喜欢
用户评论