Nginx之反向代理配置（一）

时间:2020-03-06 Linux-1874 人气:2

　　前文我们聊了下Nginx作为web服务器配置https、日志模块的常用配置、rewrite模块重写用户请求的url，回顾请参考https://www.cnblogs.com/qiuhom-1874/p/12398242.html；今天来聊一聊Nginx是怎么反向代理，怎么防盗链；前文的最后我们提到了防盗链，到底什么是防盗链呢？在我们平时上网相信很多人都遇到过这样的情况，我们打开一个网页，在里面可以看到很多裂图，看不到图片，或者看到此图片仅某某网站网友交流使用之类的，这就是防盗链；我们知道在一个网页里面，里面的资源不一定都是来自一个服务器的，比如图片很可能来自图片服务器，js、css很可能来自其他静态资源服务器上；所以稍微懂点的人就知道如何将别人网站上的图片、js文件呀链接到自己的网站使用，这种行为就叫盗用别人家的资源，简称盗链；这里就不过多阐述了；我们来说说nginx的referer模块吧。

　　一、ngx_http_referer_module：此模块用于阻止对“Referer”头字段中包含无效值的请求的站点访问；

　　通常一次http事务就是客户端请求服务端，服务端响应客户端的一个流程；客户端请求服务端，会在请求头部添加一些信息，比如用什么方法请求服务端的资源呀，资源的路径是什么，用的http协议版本是多少，请求的host主机上什么等等；其中如果客户端是直接从浏览器上介入域名直接访问web服务器，其头部是没有referer这个信息的；referer是什么？referer是记录客户端从哪里来访问我们客户端的，如果客户端是通过某个网站点击访问到我们的服务器时，它发过来的请求头部就有对应网站的域名；防盗链就是利用referer这个头部的信息来做控制的；

　　1、valid_referers none | blocked | server_names | string ...;定义合法referer合法值；这里解释下，none表示请求头部没有referer字段，通常情况下没有referer字段都是从浏览器（web客户端）介入域名访问的；blocked表示请求头部有referer字段，但是没有值，像这种请求我们是无法判断客户端是从哪里访问我们服务器的，通常情况我们把这类请求时允许访问的；server_name表示请求头部有referer字段和信息，其值就是对方主机名；我们在定义一个合法的referer时，是可以用通配或正则去匹配server_name；

　　示例：

valid_referers none blocked server_names
               *.example.com example.* www.example.org/galleries/
               ~\.google\.;

　　提示：以上配置表示合法的referer有，请求报文里没有referer字段的请求，有referer字段但是没有值的，以任何内容开头结尾是.example.com的主机名或者是以example开头的主机，或者referer是www.example.org/galleries/或者是包含google的都是合法的，意思是客户端请求报文的referer信息满足我们定义的合法信息，或者说能够被我们定义的合法referer匹配到，我们就说该用户是一个合法的请求，理所当然的是应该允许被访问的；当然我们定义了合法referer，如果客户端请求报文里的referer信息不配我们定义的合法referer匹配，我们就说这里客户端的referer是非法的，是不被允许的，理所当然的就应该做其他处理；这个是ngxin里内部的机制，不被合法referer所匹配的referer都是非法的referer，通常是用$invalid_referer保留这些不合法referer;或者我们这样理解，不被合法referer所匹配的请求报文就会被$invalid_referer所匹配；有了这种机制我们就可以明确定义那些请求时合法的，相对的那些请求是不合法的，对于不合法的我们可以这么处理；如下

　　提示：以上配置表示如果客户端请求报文的referer信息不是.ilinux.com结尾或者不是以www.ilinux.开头或者不是www.ilinux.io 或者不包含.baidu.或者.google. 我们都响应该客户端请求响应码为403；

　　二、ngx_http_proxy_module：此模块允许将请求传递到另一个服务器。

　　1、proxy_pass URL;该指令主要作用是用来设置被代理服务器地址的，可以说主机名称，IP地址加端口的形式；其中URL表示被代理服务器的地址，包含协议、主机名或IP加端口、URI等。传输协议通常是“http”或者"https"；如果我们被代理的是一个本地unix-domain套接字时，也支持以http://或https://加unix套接字路径的形式；如果我们代理的是一组服务器时，我们可以用upstream指令把该组服务器同一归并为一个名称的组服务器组，当然这是我们后面要聊的nginx作为负载均衡的配置；这里特别要说明的是URL中是否包含URI，什么意思呢，就是URL不包含URI的意思就是被代理的URL没有URI，就只有协议IP地址或域名或主机名，这种就叫不带URI；带URI就表示除了协议主机名或域名或IP地址外，后面还有RUI；对于这两种情况Nginx处理逻辑上不一样的，如果RUL不包含URI 那么nginx服务器不会改变源地址的URI；如果URL包含URI，nginx服务器将会使用新的URI替换原来的URI；

　　示例：

　　提示：以上配置就是我们所的URL不包含URI的情况，用户请求www.test.com/enhttps://img.qb5200.com/download-x/docs/将会被该location匹配到，然后将访问www.test.com/enhttps://img.qb5200.com/download-x/docs/将会被代理到http://nginx.org/enhttps://img.qb5200.com/download-x/docs/；我们可以理解为被代理的URL不包含URI时，Nginx服务器会把用户请求的URI当作被代理服务器的URI；所以以上配置就表示，用户访问www.test.com/enhttps://img.qb5200.com/download-x/docs/将被代理至http://nginx.org/enhttps://img.qb5200.com/download-x/docs/

　　提示：在做以上实验时，需要在Windows上做好解析www.test.com；Windows上需要在C:\Windows\System32\drivers\etc\hosts文件中添加一条解析记录，语法同Linux里的hosts一样192.168.0.30 www.ilinux.io www.test.com；

　　提示：以上配置就是URL包含URI的情况，这种情况Nginx服务器会把用户请求的URI替换成被代理的URI；以上面的配置示例，如果用户请求www.test.com/test/那么这个请求到了nginx服务器时，nginx会把用户原有的URI/test/替换成/enhttps://img.qb5200.com/download-x/docs/,所以用户请求www.test.com/test/就会被代理至http://nginx.org/enhttps://img.qb5200.com/download-x/docs/;

　　提示：通过上面的演示，我们可以总结为，如果我们不想改变源请求的URI，那么我们在后端代理时就不带URI，如果我们想更改源请求URI，那么我们在后端代理时，就带上URI即可

　　理解了上面我们所的URL包含或不包含URI，我们就不难理解下面的例子

　　示例：proxy_pass URL末尾是否带“/”问题

　　提示：以上配置和我们之前的第一个示例就只多了一个“/”；多一个“/”在我们看来是不要紧，但它对nginx来说，意思却变了，就以我们上面说的，这种就是URL包含URI的情况，nginx会把后面的“/”认为是URI，不是认为，它本来就是一个URI；当客户端请求www.test.com/enhttps://img.qb5200.com/download-x/docs/时，nginx会把该请求代理至http://nginx.org/；当然这样处理后的结果肯定和我们之前的结果是完全不一样的，http://nginx.org/就表示请求nginx.org的主页；

　　提示：和第一个示例一样的URL，对于proxy_pass URL后面没有"/"和有“/”被代理响应的结果是不一样的；

　　除了上面URL包含或不包含URI问题需要我们特别注意外，我们还要注意，如果location定义URI时使用了正则，或在if语句或在limit_execept中使用了proxy_pass指令，则proxy_pass 之后不能使用URI；用户请求时传递的URI将直接附加代理到的服务器之后；意思就是URL包含URI的情况不能在location 使用了正则匹配URL，或者URL包含URI的情况不允许用在if语句中或limit_except中

　　示例：

　　提示：这种配置我们在语法检查的时候就通不过，要想被通过，我们只需要把proxy_pass指令后面的URI去掉即可

　　提示：总结一点就是location中使用了正则匹配 URL时，后面代理是不能有URI的，否则语法错误；

　　2、proxy_set_header field value;设定发往后端主机的请求报文的请求首部的值；可用在http,server,location配置段中

proxy_set_header X-Real-IP  $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;

　　提示：以上配置表示在用户请求通过代理发送给后端主机时，在其请求头部加上X-Real-IP这个字段，并且这个字段的值是$remote_addr（客户端IP地址）和X-Forwarded-For字段，其值为$proxy_add_x_forwarded_for；$proxy_add_x_forwarded_for 这个变量是也是记录IP地址的，不同的是，这个变量它记录了客户端IP和代理服务端ip，两个IP分别用逗号隔开，如果没有代理服务器的场景，这个变量的意义同$remote_addr是一样的，都是记录客户端客户端IP

　　3、proxy_cache_path：定义可用于proxy功能的缓存，此指令只可配置在http配置段；

　　语法：

　　　　proxy_cache_path path [levels=levels] [use_temp_path=on|off] keys_zone=name:size [inactive=time] [max_size=size] [manager_files=number] [manager_sleep=time] [manager_threshold=time] [loader_files=number] [loader_sleep=time] [loader_threshold=time] [purger=on|off] [purger_files=number] [purger_sleep=time] [purger_threshold=time];

　　　　path：表示设置缓存数据存放路径，该路径必须事先存在；

　　　　levels;表示设置存放缓存数据的目录级别，这个和前面说的nginx缓存目录一样。levels=1:2表示两级目录，且一级目录是一个字符哈希目录，二级目录是两个字符的哈希目录，目录名称是基于URL哈希算法获取到的；

　　　　keys_zone=name:size 表示设置缓存索引在内存区域的名称和大小；

　　　　inactive=time设置非活动缓存时间，在指定的时间内如果该缓存项没有被命中，nginx就会强制把该缓存从磁盘上删除，如果下次有人访问时在缓存，依次循环；默认10分钟;

　　　　max_size=size:设置磁盘中缓存数据的大小限制，当缓存数据超过我们设定的大小时，就是用LRU算法来删除缓存；

　　　　loader_files=number:设置缓存索引重建进程每次加载的数据元素的数量上限；

　　　　loader_sleep=time:设置缓存索引重建进程在一次遍历结束、下次遍历开始之间的暂停时长，默认是50ms

　　　　loader_threshold=time:设置遍历一次磁盘缓存源数据的时间上限，默认设置为200ms

　　通常情况下我们不需要设置这么多选项，只需要把前三个选项设置好就行了，没有特殊的要求后面的选项我们用默认值就可以

　　示例：

　　提示：以上配置表示定义代理缓存路径是/cache/proxy/nginx 目录级别是1：2：1 缓存索引重建进程内存区域名称为proxy_cache,大小为10M 对于磁盘上的/cache/proxy/nginx/目录最大缓存空间为2g；这样设置后，我们就可以在各个server或location中来调用此缓存定义

　　4、proxy_cache zone | off;指明要调用的缓存，或关闭缓存机制；此指令可用于http,server,location配置段中；

　　示例

　　提示：这样去调用缓存空间进行缓存是不能够缓存的，因为我们调用缓存空间是有条件的，比如我们要对那些请求方法的请求进行缓存？对不同响应码的资源缓存多久？是否在后端服务器出现错误时，我们继续使用缓存来响应？所以我们现在虽然配置了调用缓存空间，但是我们服务器还是不知道怎么去缓存客户访问的内容；所以它干脆就不给缓存；

　　示例：我们只调用了缓存空间，没有配置其他配置，用户访问的数据是否能够缓存下来呢？

　　提示：可以看到我们只配置缓存空间然后调用是不行的，我们还需要指定缓存的key是什么，对客户端使用的那些方法进行缓存，对不同的响应码的资源缓存多久，这是调用缓存空间的几个必要的配置，我们需要加上才行；

　　5、proxy_cache_key:定义缓存key，默认是$scheme$proxy_host$request_uri，它这个默认就是缓存的key是协议加代理主机地址或主机名或FQDN和用户请求的uri当作缓存的KEY；也就是说服务端怎么去找缓存的方式，对应key的定义；

　　6、proxy_cache_methods METHODS：定义缓存用户的请求方式，也就是说那些请求方法的资源我们要进行缓存，默认是GET HEAD；

　　7、proxy_cache_valid code:定义不同的响应码的资源缓存时长；

　　8、proxy_cache_use_stale error |timeout|……：定义后端服务器基于那种状态使用缓存，默认是不基于后端服务器状态使用缓存；比如后端服务器发生错误，是否用缓存中的内容响应客户端？如果我们定义 proxy_cache_use_stale http 403就表示后端服务器如果响应代理服务器403，我们代理服务器就是用之前的缓存，响应客户端；

　　示例:

　　提示：以上配置表示使用proxy_cache缓存空间，缓存key是用户请求的uri进行缓存，对用户使用GET 和HEAD方法请求的资源进行缓存，对响应码是200 302的资源缓存15分钟，对响应码是404的资源缓存1分钟，后端服务器出现500 或502的错误，代理服务器使用以前的缓存响应客户端；

　　提示：可看到浏览器请求了两个uri，在对应的缓存目录里就存在两个缓存项；这里面每一个缓存项就是对应一个用户请求过多URI;通常情况我们启用了Nginx代理缓存功能时，用户第一次访问就会很慢，但是只要把数据缓存下来后，后续的用户在访问相同的URI时，这个速度就会有明显的提升；

　　总结对于nginx的缓存，我们首先在http配置段定义一个缓存空间，然后在各server或location中调用我们定义的缓存空间，并明确说明各种响应码的资源缓存多长时间，对于proxy_cache_key 和 proxy_cache_methods是可以不指定的，不指定就代表使用默认值，从上面的配置我们其实就只定义响应码是多少的资源缓存多久，其他的按照默认来，它也是可以进行缓存的；

加载全部内容