爬虫代理http协议的请求

回复
laical
崭露头角
崭露头角
帖子: 20
注册时间: 2020年03月26日 17:45
联系:

爬虫代理http协议的请求

帖子 laical »

一、Http 的概念:
1. HTTP的传输,不是一个文件整体传输,而是把一个大的文件,分成一个个报文(message),然后传输的。所以我们的浏览器渲染页面,一块一块加载的,图片是一条一条显示的。的确,一个JPG图片,也是通过多个报文回来的。每个报文都会进行校验,保证这个报文里面的内容是准确的、和服务器一致的。所以HTTP是可靠的,文件不会发生任何偏差。
2. HTTP是无连接的,就是你访问一个网站,此时可能产生多个HTTP请求,请求HTML页面、请求JPG图片、请求外链css样式表,这些请求走过的路线,可以不一致。也就是说,没有和服务器有一个持久的通路,你的每次请求HTTP完成之后,请求就关闭了,一个页面要多次打开、关闭HTTP。
二、Http 协议的主要特点有:
1. 支持客户端 / 服务端模式,即请求(request)- 响应(response)模式(你请求我回应你,你不请求,我不理你);
2. 简单快速,客户端向服务端发送请求时,只需要传送请求方式和路径即可,所以简单,由于http协议简单, 使得http服务器的程度规模小,因而速度很快;
3. 灵活,传输数据类型种类多;
4. 无连接,请求一次服务器后立刻断开连接,即非长连接,即短连接。
例:微博 - 请求一次之后,不能持续不断更新;
解决办法:添加定时器,不断地去请求;
h5内容: webSocket 长连接,可以一直连接请求
5. 无状态:HTTP 协议对事务处理没有记忆能力;session
三、http协议的请求分为三个部分:
(1)请求行:1.请求方法(get post put delete 等等)2.请求地址3.请求用的协议
(2)请求头信息(格式为key:value格式)
(3)请求消息体
在通过Http协议向服务器请求的过程中,有两种最常用的请求方式,分别是:GET 和 POST 请求方式;在ajax的使用过程中,GET的使用频率又要比POST高的多。
2604566-0aea734d5ad61200.webp.jpg
(71.87 KiB) 已下载 1 次
2604566-19be54dc11c5fdc2.webp.jpg
(57.46 KiB) 已下载 1 次
四、GET 请求 和 POST 请求 的区别:
从性能上来讲POST请求比GET请求消耗更多一些,用相同数据比较,GET最多比POST快两倍。这也是GET请求的使用率大于POST请求的原因;
爬虫程序想要长期稳定采集数据,需要配合高质量爬虫代理。
回复

在线用户

正浏览此版面之用户: Google [Bot] 和 0 访客