爬虫概念
☆1.什么是爬虫
- 爬虫就是
模拟客户端(浏览器)发送网络请求
,获取响应,按照规则提取数据的程序 模拟客户端(浏览器)发送网络请求
:照着浏览器发送一摸一样的请求获取和浏览器一样的数据
☆2.爬虫爬到数据的去向
- 呈现出来:展示在网页或者app上
- 进行分析:从数据中寻找规律
☆3.需要的软件环境
-
python
- 基础语法(字符串,列表,字典,判断和循环)
- 函数(函数的创建和调用)
- 面向对象(创建类,使用类)
-
pycharm
- python编译器
-
chrome浏览器
☆浏览器的请求
-
url地址
- url地址 :请求的协议+域名+资源路径+请求参数
-
浏览器请求url地址
- 当前url对应的响应+js+css+图片 ------>elements内容
-
爬虫请求的url地址
- 当前url地址对应的响应
-
elements的内容和爬虫获取的url地址不同,需要以当前url地址对应的响应为准提取数据
- 当前url地址响应位置:
- 从network中找到当前url地址,点击response
- 在页面上右键点击显示网页源码
☆认识HTTP、HTTPS
-
HTTP:超文本传输协议
- 以明文形式传输
- 不加密
-
HTTPS :HTTP+SSL(安全套接字层)
- 传输过程先加密后解密
- 效率低,但是安全
-
get请求和post请求的区别
- get请求没有请求体,post有,get请求把数据放到url地址中
- post请求用于登陆注册
- post请求携带的数据比较多,常用于传输大文本
-
HTTP协议的请求
- 请求行
- 请求头
- user-agent: 用户代理(浏览器识别码):对方服务器通过user-agent识别当前请求的用户种类
- 如果需要模拟手机版的请求,就需要把user-agent:改成手机版
- cookie:用来存储用户信息,每次请求会被携带发送到服务器
- 需要登陆后才能获取访问页面
- 对方服务器会通过cookie来判断是否是一个爬虫
- user-agent: 用户代理(浏览器识别码):对方服务器通过user-agent识别当前请求的用户种类
- 请求体
- get请求没有请求体
- post请求有请求体
-
HTTP协议的响应
- 响应头
- Set-Cookie:对方服务器通过该字段设置cookie到本地
- 响应体
- url地址对应的响应
- 响应头