爬虫基础知识和软件准备

发表于 2018-05-20 | 更新于 2020-09-21 | 评论： | 浏览量：

本文字数： 2.4k | 阅读时长 ≈ 4 分钟

爬虫概念

☆1.什么是爬虫

爬虫就是模拟客户端（浏览器）发送网络请求，获取响应，按照规则提取数据的程序
模拟客户端（浏览器）发送网络请求：照着浏览器发送一摸一样的请求获取和浏览器一样的数据

☆2.爬虫爬到数据的去向

呈现出来：展示在网页或者app上
进行分析：从数据中寻找规律

☆3.需要的软件环境

python
- 基础语法（字符串，列表，字典，判断和循环）
- 函数（函数的创建和调用）
- 面向对象（创建类，使用类）
pycharm
- python编译器
chrome浏览器

☆浏览器的请求

url地址
- url地址：请求的协议+域名+资源路径+请求参数
浏览器请求url地址
- 当前url对应的响应+js+css+图片 ------>elements内容
爬虫请求的url地址
- 当前url地址对应的响应
elements的内容和爬虫获取的url地址不同，需要以当前url地址对应的响应为准提取数据

当前url地址响应位置：
- 从network中找到当前url地址，点击response
- 在页面上右键点击显示网页源码

☆认识HTTP、HTTPS

HTTP：超文本传输协议
- 以明文形式传输
- 不加密
HTTPS ：HTTP+SSL（安全套接字层）
- 传输过程先加密后解密
- 效率低，但是安全
get请求和post请求的区别
- get请求没有请求体，post有，get请求把数据放到url地址中
- post请求用于登陆注册
- post请求携带的数据比较多，常用于传输大文本
HTTP协议的请求
- 请求行
- 请求头
  - user-agent: 用户代理（浏览器识别码）：对方服务器通过user-agent识别当前请求的用户种类
    - 如果需要模拟手机版的请求，就需要把user-agent:改成手机版
  - cookie：用来存储用户信息，每次请求会被携带发送到服务器
    - 需要登陆后才能获取访问页面
    - 对方服务器会通过cookie来判断是否是一个爬虫
- 请求体
  - get请求没有请求体
  - post请求有请求体
HTTP协议的响应
- 响应头
  - Set-Cookie：对方服务器通过该字段设置cookie到本地
- 响应体
  - url地址对应的响应

0%