爬虫基础知识和软件准备

爬虫概念

1.什么是爬虫

  • 爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序
  • 模拟客户端(浏览器)发送网络请求:照着浏览器发送一摸一样的请求获取和浏览器一样的数据

2.爬虫爬到数据的去向

  • 呈现出来:展示在网页或者app上
  • 进行分析:从数据中寻找规律

3.需要的软件环境

  • python

    • 基础语法(字符串,列表,字典,判断和循环)
    • 函数(函数的创建和调用)
    • 面向对象(创建类,使用类)
  • pycharm

    • python编译器
  • chrome浏览器

浏览器的请求

  • url地址

    • url地址 :请求的协议+域名+资源路径+请求参数
  • 浏览器请求url地址

    • 当前url对应的响应+js+css+图片 ------>elements内容
  • 爬虫请求的url地址

    • 当前url地址对应的响应
  • elements的内容和爬虫获取的url地址不同,需要以当前url地址对应的响应为准提取数据

  • 当前url地址响应位置:
    • 从network中找到当前url地址,点击response
    • 在页面上右键点击显示网页源码

认识HTTP、HTTPS

  • HTTP:超文本传输协议

    • 以明文形式传输
    • 不加密
  • HTTPS :HTTP+SSL(安全套接字层)

    • 传输过程先加密后解密
    • 效率低,但是安全
  • get请求和post请求的区别

    • get请求没有请求体,post有,get请求把数据放到url地址中
    • post请求用于登陆注册
    • post请求携带的数据比较多,常用于传输大文本
  • HTTP协议的请求

    • 请求行
    • 请求头
      • user-agent: 用户代理(浏览器识别码):对方服务器通过user-agent识别当前请求的用户种类
        • 如果需要模拟手机版的请求,就需要把user-agent:改成手机版
      • cookie:用来存储用户信息,每次请求会被携带发送到服务器
        • 需要登陆后才能获取访问页面
        • 对方服务器会通过cookie来判断是否是一个爬虫
    • 请求体
      • get请求没有请求体
      • post请求有请求体
  • HTTP协议的响应

    • 响应头
      • Set-Cookie:对方服务器通过该字段设置cookie到本地
    • 响应体
      • url地址对应的响应
0%