数据提取方法

数据提取方法

json

  • 数据交换格式,看起来像python类型(列表,字典)的字符串

  • 使用json之前需要导入

  • 哪里会返回json数据

    • 浏览器切换到手机版
  • json.loads

    • 把json字符串转换为python类型
    • ‘json.loads(json字符串)’
  • json.dumps

    • 把python类型转化为json字符串
    • json.dumps({“a”:“a123”,“b”:“023”})
    • json.dumps(ret1, ensure_ascii=False,indent=2)
      • ensure_ascii=False #让中文显示正常
      • indent = 2 下一行在上一行的基础上空格

xpath 和 lxml

  • xpath

    • 一门从html中提取数据的语言
  • xpath语法

    • xpath helper插件:帮助我们从’elements’中定位数据

    • 1.选择节点(标签)

      • /html/head/meta:能够选中html下的head下的meta标签
    • 2.//:能够从任意节点开始选择

      • //li 表示当前页面上所有的li标签
      • /html/head//link:head下的所有的link标签
    • 3.’@符号的用途’

      • 选择具体元素://div[@class='JK-main']/ul/li
        • 选择class="JK-main"的div下的ul下的li
      • a/@href:选择a的href的值
    • 4.获取文本:

      • /a/text()
      • /a//text():a标签下的所有文本
    • 5.当前

      • ./a当前节点下的a标签
  • lxml

    • 安装:pip install lxml
    • 使用
    1
    2
    3
    from lxml import etree
    element = etree.HTML("html字符串")
    element.xpath("")
0%