数据提取方法

发表于 2018-05-26 | 更新于 2020-09-21 | 评论： | 浏览量：

本文字数： 2.4k | 阅读时长 ≈ 4 分钟

☆数据提取方法

☆json

数据交换格式，看起来像python类型（列表，字典）的字符串
使用json之前需要导入
哪里会返回json数据
- 浏览器切换到手机版
json.loads
- 把json字符串转换为python类型
- ‘json.loads(json字符串)’
json.dumps
- 把python类型转化为json字符串
- json.dumps({“a”:“a123”,“b”:“023”})
- json.dumps(ret1, ensure_ascii=False,indent=2)
  - ensure_ascii=False #让中文显示正常
  - indent = 2 下一行在上一行的基础上空格

☆xpath 和 lxml

xpath
- 一门从html中提取数据的语言
xpath语法
- xpath helper插件：帮助我们从’elements’中定位数据
- 1.选择节点（标签）
  - /html/head/meta:能够选中html下的head下的meta标签
- 2.//:能够从任意节点开始选择
  - //li 表示当前页面上所有的li标签
  - /html/head//link:head下的所有的link标签
- 3.’@符号的用途’
  - 选择具体元素：//div[@class='JK-main']/ul/li
    - 选择class="JK-main"的div下的ul下的li
  - a/@href：选择a的href的值
- 4.获取文本：
  - /a/text()
  - /a//text()：a标签下的所有文本
- 5.当前
  - ./a当前节点下的a标签

lxml

安装：pip install lxml
使用

1
2
3

from lxml import etree
element = etree.HTML("html字符串")
element.xpath("")

本文作者： Cxsz Zhu
本文链接： http://www.singlelovely.cn/post/cf1235a7.html
版权声明： 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处！

Cxsz Zhu

跌跌撞撞，仍对世界微笑
彷徨失措，依然勇敢前行

GitHub Twitter Weibo Zhihu E-Mail

1. ☆数据提取方法
1. 1.1. ☆json
2. 1.2. ☆xpath 和 lxml

0%