☆数据提取方法
☆json
-
数据交换格式,看起来像python类型(列表,字典)的字符串
-
使用json之前需要导入
-
哪里会返回json数据
- 浏览器切换到手机版
-
json.loads
- 把json字符串转换为python类型
- ‘json.loads(json字符串)’
-
json.dumps
- 把python类型转化为json字符串
- json.dumps({“a”:“a123”,“b”:“023”})
- json.dumps(ret1, ensure_ascii=False,indent=2)
- ensure_ascii=False #让中文显示正常
- indent = 2 下一行在上一行的基础上空格
☆xpath 和 lxml
-
xpath
- 一门从html中提取数据的语言
-
xpath语法
-
xpath helper插件:帮助我们从’elements’中定位数据
-
1.选择节点(标签)
/html/head/meta
:能够选中html下的head下的meta标签
-
2.
//
:能够从任意节点开始选择//li
表示当前页面上所有的li标签/html/head//link
:head下的所有的link标签
-
3.’@符号的用途’
- 选择具体元素:
//div[@class='JK-main']/ul/li
- 选择class="JK-main"的div下的ul下的li
a/@href
:选择a的href的值
- 选择具体元素:
-
4.获取文本:
/a/text()
/a//text()
:a标签下的所有文本
-
5.当前
./a
当前节点下的a标签
-
-
lxml
- 安装:pip install lxml
- 使用
1
2
3from lxml import etree
element = etree.HTML("html字符串")
element.xpath("")