一步步走上爬虫巅峰——进阶1(Requests、XPath语法和lxml模块)
off999 2024-11-05 10:54 13 浏览 0 评论
Requests库
Requests :唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。
发送get请求
直接调用requests.get
import requests
response = requests.get('https://www.baidu.com')
response的属性
import requests
params = {'wd': 'python'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4090.0 Safari/537.36 Edg/83.0.467.0'}
# params: 接受一个字典或者字符串的查询参数,字典类型自动转换为url编码,不需要urlencode()
response = requests.get('https://www.baidu.com', params=params, headers=headers)
# 查看响应内容,response.text返回的是Unicode格式的数据
print(response.text)
# 查看响应内容,response.content返回的是字节流数据
print(response.content.decode('utf-8'))
# 查看完整url地址
print(response.url)
# 查看响应头部字符编码
print(response.encoding)
# 查看响应码
print(response.status_code)
response.text和response.content的区别
- response.content:直接从网络上面抓取的数据,没有经过任何解码,所以是bytes类型(硬盘上和网络上传输的字符串都是bytes类型)
- response.text:将response.content进行解码的字符串,数据类型为str,解码需要指定一个编码方式,requests会根据自己的猜测来判断编码的方式,所以有时会猜测错误,就会导致解码产生乱码。这时候应该使用response.content.decode('utf-8')进行手动解码
发送POST请求
直接调用requests.post,如果返回的是json数据,可以调用response.json()来将json字符串转为字典或列表
下面是爬取拉勾网的一个示例,记得请求头添加Cookie,才能成功爬取到
import requests
data = {'first': 'true',
'pn': '1',
'kd': 'python'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/83.0.4090.0 Safari/537.36 Edg/83.0.467.0',
'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
'Cookie': 'user_trace_token=20200331183800-0c1f510a-ae9a-4f04-b70d-e17f9edec031; '
'LGUID=20200331183800-b8eca414-b7b2-479d-8100-71fff41d8087; _ga=GA1.2.17010052.1585651081; '
'index_location_city=%E5%85%A8%E5%9B%BD; lagou_utm_source=B; _gid=GA1.2.807051168.1585805257; '
'sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22171302b7caa67e-0dedc0121b2532-255e0c45'
'-2073600-171302b7cabb9c%22%2C%22%24device_id%22%3A%22171302b7caa67e-0dedc0121b2532-255e0c45'
'-2073600-171302b7cabb9c%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B'
'%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22'
'%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5'
'%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; '
'JSESSIONID=ABAAABAABFIAAAC7D7CECCAFCFFA1FCBF3CB10D8EA6A189; '
'WEBTJ-ID=20200403095906-1713dc35e58a75-0b564b9cba1732-23580c45-2073600-1713dc35e598e; PRE_UTM=; '
'PRE_HOST=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; '
'LGSID=20200403095905-8201da05-4bb8-4e93-97bf-724ea6f758af; '
'PRE_SITE=https%3A%2F%2Fwww.lagou.com; _gat=1; '
'Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585651082,1585879146; TG-TRACK-CODE=index_search; '
'X_HTTP_TOKEN=0b356dc3463713117419785851e40fa7a09468f3f0; '
'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585879149; '
'LGRID=20200403095908-4f1711b9-3e7e-4d54-a400-20c76b57f327; '
'SEARCH_ID=b875e8b91a764d63a2dc98d822ca1f85'}
response = requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false',
headers=headers,
data=data)
print(response.json())
使用代理ip
这里在基础中已经讲到过,使用requests只需要两行代码,非常方便
import requests
proxy = {'http': '59.44.78.30:54069'}
response = requests.get('http://httpbin.org/ip', proxies=proxy)
print(response.text)
cookie
使用session在多次请求中共享cookie,可以发现相比使用urllib代码变得特别简洁
import requests
headers = {'User-Agent': ''}
data = {'email': '',
'password': ''}
login_url = 'http://www.renren.com/PLogin.do'
profile_url = 'http://www.renren.com/880151247/profile'
session = requests.Session()
session.post(login_url, data=data, headers=headers)
response = session.get(profile_url)
with open('renren.html', 'w', encoding='utf-8') as f:
f.write(response.text)
处理不信任的SSL证书
对于那些没有被信任的SSL证书的网站,可以在requests.get和requests.post中设置参数verify=False来进行访问
XPath语法和lxml模块
XPath
xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行访问。
XPath开发工具
- Chrome插件XPath Helper
- Firefox插件Xpath Checker
XPath语法
XPath使用路径表达式来选取XML文档中的节点或者节点集,这些路径表达式和我们在常规的电脑文件系统中的表示式非常类似。
表达式 | 描述 | 示例 | 结果 |
nodename | 选取此节点的所有子节点 | bookstore | 选取bookstore下所有的子节点 |
/ | 如果在最前面,代表从根节点选取,否则选择某节点下的某个节点 | /bookstore | 选取根元素下所有的bookstore节点 |
// | 从全局节点中选择节点,随便在哪个位置 | //book | 从全局节点中找到所有的book节点 |
@ | 选取某个节点的属性 | //book[@price] | 选择所有拥有price属性的book节点 |
谓语
谓语用来查找某个特定的节点或者包含某个指定节点的值的节点,被嵌在方括号中。
路径表达式 | 描述 |
/bookstore/book[1] | 选取bookstore下的第一个book元素 |
/booksotre/book[last()] | 选取bookstore下的最后一个book元素 |
/bookstore/book[position()??] | 选取bookstore下前面两个book元素 |
//book[@price] | 选择所有拥有price属性的book节点 |
//book[@price=10] | 选取所有属性price=10的book元素 |
通配符
通配符 | 描述 | 示例 | 结果 |
* | 匹配任意节点 | /bookstore/* | 选取bookstore下的所有子元素 |
@* | 匹配节点中的任何属性 | //book[@*] | 选取所有带有属性的book元素 |
选取多个路径
通过在路径表达式中使用|运算符,可以选取若干个路径
//bookstore/book | //book/title
# 选取多个book元素以及book元素下的title元素
运算符
运算符 | 描述 | 实例 | 返回值 |
| | 计算两个节点集 | //book | //cd | 返回所有拥有book和cd元素的节点集 |
+,-,*,div | 加,减,乘,除 | 6+1, 6-1, 6 * 1, 6 div 1 | 7, 5, 6, 6 |
=, !=, <, <=, >, >= | - | - | 返回false或true |
or, and | 或,与 | - | 返回false或true |
mod | 计算除法的余数 | 5 mod 2 | 1 |
注意事项
- /和//的区别,/代表只获取直接子节点,//代表获取子孙节点。
- contains:有时候某个属性中包含了多个值,那么可以使用contains函数
//div[contains(@class, 'job_detail')]
3.谓词中的下标从1开始。
lxml库
lxml是一个HTML/XML的解析器,主要功能是如何解析和提取HTML/XML数据。
基本使用
1,解析html字符串:使用lxml.etree.HTML进行解析
from lxml import etree
htmlElement = etree.HTML(text)
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))
2,解析html文件:使用lxml.etree.parse进行解析
htmlElement = etree.parse('tencent.xml')
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))
这个函数默认使用XML解析器,所以如果碰到不规范的HTML代码的时候就会解析错误,这时候要创建HTML解析器
parser = etree.HTMLParser(encoding='utf-8')
htmlElement = etree.parse('tencent.xml', parser=parser)
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))
XPath和lxml结合使用
- 使用xpath语法,应该使用Element.xpath方法,xpath返回列表。
- 获取标签属性
- 获取文本使用xpath中的text()函数
- 如果想在某个标签下,再执行xpath,获取这个标签下的子孙元素,那么应该在斜杠之前加点,代表在当前元素下获取。
from lxml import etree
parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse('tencent.html', parser=parser)
获取所有tr标签
trs = html.xpath('//tr')
for tr in trs:
print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))
获取第2个tr标签
tr = html.xpath('//tr[2]')[0]
print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))
获取所有class等于even的tr标签
trs = html.xpath("//tr[@class='even']")
for tr in trs:
print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))
获取所有a标签的href属性
aList = html.xpath('//a/@href')
for a in aList:
print('http://hr.tencent.com/' + a)
获取所有职位信息
trs = html.xpath('//tr[position()>1]')
positions = []
for tr in trs:
href = tr.xpath('.//a/@href')[0]
fullurl = 'http://hr.tencent.com/' + href
title = tr.xpath('./td[1]//text()')[0]
category = tr.xpath('./td[2]//text()')[0]
nums = tr.xpath('./td[3]/text()')[0]
address = tr.xpath('./td[4]/text()')[0]
pubtime = tr.xpath('./td[5]/text()')[0]
position = {
'url': fullurl,
'title': title,
'category': category,
'nums': nums,
'address': address,
'pubtime': pubtime
}
positions.append(position)
相关推荐
- python gui编程框架推荐以及介绍(python gui开发)
-
Python的GUI编程框架有很多,这里为您推荐几个常用且功能强大的框架:Tkinter:Tkinter是Python的标准GUI库,它是Python内置的模块,无需额外安装。它使用简单,功能较为基础...
- python自动化框架学习-pyautogui(python接口自动化框架)
-
一、适用平台:PC(windows和mac均可用)二、下载安装:推荐使用命令行下载(因为会自动安装依赖库):pipinstallPyAutoGUI1该框架的依赖库还是蛮多的,第一次用的同学耐心等...
- Python 失宠!Hugging Face 用 Rust 新写了一个 ML框架,现已低调开源
-
大数据文摘受权转载自AI前线整理|褚杏娟近期,HuggingFace低调开源了一个重磅ML框架:Candle。Candle一改机器学习惯用Python的做法,而是Rust编写,重...
- Flask轻量级框架 web开发原来可以这么可爱呀~(建议收藏)
-
Flask轻量级框架web开发原来可以这么可爱呀大家好呀~今天让我们一起来学习一个超级可爱又实用的PythonWeb框架——Flask!作为一个轻量级的Web框架,Flask就像是一个小巧精致的工...
- Python3使用diagrams生成架构图(python架构设计)
-
目录技术背景diagrams的安装基础逻辑关系图组件簇的定义总结概要参考链接技术背景对于一个架构师或者任何一个软件工程师而言,绘制架构图都是一个比较值得学习的技能。这就像我们学习的时候整理的一些Xmi...
- 几个高性能Python网络框架,高效实现网络应用
-
Python作为一种广泛使用的编程语言,其简洁易读的语法和强大的生态系统,使得它在Web开发领域占据重要位置。高性能的网络框架是构建高效网络应用的关键因素之一。本文将介绍几个高性能的Python网络框...
- Web开发人员的十佳Python框架(python最好的web框架)
-
Python是一种面向对象、解释型计算机程序设计语言。除了语言本身的设计目的之外,Python的标准库也是值得大家称赞的,同时Python还自带服务器。其它方面,Python拥有足够多的免费数据函数库...
- Diagram as Code:用python代码生成架构图
-
工作中常需要画系统架构图,通常的方法是通过visio、processon、draw.io之类的软件,但是今天介绍的这个软件Diagrams,可以通过写Python代码完成架构图绘制,确实很co...
- 分享一个2022年火遍全网的Python框架
-
作者:俊欣来源:关于数据分析与可视化最近Python圈子当中出来一个非常火爆的框架PyScript,该框架可以在浏览器中运行Python程序,只需要在HTML程序中添加一些Python代码即可实现。该...
- 10个用于Web开发的最好 Python 框架
-
Python是一门动态、面向对象语言。其最初就是作为一门面向对象语言设计的,并且在后期又加入了一些更高级的特性。除了语言本身的设计目的之外,Python标准库也是值得大家称赞的,Python甚至还...
- 使用 Python 将 Google 表格变成您自己的数据库
-
图片来自Shutterstock,获得FrankAndrade的许可您知道Google表格可以用作轻量级数据库吗?GoogleSheets是一个基于云的电子表格应用程序,可以像大多数数据库管...
- 牛掰!用Python处理Excel的14个常用操作总结!
-
自从学了Python后就逼迫用Python来处理Excel,所有操作用Python实现。目的是巩固Python,与增强数据处理能力。这也是我写这篇文章的初衷。废话不说了,直接进入正题。数据是网上找到的...
- 将python打包成exe的方式(将python文件打包成exe可运行文件)
-
客户端应用程序往往需要运行Python脚本,这对于那些不熟悉Python语言的用户来说可能会带来一定的困扰。幸运的是,Python拥有一些第三方模块,可以将这些脚本转换成可执行的.exe...
- 对比Excel学Python第1练:既有Excel,何用Python?
-
背景之前发的文章开头都是“Python数据分析……”,使得很多伙伴以为我是专门分享Python的,但我的本意并非如此,我的重点还是会放到“数据分析”上,毕竟,Python只是一种工具而已。现在网上可以...
- 高效办公:Python处理excel文件,摆脱无效办公
-
一、Python处理excel文件1.两个头文件importxlrdimportxlwt其中xlrd模块实现对excel文件内容读取,xlwt模块实现对excel文件的写入。2.读取exce...
你 发表评论:
欢迎- 一周热门
-
-
python 3.8调用dll - Could not find module 错误的解决方法
-
加密Python源码方案 PyArmor(python项目源码加密)
-
Python3.8如何安装Numpy(python3.6安装numpy)
-
大学生机械制图搜题软件?7个受欢迎的搜题分享了
-
编写一个自动生成双色球号码的 Python 小脚本
-
免费男女身高在线计算器,身高计算公式
-
将python文件打包成exe程序,复制到每台电脑都可以运行
-
Python学习入门教程,字符串函数扩充详解
-
Python数据分析实战-使用replace方法模糊匹配替换某列的值
-
Python进度条显示方案(python2 进度条)
-
- 最近发表
-
- python gui编程框架推荐以及介绍(python gui开发)
- python自动化框架学习-pyautogui(python接口自动化框架)
- Python 失宠!Hugging Face 用 Rust 新写了一个 ML框架,现已低调开源
- Flask轻量级框架 web开发原来可以这么可爱呀~(建议收藏)
- Python3使用diagrams生成架构图(python架构设计)
- 几个高性能Python网络框架,高效实现网络应用
- Web开发人员的十佳Python框架(python最好的web框架)
- Diagram as Code:用python代码生成架构图
- 分享一个2022年火遍全网的Python框架
- 10个用于Web开发的最好 Python 框架
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)