手把手教你利用python代码快速获取双色球历史数据(附源码)
off999 2025-04-27 15:34 6 浏览 0 评论
一、windows安装python环境
1、打开浏览器,在搜索框中输入Python,进入到Python的官网中。
2、在Python官网中进入Downloads菜单栏,我们选择windows版本
3、下载对应的Python安装包
4、找到下载的Python包,双击安装
5、cmd命令验证是否安装成功
至此,Python安装完成
6、安装Python依赖库
cmd直接运行命令pip install requests beautifulsoup4 openpyxl
二、编写代码
1、桌面新建文件夹test,文件夹内新建文件test.py。
2、复制代码到test.py中(代码私信获取)
import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
import concurrent.futures
import re
import time
import random
# 初始化工作簿
wb = Workbook()
ws = wb.active
ws.append(['期号', '开奖日期', '红球1', '红球2', '红球3', '红球4', '红球5', '红球6', '蓝球'])
# 配置中心(动态适配)
CONFIG = {
'BASE_URL': 'https://kaijiang.zhcw.com/zhcw/html/ssq/list_%d.html',
'HEADERS': {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive'
},
'MAX_WORKERS': 20,
'RETRIES': 3,
'DELAY_RANGE': (0.1, 0.3),
'PAGINATION_SELECTORS': [
'p.pg',
'div.pagination',
'nav.pagination'
],
'PAGE_PATTERN': re.compile(r'pageNum=(\d+)'),
'TABLE_SELECTORS': [
'table.wqhgt',
'table.lottery-table'
]
}
def get_valid_pages():
"""智能分页解析(动态适配不同网页结构)"""
try:
response = requests.get(CONFIG['BASE_URL'] % 1, headers=CONFIG['HEADERS'], timeout=10)
print(f"请求状态码: {response.status_code}")
print(f"请求内容(前500字符): {response.text[:500]}")
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')
# 尝试所有分页选择器
pagination = None
for selector in CONFIG['PAGINATION_SELECTORS']:
pagination = soup.select_one(selector)
if pagination:
print(f"找到分页区域,选择器为: {selector}")
print(f"分页区域完整HTML内容: {pagination.prettify()}")
break
if not pagination:
print("未找到分页区域,默认返回1页")
return [1]
# 提取总页数
total_pages_text = pagination.find_all('strong')[0].get_text(strip=True)
try:
total_pages = int(total_pages_text)
except ValueError:
print("无法提取总页数,默认返回1页")
return [1]
# 生成完整的页码列表
pages = list(range(1, total_pages + 1))
print(f"生成完整页码列表: {pages}")
return pages
except Exception as e:
print(f"分页解析错误: {str(e)}")
return [1]
def download_page(page):
"""带智能重试的页面下载"""
url = f'https://kaijiang.zhcw.com/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum={page}'
for retry in range(CONFIG['RETRIES']):
try:
time.sleep(random.uniform(*CONFIG['DELAY_RANGE']))
response = requests.get(url, headers=CONFIG['HEADERS'], timeout=10)
print(f"页面 {page} 请求状态码: {response.status_code}")
print(f"页面 {page} 请求内容(前500字符): {response.text[:500]}")
response.raise_for_status()
soup = BeautifulSoup(response.content, 'html.parser')
table = None
for selector in CONFIG['TABLE_SELECTORS']:
table = soup.select_one(selector)
if table:
print(f"页面 {page} 找到表格,选择器为: {selector}")
break
if not table:
# 打印所有表格,辅助定位
all_tables = soup.find_all('table')
print(f"页面 {page} 未找到表格数据,页面上共有 {len(all_tables)} 个表格:")
for idx, tbl in enumerate(all_tables):
print(f"表格 {idx + 1} 内容(前200字符): {tbl.text[:200]}")
return []
return parse_table(table)
except Exception as e:
print(f"页面 {page} 重试 {retry + 1}/{CONFIG['RETRIES']}: {str(e)}")
return []
def parse_table(table):
"""鲁棒的数据解析(处理结构变化)"""
data = []
for row in table.find_all('tr')[1:]:
tds = row.find_all('td')
if len(tds) < 3:
continue
try:
cells = [td.get_text(strip=True) for td in tds[:3]]
if len(cells) < 3:
continue
issue, date = auto_detect_issue_date(cells)
balls = []
# 尝试不同的球号提取方式
em_tags = tds[2].find_all('em')
if em_tags:
balls = [em.get_text(strip=True) for em in em_tags]
else:
balls = cells[2].split()
if len(balls) == 7:
data.append([issue, date] + balls[:6] + [balls[6]])
except Exception as e:
print(f"行解析错误: {str(e)}")
return data
def auto_detect_issue_date(cells):
"""智能检测期号和日期(处理列顺序变化)"""
for i, cell in enumerate(cells):
if re.match(r'\d{4}-\d{2}-\d{2}', cell):
date = cell
issue = cells[(i + 1) % 3]
return issue, date
return cells[0], cells[1]
def main():
start_time = time.time()
total_rows = 0
all_data = []
# 智能分页解析(支持结构变化)
pages = get_valid_pages()
total_pages = max(pages) if pages else 1
print(f"检测到有效页数: {total_pages} 页,具体页码: {pages}")
# 并发下载(线程池)
with concurrent.futures.ThreadPoolExecutor(max_workers=CONFIG['MAX_WORKERS']) as executor:
futures = {executor.submit(download_page, page): page for page in pages}
for future in concurrent.futures.as_completed(futures):
data = future.result()
all_data.extend(data)
for row in data:
total_rows += 1
print(f"页面 {futures[future]} 完成: {len(data)} 条")
# 按日期降序排序
all_data.sort(key=lambda x: x[1], reverse=True)
# 将排序后的数据写入 Excel
for row in all_data:
ws.append(row)
# 保存文件
try:
wb.save('双色球历史数据.xlsx')
print(f"\n操作完成!共获取 {total_rows} 条数据(表头1行)")
except PermissionError:
print("错误:请关闭已打开的Excel文件后重试")
finally:
wb.close()
# 性能报告
if time.time() - start_time > 0:
print(f"耗时: {time.time() - start_time:.2f} 秒 | 速度: {total_rows / (time.time() - start_time):.1f} 条/秒")
else:
print("耗时过短,无法计算速度。")
if __name__ == '__main__':
main()
3、右击桌面test文件夹,选择在终端中打开。
4、运行命令python test.py,几秒钟后会在test文件夹中生成一个名为“双色球历史数据.xlsx”的文件,即为爬到的双色球历史数据,
三、总结
1、该代码生成的 Excel 文件中的数据将按日期降序排列。
2、大大缩短时间,并发下载。提高效率。
3、动态适配页面。
4、防止反爬。
作者观点:好多网友认为获取到这个数据没什么意义。能获取到本期未开奖的号码才是牛逼。个人认为获取这个数据:1 是让大家了解下python爬虫的技术,可以慢慢掌握这个技能,举一反三,在生活学习中提高工作效率。2 是个人认为双色球是一个统计学,不是概率学,什么是统计学,就是哪组号码买的人少,主任开哪组,并不是有了这些数据,根据哪些号码长期没开,下次就一定会开,每期开奖的号码都是一次独立性事件,上次的开奖结果并不会影响下期的开奖号码。最后,祝大家好运,好好学习python技术。人人中大奖。
相关推荐
- Python 数据分析——利用Pandas进行分组统计
-
话说天下大势,分久必合,合久必分。数据分析也是如此,我们经常要对数据进行分组与聚合,以对不同组的数据进行深入解读。本章将介绍如何利用Pandas中的GroupBy操作函数来完成数据的分组、聚合以及统计...
- python数据分析:介绍pandas库的数据类型Series和DataFrame
-
安装pandaspipinstallpandas-ihttps://mirrors.aliyun.com/pypi/simple/使用pandas直接导入即可importpandasas...
- 使用DataFrame计算两列的总和和最大值_[python]
-
【如果对您有用,请关注并转发,谢谢~~】最近在处理气象类相关数据的空间计算,在做综合性计算的时候,DataFrame针对每列的统计求和、最大值等较为方便,对某行的两列或多列数据进行求和与最大值等的简便...
- 8-Python内置函数
-
Python提供了丰富的内置函数,这些函数可以直接使用而无需导入任何模块。以下是一些常用的内置函数及其示例:1-print()1-1-说明输出指定的信息到控制台。1-2-例子2-len()2-1-说...
- Python中函数式编程函数: reduce()函数
-
Python中的reduce()函数是一个强大的工具,它通过连续地将指定的函数应用于序列(如列表)来对序列(如列表)执行累积操作。它是functools模块的一部分,这意味着您需要在使用它之...
- 万万没想到,除了香农计划,Python3.11竟还有这么多性能提升
-
众所周知,Python3.11版本带来了较大的性能提升,但是,它具体在哪些方面上得到了优化呢?除了著名的“香农计划”外,它还包含哪些与性能相关的优化呢?本文将带你一探究竟!作者:BeshrKay...
- 最全python3.11版12类75个内置函数大全
-
获取全部内置函数:importbuiltins#导入模块yc=[]#异常属性nc=[]#不可调用fn=[]#内置函数defll(ty=builtins):...
- 软件测试笔试题
-
测试工程师岗位,3-5年,10-14k1.我司有一款产品,类似TeamViewer,向日葵,mstsc,QQ远程控制产品,一个PC客户端产品,请设想一下测试要点。并写出2.写出常用的SQL语句8条,l...
- 备战各大互联网巨头公司招聘会,最全Python面试大全,共300题
-
前言众所周知,越是顶尖的互联网公司在面试这一part的要求就越高,需要你有很好的技术功底、项目经验、一份漂亮的简历,当然还有避免不了的笔试过关。对于Python的工程师来说,全面掌握好有关Python...
- 经典 SQL 数据库笔试题及答案整理
-
马上又是金三银四啦,有蛮多小伙伴在跳槽找工作,但对于年限稍短的软件测试工程师,难免会需要进行笔试,而在笔试中,基本都会碰到一道关于数据库的大题,今天这篇文章呢,就收录了下最近学员反馈上来的一些数据库笔...
- 用Python开发日常小软件,让生活与工作更高效!附实例代码
-
引言:Python如何让生活更轻松?在数字化时代,编程早已不是程序员的专属技能。Python凭借其简洁易学的特点,成为普通人提升效率、解决日常问题的得力工具。无论是自动化重复任务、处理数据,还是开发个...
- 太牛了!102个Python实战项目被我扒到了!建议收藏!
-
挖到宝了!整整102个Python实战项目合集,从基础语法到高阶应用全覆盖,附完整源码+数据集,手把手带你从代码小白变身实战大神!这波羊毛不薅真的亏到哭!超全项目库,学练一站式搞定这份资...
- Python中的并发编程
-
1.Python对并发编程的支持多线程:threading,利用CPU和IO可以同时执行的原理,让CPU不会干巴巴等待IO完成。多进程:multiprocessing,利用多核CPU...
- Python 也有内存泄漏?
-
1.背景前段时间接手了一个边缘视觉识别的项目,大功能已经开发的差不多了,主要是需要是优化一些性能问题。其中比较突出的内存泄漏的问题,而且不止一处,有些比较有代表性,可以总结一下。为了更好地可视化内存...
- python爬虫之多线程threading、多进程、协程aiohttp批量下载图片
-
一、单线程常规下载常规单线程执行脚本爬取壁纸图片,只爬取一页的图片。importdatetimeimportreimportrequestsfrombs4importBeautifu...
你 发表评论:
欢迎- 一周热门
-
-
python 3.8调用dll - Could not find module 错误的解决方法
-
加密Python源码方案 PyArmor(python项目源码加密)
-
Python3.8如何安装Numpy(python3.6安装numpy)
-
大学生机械制图搜题软件?7个受欢迎的搜题分享了
-
编写一个自动生成双色球号码的 Python 小脚本
-
免费男女身高在线计算器,身高计算公式
-
将python文件打包成exe程序,复制到每台电脑都可以运行
-
Python学习入门教程,字符串函数扩充详解
-
Python数据分析实战-使用replace方法模糊匹配替换某列的值
-
Python进度条显示方案(python2 进度条)
-
- 最近发表
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)