- 本篇博客复盘一下 scrapy 相关知识,首先从 Resquest 和 Response 对象开始。 Request 对象在 scrapy 中 Request 对象代表着请求,即向服务器发送数据,该对象的构造函数原型如下所示:def __init__(self, url, callback=None, method='GET', headers=None, body=None, ... 本篇博客复盘一下 scrapy 相关知识,首先从 Resquest 和 Response 对象开始。 Request 对象在 scrapy 中 Request 对象代表着请求,即向服务器发送数据,该对象的构造函数原型如下所示:def __init__(self, url, callback=None, method='GET', headers=None, body=None, ...
- scrapy 中的 settings.py 文件在项目中是非常重要的,因其包含非常多的配置。这篇博客基于官方手册为你说明 settings.py 文件相关配置,并补充一些扩展说明。 settings 的 4 个级别优先级最高 - 命令行,例如 scrapy crawl my_spider -s LOG_LEVEL=WARNINI;优先级第二 - 爬虫文件自己的设置,例如在 xxx.py 文件... scrapy 中的 settings.py 文件在项目中是非常重要的,因其包含非常多的配置。这篇博客基于官方手册为你说明 settings.py 文件相关配置,并补充一些扩展说明。 settings 的 4 个级别优先级最高 - 命令行,例如 scrapy crawl my_spider -s LOG_LEVEL=WARNINI;优先级第二 - 爬虫文件自己的设置,例如在 xxx.py 文件...
- 这篇博客咱们聊聊 scrapy 中的 Downloader Middleware ,即下载中间件相关知识。 Downloader Middlerware首先看一下中间件在 scrapy 数据流中的位置,下图黑色箭头即下载中间件。结合上图就能看出来, Requests 和 Response 都会通过 Downloader Middlerware,所以在后续代码编写的时候需要注意该点。中间件的开... 这篇博客咱们聊聊 scrapy 中的 Downloader Middleware ,即下载中间件相关知识。 Downloader Middlerware首先看一下中间件在 scrapy 数据流中的位置,下图黑色箭头即下载中间件。结合上图就能看出来, Requests 和 Response 都会通过 Downloader Middlerware,所以在后续代码编写的时候需要注意该点。中间件的开...
- 这篇博客补充一下 scrapy 选择器相关知识。 scrapy 选择器scrapy 框架自带数据提取机制,相关内容被称为选择器 seletors,其通过 XPath,CSS 表达式可以选择 HTML 中的指定部分。scrapy 选择器是基于 parsel 库实现的,该库也是一个解析库,底层使用的是 lxml,所以它的用法和效率都接近 lxml,在《爬虫 120 例》专栏后续部分,会针对性的补... 这篇博客补充一下 scrapy 选择器相关知识。 scrapy 选择器scrapy 框架自带数据提取机制,相关内容被称为选择器 seletors,其通过 XPath,CSS 表达式可以选择 HTML 中的指定部分。scrapy 选择器是基于 parsel 库实现的,该库也是一个解析库,底层使用的是 lxml,所以它的用法和效率都接近 lxml,在《爬虫 120 例》专栏后续部分,会针对性的补...
- 作为一个程序员,经常接到一些实体行业朋友提出的奇妙需求,例如本博客,一个饲料添加剂行业的朋友,需要一点点资料,让我给他弄一份。部分数据未公开,博客中仅公开部分数据。本文由于数据请求方法是 POST ,恰好可以和 scrapy 学习相匹配 目标站点分析本次要采集的站点是 食品安全信息查询平台-食安通(食品安全网),该页面数据如下所示。经过测试得到的数据请求接口及参数如下:# 请求地址http:... 作为一个程序员,经常接到一些实体行业朋友提出的奇妙需求,例如本博客,一个饲料添加剂行业的朋友,需要一点点资料,让我给他弄一份。部分数据未公开,博客中仅公开部分数据。本文由于数据请求方法是 POST ,恰好可以和 scrapy 学习相匹配 目标站点分析本次要采集的站点是 食品安全信息查询平台-食安通(食品安全网),该页面数据如下所示。经过测试得到的数据请求接口及参数如下:# 请求地址http:...
- 0、准备工作右击新建的项目,选择Python File,新建一个Python文件,然后在开头import cv2导入cv2库,import numpy并且重命名为np。import cv2import numpy as np我们还要知道在OpenCV中,坐标轴的方向是x轴向右,y轴向下,坐标原点在左上角,比如下面这张长为640像素,宽为480像素的图片。OK,下面开始本节的学习吧。 1、水... 0、准备工作右击新建的项目,选择Python File,新建一个Python文件,然后在开头import cv2导入cv2库,import numpy并且重命名为np。import cv2import numpy as np我们还要知道在OpenCV中,坐标轴的方向是x轴向右,y轴向下,坐标原点在左上角,比如下面这张长为640像素,宽为480像素的图片。OK,下面开始本节的学习吧。 1、水...
- 0、准备工作右击新建的项目,选择Python File,新建一个Python文件,然后在开头import cv2导入cv2库,import numpy并且重命名为np。import cv2import numpy as np我们还要知道在OpenCV中,坐标轴的方向是x轴向右,y轴向下,坐标原点在左上角,比如下面这张长为640像素,宽为480像素的图片。OK,下面开始本节的学习吧。 1、绘... 0、准备工作右击新建的项目,选择Python File,新建一个Python文件,然后在开头import cv2导入cv2库,import numpy并且重命名为np。import cv2import numpy as np我们还要知道在OpenCV中,坐标轴的方向是x轴向右,y轴向下,坐标原点在左上角,比如下面这张长为640像素,宽为480像素的图片。OK,下面开始本节的学习吧。 1、绘...
- 【Python训练营】Python每日一练----第19天:平面分割(数学分析) 【Python训练营】Python每日一练----第19天:平面分割(数学分析)
- 【Python训练营】Python每日一练----第18天:贪吃蛇长度(三引号用法) 【Python训练营】Python每日一练----第18天:贪吃蛇长度(三引号用法)
- 1. 简介数据格式:包含了DataFram和Series两种高级的数据结构,帮助我们方便地处理excel文件或csv文件,使用方便,功能强大日期处理,时间序列处理,结合python中Datatime模块使用文件操作,非常方便地操作csv/excel/txt文件,读/写非常简单数据分析,pandas为数据分析而生,集成了很多方法帮助我们处理和分析数据2. pandas中的数据结构2.1. Se... 1. 简介数据格式:包含了DataFram和Series两种高级的数据结构,帮助我们方便地处理excel文件或csv文件,使用方便,功能强大日期处理,时间序列处理,结合python中Datatime模块使用文件操作,非常方便地操作csv/excel/txt文件,读/写非常简单数据分析,pandas为数据分析而生,集成了很多方法帮助我们处理和分析数据2. pandas中的数据结构2.1. Se...
- 如果使用asyncio + httpx实现并发请求,怎么限制请求的频率呢?怎么限制最多只能有 x 个请求同时发出呢? 如果使用asyncio + httpx实现并发请求,怎么限制请求的频率呢?怎么限制最多只能有 x 个请求同时发出呢?
- 图像分割算法有分水岭算法、斑点计数算法、霍夫圆/椭圆算法、轮廓检测算法等。在本文中,本例使用了轮廓检测和分水岭算法。第一步导入依赖from __future__ import print_functionimport numpy as npimport cv2import matplotlib.pyplot as pltfrom skimage import iofrom skimag... 图像分割算法有分水岭算法、斑点计数算法、霍夫圆/椭圆算法、轮廓检测算法等。在本文中,本例使用了轮廓检测和分水岭算法。第一步导入依赖from __future__ import print_functionimport numpy as npimport cv2import matplotlib.pyplot as pltfrom skimage import iofrom skimag...
- 本篇博客的重点为 scrapy 管道 pipelines 的应用,学习时请重点关注。 爬取目标站点分析本次采集的目标站点为:https://www.zaih.com/falcon/mentors,目标数据为在行高手数据。本次数据保存到 MySQL 数据库中,基于目标数据,设计表结构如下所示。对比表结构,可以直接将 scrapy 中的 items.py 文件编写完毕。class Zaihang... 本篇博客的重点为 scrapy 管道 pipelines 的应用,学习时请重点关注。 爬取目标站点分析本次采集的目标站点为:https://www.zaih.com/falcon/mentors,目标数据为在行高手数据。本次数据保存到 MySQL 数据库中,基于目标数据,设计表结构如下所示。对比表结构,可以直接将 scrapy 中的 items.py 文件编写完毕。class Zaihang...
- 在正式编写爬虫案例前,先对 scrapy 进行一下系统的学习。 scrapy 安装与简单运行使用命令 pip install scrapy 进行安装,成功之后,还需要随手收藏几个网址,以便于后续学习使用。scrapy 官网:https://scrapy.org;scrapy 文档:https://doc.scrapy.org/en/latest/intro/tutorial.html;scr... 在正式编写爬虫案例前,先对 scrapy 进行一下系统的学习。 scrapy 安装与简单运行使用命令 pip install scrapy 进行安装,成功之后,还需要随手收藏几个网址,以便于后续学习使用。scrapy 官网:https://scrapy.org;scrapy 文档:https://doc.scrapy.org/en/latest/intro/tutorial.html;scr...
- 这个系列的专栏是为了保持 Python 手感而创建的,你也可以用来学习 Python,因为存在知识跨越难度,所以先学习滚雪球系列为佳。每天学一点,所以本系列专栏,每篇不超过 3000 字(含代码)写着写着发现,这些可能都是面试题哦~ 二分查找问题场景在一个升序的数组中(其实就是一个只有整数的列表),查找一个目标数的下标,不存在返回 -1 。解决思路因为数组是升序的,所以二分查找就能落地了先取... 这个系列的专栏是为了保持 Python 手感而创建的,你也可以用来学习 Python,因为存在知识跨越难度,所以先学习滚雪球系列为佳。每天学一点,所以本系列专栏,每篇不超过 3000 字(含代码)写着写着发现,这些可能都是面试题哦~ 二分查找问题场景在一个升序的数组中(其实就是一个只有整数的列表),查找一个目标数的下标,不存在返回 -1 。解决思路因为数组是升序的,所以二分查找就能落地了先取...
上滑加载中
推荐直播
-
Skill 构建 × 智能创作:基于华为云码道的 AI 内容生产提效方案2026/03/25 周三 19:00-20:00
余伟,华为云软件研发工程师/万邵业(万少),华为云HCDE开发者专家
本次直播带来两大实战:华为云码道 Skill-Creator 手把手搭建专属知识库 Skill;如何用码道提效 OpenClaw 小说文本,打造从大纲到成稿的 AI 原创小说全链路。技术干货 + OPC创作思路,一次讲透!
回顾中 -
码道新技能,AI 新生产力——从自动视频生成到开源项目解析2026/04/08 周三 19:00-21:00
童得力-华为云开发者生态运营总监/何文强-无人机企业AI提效负责人
本次华为云码道 Skill 实战活动,聚焦两大 AI 开发场景:通过实战教学,带你打造 AI 编程自动生成视频 Skill,并实现对 GitHub 热门开源项目的智能知识抽取,手把手掌握 Skill 开发全流程,用 AI 提升研发效率与内容生产力。
回顾中 -
华为云码道:零代码股票智能决策平台全功能实战2026/04/18 周六 10:00-12:00
秦拳德-中软国际教育卓越研究院研究员、华为云金牌讲师、云原生技术专家
利用Tushare接口获取实时行情数据,采用Transformer算法进行时序预测与涨跌分析,并集成DeepSeek API提供智能解读。同时,项目深度结合华为云CodeArts(码道)的代码智能体能力,实现代码一键推送至云端代码仓库,建立起高效、可协作的团队开发新范式。开发者可快速上手,从零打造功能完整的个股筛选、智能分析与风险管控产品。
回顾中
热门标签