Python_标签_开发者_华为云

博客(13.2k)
视频(18)
论坛(0)
云声(0)
代码示例(208)

[Python3 网络爬虫开发实战] 3.1 - 使用 urllib
在 Python 2 中，有 urllib 和 urllib2 两个库来实现请求的发送。而在 Python 3 中，已经不存在 urllib2 这个库了，统一为 urllib，其官方文档链接为：https://docs.python.org/3/library/urllib.html。首先，了解一下 urllib 库，它是 Python 内置的 HTTP 请求库，也就是说...

崔庆才丨静觅
发表于2021-05-22 01:51:44
2851 0 0

2.8k 0 0

在 Python 2 中，有 urllib 和 urllib2 两个库来实现请求的发送。而在 Python 3 中，已经不存在 urllib2 这个库了，统一为 urllib，其官方文档链接为：https://docs.python.org/3/library/urllib.html。首先，了解一下 urllib 库，它是 Python 内置的 HTTP 请求库，也就是说...
Python 网络
Python 爬虫进阶三之 Scrapy 框架安装配置
初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了，不过还有更加强大的工具，爬虫框架 Scrapy，这安装过程也是煞费苦心哪，在此整理如下。 Windows 平台：我的系统是 Win7，首先，你要有 Python，我用的是 2.7.7 版本，Python3 相仿，只是一些源文件不同。官网文档：http://doc.scrapy.org/e...

崔庆才丨静觅
发表于2021-05-22 01:51:37
3713 0 0

3.7k 0 0

初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了，不过还有更加强大的工具，爬虫框架 Scrapy，这安装过程也是煞费苦心哪，在此整理如下。 Windows 平台：我的系统是 Win7，首先，你要有 Python，我用的是 2.7.7 版本，Python3 相仿，只是一些源文件不同。官网文档：http://doc.scrapy.org/e...
http Python Scrapy
[Python3 网络爬虫开发实战] 5.3.2-Redis 存储
Redis 是一个基于内存的高效的键值型非关系型数据库，存取效率极高，而且支持多种存储数据结构，使用也非常简单。本节中，我们就来介绍一下 Python 的 Redis 操作，主要介绍 RedisPy 这个库的用法。 1. 准备工作在开始之前，请确保已经安装好了 Redis 及 RedisPy 库。如果要做数据导入 / 导出操作的话，还需要安装 RedisDump。如果没有...

崔庆才丨静觅
发表于2021-05-22 01:39:13
3086 0 0

3.0k 0 0

Redis 是一个基于内存的高效的键值型非关系型数据库，存取效率极高，而且支持多种存储数据结构，使用也非常简单。本节中，我们就来介绍一下 Python 的 Redis 操作，主要介绍 RedisPy 这个库的用法。 1. 准备工作在开始之前，请确保已经安装好了 Redis 及 RedisPy 库。如果要做数据导入 / 导出操作的话，还需要安装 RedisDump。如果没有...
Python Redis
[Python3 网络爬虫开发实战] 1.8 - 爬虫框架的安装
我们直接用 Requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久而久之，爬虫框架就诞生了。利用框架，我们可以不用再去关心某些功能的具体实现，只需要关心爬取逻辑即可。有了它们，可以大大简化代码量，而且...

崔庆才丨静觅
发表于2021-05-22 01:34:44
2943 0 0

2.9k 0 0

我们直接用 Requests、Selenium 等库写爬虫，如果爬取量不是太大，速度要求不高，是完全可以满足需求的。但是写多了会发现其内部许多代码和组件是可以复用的，如果我们把这些组件抽离出来，将各个功能模块化，就慢慢会形成一个框架雏形，久而久之，爬虫框架就诞生了。利用框架，我们可以不用再去关心某些功能的具体实现，只需要关心爬取逻辑即可。有了它们，可以大大简化代码量，而且...
Python 网络
[Python3 网络爬虫开发实战] 6-Ajax 数据爬取
有时候我们在用 requests 抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档，而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果，这些数据的来源有多种，可能是通过 Ajax 加载的，可能是包含在 HT...

崔庆才丨静觅
发表于2021-05-22 01:29:23
6036 0 0

6.0k 0 0

有时候我们在用 requests 抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档，而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果，这些数据的来源有多种，可能是通过 Ajax 加载的，可能是包含在 HT...
Ajax Python 网络
[Python3 网络爬虫开发实战] 1.6.2-Tornado 的安装
Tornado 是一个支持异步的 Web 框架，通过使用非阻塞 I/O 流，它可以支撑成千上万的开放连接，效率非常高，本节就来介绍一下它的安装方式。 1. 相关链接 GitHub：https://github.com/tornadoweb/tornado PyPI：https://pypi.python.org/pypi/tornado 官方文档：http://www....

崔庆才丨静觅
发表于2021-05-22 01:28:59
6276 0 0

6.2k 0 0

Tornado 是一个支持异步的 Web 框架，通过使用非阻塞 I/O 流，它可以支撑成千上万的开放连接，效率非常高，本节就来介绍一下它的安装方式。 1. 相关链接 GitHub：https://github.com/tornadoweb/tornado PyPI：https://pypi.python.org/pypi/tornado 官方文档：http://www....
Python Tornado 网络
[Python3 网络爬虫开发实战] 1.2.3-ChromeDriver 的安装
前面我们成功安装好了 Selenium 库，但是它是一个自动化测试工具，需要浏览器来配合使用，本节中我们就介绍一下 Chrome 浏览器及 ChromeDriver 驱动的配置。首先，下载 Chrome 浏览器，方法有很多，在此不再赘述。随后安装 ChromeDriver。因为只有安装 ChromeDriver，才能驱动 Chrome 浏览器完成相应的操作。下面我们来介...

崔庆才丨静觅
发表于2021-05-22 01:27:17
3442 0 0

3.4k 0 0

前面我们成功安装好了 Selenium 库，但是它是一个自动化测试工具，需要浏览器来配合使用，本节中我们就介绍一下 Chrome 浏览器及 ChromeDriver 驱动的配置。首先，下载 Chrome 浏览器，方法有很多，在此不再赘述。随后安装 ChromeDriver。因为只有安装 ChromeDriver，才能驱动 Chrome 浏览器完成相应的操作。下面我们来介...
Python 网络
[Python3 网络爬虫开发实战] 1.5.4-RedisDump 的安装
RedisDump 是一个用于 Redis 数据导入 / 导出的工具，是基于 Ruby 实现的，所以要安装 RedisDump，需要先安装 Ruby。 1. 相关链接 GitHub：https://github.com/delano/redis-dump 官方文档：http://delanotes.com/redis-dump 2. 安装 Ruby 有关 Ruby 的...

崔庆才丨静觅
发表于2021-05-22 01:23:39
2747 0 0

2.7k 0 0

RedisDump 是一个用于 Redis 数据导入 / 导出的工具，是基于 Ruby 实现的，所以要安装 RedisDump，需要先安装 Ruby。 1. 相关链接 GitHub：https://github.com/delano/redis-dump 官方文档：http://delanotes.com/redis-dump 2. 安装 Ruby 有关 Ruby 的...
Python 网络
Python 爬虫利器三之 Xpath 语法与 lxml 库的用法
前言前面我们介绍了 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath。参考来源 lxml 用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对其进行翻...

崔庆才丨静觅
发表于2021-05-22 01:16:54
4509 0 0

4.5k 0 0

前言前面我们介绍了 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath。参考来源 lxml 用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对其进行翻...
Python XML 弹性文件服务 SFS
[Python3 网络爬虫开发实战] 2.3 - 爬虫的基本原理
我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。 1. 爬虫概述...

崔庆才丨静觅
发表于2021-05-22 01:08:15
2967 0 0

2.9k 0 0

我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。 1. 爬虫概述...
Python 网络
[Python3 网络爬虫开发实战] 后续章节
本书此部分内容属进阶内容，暂不开放。如需查看更多可以购买书籍查看。购买地址： https://item.jd.com/26114674847.html https://item.jd.com/26124473455.html 本书由图灵教育 - 人民邮电出版社出版发行。作者：崔庆才视频学习资源：自己动手，丰衣足食！Python3 网络爬虫实战案例 Python3...

崔庆才丨静觅
发表于2021-05-22 01:06:32
2765 0 0

2.7k 0 0

本书此部分内容属进阶内容，暂不开放。如需查看更多可以购买书籍查看。购买地址： https://item.jd.com/26114674847.html https://item.jd.com/26124473455.html 本书由图灵教育 - 人民邮电出版社出版发行。作者：崔庆才视频学习资源：自己动手，丰衣足食！Python3 网络爬虫实战案例 Python3...
Python 网络
Python 中拼音库 PyPinyin 的用法
最近碰到了一个问题，项目中很多文件都是接手过来的中文命名的一些素材，结果在部署的时候文件名全都乱码了，导致项目无法正常运行。后来请教了一位大佬怎么解决文件名乱码的问题，他说这个需要正面解决吗？不需要，把文件名全部改掉，文件名永远不要用中文，永远不要。我想他这么说的话，一定也是凭经验得出来的。这里也友情提示大家，项目里面文件永远不要用中文，永远不要！好，那不用中文用啥...

崔庆才丨静觅
发表于2021-05-22 01:06:20
5341 0 0

5.3k 0 0

最近碰到了一个问题，项目中很多文件都是接手过来的中文命名的一些素材，结果在部署的时候文件名全都乱码了，导致项目无法正常运行。后来请教了一位大佬怎么解决文件名乱码的问题，他说这个需要正面解决吗？不需要，把文件名全部改掉，文件名永远不要用中文，永远不要。我想他这么说的话，一定也是凭经验得出来的。这里也友情提示大家，项目里面文件永远不要用中文，永远不要！好，那不用中文用啥...
Python 机器翻译
[Python3 网络爬虫开发实战] 1.6-Web 库的安装
对于 Web，我们应该都不陌生，现在日常访问的网站都是 Web 服务程序搭建而成的。Python 同样不例外，也有一些这样的 Web 服务程序，比如 Flask、Django 等，我们可以拿它来开发网站和接口等。在本书中，我们主要使用这些 Web 服务程序来搭建一些 API 接口，供我们的爬虫使用。例如，维护一个代理池，代理保存在 Redis 数据库中，我们要将代理池作为...

崔庆才丨静觅
发表于2021-05-22 00:54:48
3191 0 0

3.1k 0 0

对于 Web，我们应该都不陌生，现在日常访问的网站都是 Web 服务程序搭建而成的。Python 同样不例外，也有一些这样的 Web 服务程序，比如 Flask、Django 等，我们可以拿它来开发网站和接口等。在本书中，我们主要使用这些 Web 服务程序来搭建一些 API 接口，供我们的爬虫使用。例如，维护一个代理池，代理保存在 Redis 数据库中，我们要将代理池作为...
Python 前端网络
Python 爬虫进阶一之爬虫框架概述
综述爬虫入门之后，我们有两条路可以走。一个是继续深入学习，以及关于设计模式的一些知识，强化 Python 相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本的爬虫任务，也就是所谓的解决温饱问题，然后再深入学习它的源码等知识，进一步强化。就个人而言，前一种方法其实就是自己动手...

崔庆才丨静觅
发表于2021-05-22 00:52:29
4071 0 0

4.0k 0 0

综述爬虫入门之后，我们有两条路可以走。一个是继续深入学习，以及关于设计模式的一些知识，强化 Python 相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本的爬虫任务，也就是所谓的解决温饱问题，然后再深入学习它的源码等知识，进一步强化。就个人而言，前一种方法其实就是自己动手...
Python Scrapy
Python 爬虫利器一之 Requests 库的用法
前言之前我们用了 urllib 库，这个作为入门的工具还是不错的，对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。注：Python 版本依然基于 2.7 官方文档以下内容大多来自于官方文档，本文进行了一些修改和总结。要了解更多可以参考官方...

崔庆才丨静觅
发表于2021-05-22 00:51:41
3439 0 0

3.4k 0 0

前言之前我们用了 urllib 库，这个作为入门的工具还是不错的，对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。注：Python 版本依然基于 2.7 官方文档以下内容大多来自于官方文档，本文进行了一些修改和总结。要了解更多可以参考官方...
https Python

上滑加载中

推荐直播

热门标签

Java Python 数据结构数据库 Linux 机器学习网络任务调度 MySQL JavaScript