跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 常见的 Python 爬虫架构有哪些?
未分類
15 11 月 2020

常见的 Python 爬虫架构有哪些?

常见的 Python 爬虫架构有哪些?

資深大佬 : fanqieip 0

目前实现爬虫技术的编程环境有很多种,Java 、Python 、C++等都可以用来写爬虫。但很多人选择 Python 来写爬虫,原因是 Python 确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实现你想要的功能。更重要的,Python 也是数据挖掘和分析的好能手。那么,常见的 Python 爬虫架构有哪些呢?今天番茄加速就来跟大家聊一聊。

1 、Scrapy

Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架,可以满足简单的页面爬取,比如可以明确获知 url pattern 的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如 weibo 的页面信息,这个框架就满足不了需求了。它的特性有:HTML, XML 源数据 选择及提取 的内置支持;提供了一系列在 spider 之间共享的可复用的过滤器(即 Item Loaders),对智能处理爬取数据提供了内置支持。

2 、Beautiful Soup

名气大,整合了一些常用爬虫需求。它是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的式.Beautiful Soup 会帮你节省数小时甚至数天的工作时间。Beautiful Soup 的缺点是不能加载 JS 。

3 、selenium

这是一个调用浏览器的 driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。Selenium 是自动化测试工具,它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果在这些浏览器里面安装一个 Selenium 的插件,可以方便地实现 Web 界面的测试. Selenium 支持浏览器驱动。Selenium 支持多种语言开发,比如 Java,C,Ruby 等等,PhantomJS 用来渲染解析 JS,Selenium 用来驱动以及与 Python 的对接,Python 进行后期的处理。

4 、Portia

是一个开源可视化爬虫工具,可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面,Portia 将创建一个蜘蛛来从类似的页面提取数据。简单来讲,它是基于 scrapy 内核;可视化爬取内容,不需要任何开发专业知识;动态匹配相同模板的内容。

5 、cola

是一个分布式的爬虫框架,对于用户来说,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。项目整体设计有点糟,模块间耦合度较高。

6 、PySpider

一个国人编写的强大的网络爬虫系统并带有强大的 WebUI 。采用 Python 语言编写,分布式架构,支持多种数据库后端,强大的 WebUI 支持脚本编辑器,任务监视器,项目管理器以及结果查看器。Python 脚本控制,可以用任何你喜欢的 html 解析包。

以上就是六种比较常见的 Python 爬虫框架,你目前使用的是哪一款呢?

大佬有話說 (1)

  • 資深大佬 : tikazyq

    没什么架构,面向监狱就对了

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具