跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • Macos 上有没有好用的图形化采集工具/爬虫
未分類
15 2 月 2020

Macos 上有没有好用的图形化采集工具/爬虫

Macos 上有没有好用的图形化采集工具/爬虫

資深大佬 : c0py7hat 15

临时需要爬点东西,python 懂得很少很少,因为不怎么用到爬虫之类的

临时需要爬取点东西,直接就是保存当前页面源码为 html 格式到本地就行

我看火车头没有 mac 版本,后羿那玩意也得需要 py 还要钱,我的量比较大

大概百万以上

有么有大佬推荐下

大佬有話說 (27)

  • 資深大佬 : airfling

    idm 你找下

  • 主 資深大佬 : c0py7hat

    @airfling 。。idm 也能爬取东西?

  • 資深大佬 : neoblackcap

    要不报个价?免费大概满足不了你,毕竟你都上百万了

  • 資深大佬 : ostrichb

    idm 不是 Windows only?

  • 資深大佬 : wolfan

    pySpider 应该符合你的要求,就是到高版本 Python 支持不好。

  • 主 資深大佬 : c0py7hat

    @wolfan 正在看

  • 主 資深大佬 : c0py7hat

    @neoblackcap 我不懂这个价格,你说,我自己瞎写了个 py 脚本,但是没多线程啥的 速度太慢了

  • 資深大佬 : siknet

    虚拟机搭个 WIN7 ?

  • 資深大佬 : zdnyp

    上百万的数据,不知道用不用代-理,用代-理还要买。八爪鱼和弓箭手都有网页版的,就是你写规则,他来跑采集,量小貌似免费。

  • 資深大佬 : huruwo

    请个外包搞下 自己折腾时间成本太高了

  • 主 資深大佬 : c0py7hat

    @siknet 。。。吐血

  • 主 資深大佬 : c0py7hat

    @zdnyp 那估计不行 预计量 300w+

  • 主 資深大佬 : c0py7hat

    @huruwo 那估计不便宜。。

  • 資深大佬 : yinzhili

    你装个 Win10 不就完了吗

  • 資深大佬 : clemente0620

    报个价把

  • 主 資深大佬 : c0py7hat

    @clemente0620 我不懂这个,你说吧,加个多线程啥的 速度变快那种

  • 資深大佬 : also24

    wget -i url.txt 这样?

  • 資深大佬 : also24

    诶,没注意到还要多线程?
    那就 aria2c –max-concurrent-downloads=10 –input-file=download-list.txt 这样?

    如果还要套代理的话,买个隧道代理,自动切换多省心~

  • 主 資深大佬 : c0py7hat

    @also24 不是 我是自己瞎写了个 py 爬虫脚本,就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了 我不会弄那个什么多线程啥的

  • 資深大佬 : vhysug01

    scrapy 入门一个下午就行,简单无脑。高级的你这种情况也不需要

  • 資深大佬 : also24

    @c0py7hat #19
    重点在于:
    1 、是否需要配置大量的请求参数
    2 、是否存在限制 IP 、链接时效性之类的

    如果没有太多限制的话,可以自己只写拆 URL 出来的那部分,然后把需要下载的页面的 URL 灌入 aria2c 的 RPC API 来添加任务,多线程的部分就交给 aria2c 来处理。

    如果确实涉及到比较多的流程需要敲代码来搞下载部分,那建议碰一下 aiohttp 这个库:
    https://docs.aiohttp.org/en/stable/

  • 資深大佬 : wangyzj

    图形化?
    虚机搞 win10
    装个火车头

  • 主 資深大佬 : c0py7hat

    @also24 好的 多谢

  • 資深大佬 : charlie21

    爬虫无脑 wget

  • 資深大佬 : tikazyq

    crawlab 的可配置爬虫了解一下?

  • 資深大佬 : gen900

    curl 了解一下

  • 資深大佬 : Cmdhelp

    python

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具