跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 刚买了阿里云服务器,如果要部署爬虫,需要装哪些?( 服务器小白一枚 )
未分類
30 9 月 2020

刚买了阿里云服务器,如果要部署爬虫,需要装哪些?( 服务器小白一枚 )

刚买了阿里云服务器,如果要部署爬虫,需要装哪些?( 服务器小白一枚 )

資深大佬 : Colorful 2

今天刚买了阿里云的服务器,是 Linux 系统

现在的需求是想把自己电脑上的爬虫功能部署到服务器上,然后定时爬取数据

所以想请教下,我需要装哪些? 我只知道要装 python,其它的就不太清楚

希望有大神能够指教一下 说的越详细越好。 我可以自己去找资料,然后看下怎么弄、

大佬有話說 (15)

  • 資深大佬 : cccp2020

    一个爬虫脚本 xxx.py
    然后爬下来的数据放到哪里? — 可能需要 mysql 或者其他数据库
    然后定时任务调用脚本就行

    以后是否需要监控一类的,根据业务发展在看吧

  • 資深大佬 : cherbim

    我有个问题啊?你买的带宽不会是 1M 的吧?

  • 資深大佬 : cherbim

    @cherbim 补充一点,一般需要 python3 和 pip3 就行(系统自带的 python2.7,你需要自己安装 python3 和程序依赖的库),其他的没啥了,你电脑上怎么用,服务器上就怎么用,毕竟 python 可以跨平台使用,对了,下载路径要改一下,改成 linux 格式的
    定时的话你需要了解一下 crontab

  • 資深大佬 : lower

    那你干嘛不买个 win 系统的主机?

  • 資深大佬 : wzzzx

    你自己开发的电脑是怎样的,就弄成怎样的呗

  • 資深大佬 : Atukey

    装上 python 然后用 linux 自带的定时任务就行了
    服务器跑爬虫如果被封 IP 就很难受

  • 資深大佬 : heiheidewo

    记住爬数据的时候别爬太快了。谁爬我的数据爬快了就直接投毒

  • 主 資深大佬 : Colorful

    @cherbim 好像是 1M 的,最便宜的那种

  • 主 資深大佬 : Colorful

    @cccp2020 监控,暂时不加了,毕竟我是小白一枚,越简单越好。
    爬下来的数据,放到 mysql 库里面

  • 資深大佬 : antic

    @Colorful 那就装个 mysql 配置下

  • 資深大佬 : herozzm

    ip 库要到位,坐牢的心态也要摆正

  • 主 資深大佬 : Colorful

    @herozzm 我又不爬敏感信息

  • 資深大佬 : juziss

    IP 长时间访问时有可能会被封的,跟敏不敏感数据没关系。有些可能会直接把云服务器的 IP 给封了,这情况你怎么处理,还有我估计你的云服务器也没多贵,你的容量估计不乐观,你考虑存储的问题吗?

  • 資深大佬 : wjx0912

    scrapy

  • 主 資深大佬 : Colorful

    @juziss 没想过那么多了。因为我对服务器这块完全是小白

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具