跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 请问一下各位,有针对 Github 本身的爬虫吗?
未分類
18 5 月 2020

请问一下各位,有针对 Github 本身的爬虫吗?

请问一下各位,有针对 Github 本身的爬虫吗?

資深大佬 : Humbert 64

最近需要做一个 Github 的软件(毕业设计),需要大量爬各种 issue、pull request 等的信息,5000 次每小时的 Github API 频率完全不够用。
想问下有没有封装好的有关 Github 的爬虫?谷歌上搜到的都是 Github 上的爬虫库项目
没有的话就去自己写了..

大佬有話說 (18)

  • 資深大佬 : phpfpm

    你写个脚本注册账号生成 api token 不就得了。。

    另,我记得如果不登录(没 token )访问 api 的话有次数限制,有 token 还会有限制吗?

  • 資深大佬 : JasonEWNL

    一个 JS 一个 Ruby 的库,都是 GitHub 上的 GitHub API 库。

    https://github.com/github-tools/github
    https://github.com/piotrmurach/github

  • 資深大佬 : tikazyq

    自己写吧,很简单的,用 scrapy 的 CrawlSpider,注意反爬限制

  • 資深大佬 : charlieputon

    github 不是有 api 吗。。不过是 graphql 的。。

  • 資深大佬 : VDimos

    github 是公开 api 的吧

  • 資深大佬 : cmqwan

    github 不让爬,有 robots 协议。

  • 資深大佬 : iYu

    5000 次每小时的 Github API 频率完全不够用。 确认是毕业设计么?如果是的话,感觉有点厉害啊。 这是需要多少数据啊。爬个几天几夜都不够么。

  • 資深大佬 : oott123

    你可以从这两个数据源获取数据:

    GHTorrent: http://ghtorrent.org/downloads.html
    GH Archive: https://www.gharchive.org/

    他们提供了丰富的数据信息,较为方便的查询方式,以及简单的归档下载功能。不用自己爬……

  • 主 資深大佬 : Humbert

    @phpfpm 好的,感觉是个办法 hh

  • 主 資深大佬 : Humbert

    @charlieputon 也有 RESTful 的,但是次数有点限制

  • 主 資深大佬 : Humbert

    @cmqwan 好的,我还是考虑从 API 层面解决吧

  • 主 資深大佬 : Humbert

    @iYu 因为这个之后导师要用的,所以得考虑下数据量大的情况..

  • 主 資深大佬 : Humbert

    @oott123 !谢谢

  • 主 資深大佬 : Humbert

    @phpfpm 是有的,5000 次每小时

  • 資深大佬 : sunwei0325

    有个同事把代码传到 github 上, 公司安全部门很快就发现并通报了, 估计是自己实现的吧

  • 資深大佬 : everydaystruggle

    主或者主导师是做 mining software repository 的么?

  • 資深大佬 : lazygod

    @sunwei0325 用公司的电脑上床有记录的

  • 資深大佬 : SampleNaive

    当然有啊,不然那些动不动几千 star,才几十个 issue 的项目怎么来的?

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具