可以把一些 Python 开源项目当作第三方 Python 库来使用么?
道路 1:学习 python 的爬虫知识,包括各种第三方爬虫库的使用,如何使用打码平台进行登录验证。如何做爬虫调度,如何针对目标网站的反扒机制针对性的克服反爬等等。其实就是使用他人积累的知识和写好的库实现自己的目的。你说完全可控么?好像也不尽然?那些库不支持的功能你有什么办法么?即使那些库都是开源的你会去看源码,改源码么?比较流行的库比如说 numpy 使用过程中遇到问题在网上搜索或者发帖求助应该会容易获得有用信息吧?我猜也很少有人去看 numpy 的源码寻求解决办法。
道路 2:github 上有个爬取大众点评内容的开源项目。从名字上开至少是针对大众点评开发的。按理说如何登录大众点评,如何克服反爬。包括爬下来的数据存储。这些问题都解决了。虽然未必 100%符合你的需求。但是感觉上应该比道路 1 要省心省力吧。一个硬币两面。因为他已经针对大众点评”定制化开发了“。所以也比较小众了。使用过程中遇到问题,发帖或搜索到有用相关信息的概率也比较低。大概率你要自己看源码消化吸收后自己设法解决。考虑到这些因素后于道路 1 相比,道路 2 还是好的选择么?更何况针对性这么强的一个开源项目,是否好用,也未可知,万一是个坑呢?如何识别是不是坑呢?
以上是我思考时想到的问题。想知道各位论坛大佬在面对以上问题时如何抉择?如何看待以上两条路,哪条路学习成本低?后期维护成本低?有过经历的欢迎现身说法。
以上我思考中反映出的一些认知偏差,还望各位读者指正!