@fixend 感觉专精几门语言太有必要了。就像我最开始写 Java,接口,抽象类那些根本不晓得是啥子东西,Struts2 配置文件经常乱写,注解见到函数就想给个 @ 。后来写 Python,才慢慢理解抽象,面向对象,继承,封装,多态。
个人认为,学习有两大派,一种是专一派,就按着一个使劲,比如,花花世界万般好,我独爱 c++,这样最终一力降十会,由点到面,成为宗师;另一种是,天涯何处无芳草,何必单恋一枝花。学的多而杂,最终量变引起质变,由面到点,也是一代名家。
现在学科交叉性太强了,只会一种可能不会饿死,但也不会太安逸。我最近想爬虫的一个思路就是自动化,傻瓜式爬虫。个人认为爬虫的一套基本流程就是 get_url, parse_content, get_data, dump_data 。这样完全可以把爬虫和 web 框架结合,把 start_urls,get_content,dump_database (可选)形成接口,暴露出来,让用户自己选择爬取的 url,想获取啥,存储于何处( Django 做展示页面的工作,用户只需要点点点就可以,不用了解代码和原理,这对应傻瓜式爬虫)。然后封装在内部的代码自动完成一系列操作。甚至如果和 ML,DL 结合,用户只需要告诉程序你想获取啥,不用用户点点点,程序自动执行全部流程。
那时候可能简单的爬虫岗位已经不需要人力了,只有复杂的爬虫才需要人力岗。
当然,这只是我的一个简单的想法,具体实现过程肯定有很多复杂的代码逻辑。如果以后有机会,我想去试着做一下这样的开源框架。