文科生坐拥 20 台高配服务器,该怎么好好利用?
有点标题党了,事实是这样的,我正在某学校文科学院担任研究助理。大数据的火热让不少文科专业也开始跟风,我所在的实验室的设备确实给力,20 台服务器,每台服务器有 256G 内存,4T 固态硬盘存储。
然而管实验室的老师是文科出生,Linux,Python, Spark, Hadoop 等都只是了解功能,技术细节并不懂。我们实验室之前有另外一名专职的科研助理,他统计学背景的,爬虫做得不错,服务器在跑的几个爬虫任务都是他一手搭建的。不过最近他离职了(毕竟 IT 公司给的薪资比学校高多了),爬虫的任务时不时出现问题还要找他远程帮忙解决。
前段时间我们的服务器被学校的网络中心检测到有僵尸网络入侵,我们找供应商帮忙看是什么原因。搞了半天最后也只能“治标不治本”地进行 IP 封锁而已。
杂七杂八地说那么多,我也不知道我想说什么,我只是觉得好暴殄天物啊,200 万的机器,监测环境没有,用户管理一团糟。数据分析现在我们用单机就能暂时解决了,分布式系统都没怎么利用。
我好愧疚啊,毕竟这些机器都是国家掏的钱,并不能做到物尽其用。听说今年还有一百万的经费下来,要购置一批 GPU 服务器。
各位 V 友对我有什么建议吗?我也是纯文科生,熟练使用 R 语言,Python 入门。我应该怎样做才能提高这些服务器的利用效果,例如我们的服务器需要装什么东西好让服务器运转地更合理科学?我应该努力学习哪些方面的知识?多说一句,我的研究方向是计算社会科学。
我现在用着实验室内存 500G,价格 20 万的工作站发帖,感觉硬件条件好到让我这小白好惭愧。