未分類

22 11 月 2020

请教一下系统中的计算量大且耗时久的模块如何优化的问题？& uwsgi 优化

请教一下系统中的计算量大且耗时久的模块如何优化的问题？& uwsgi 优化

資深大佬 : yellowmarlboro 4

系统有三个部分 A > B > C
- A 拉多个数据，数据之间有依赖，例如数据 1 会和数据 2 做简单计算，这里用了类似有向无环图的思想，请求异步，速度可以接受，消耗资源当然不大。
- B 对 A 的数据结果做计算，这里计算的不同在于，这些计算模块大多为 pandas 和 sklearn 的操作，其他部门同学封装好的包，B 部分会占用极大的 cpu 资源，而且相当耗时。
- C 类似于 A，需要 B 的结果，然后简单计算。
A，B，C 是三个不同的服务（其实 C 在这里不太重要了）。最近请求量增多，今天 B 的其中一台机器扛不住几乎要挂，不过请求分布是有明显高峰期的，低峰就没问什么问题。另外，B 就是一个个的数据处理分别调用，没有其他的复杂逻辑，生产是 nginx+uwsgi+flask 。
之前没有接触过这种结构的项目，也没有什么架构经验，所以问题可能比较 easy~

Q1 这种架构上有没有其他更好的的方式？（舍弃及时性，正常运行即可，比如给 B 加个队列，高峰期大不了算慢一点，低峰期慢慢消化类似的？）

Q2 对于这种计算密集型有没有什么通用可优化方法？比如在 uwsgi 上？或者其他方面的？（ uwsgi 自己从文档里找到用的提升都不大…）

大佬有話說 (1)

資深大佬 : Aliencn

A1:
celery 做异步处理
如果高峰期也想加快处理的话，利用云计算的弹性，临时起一堆服务器实例作为 work 加入。

A2:
这个要看具体需求了。
比如一般脚本语言效率低，不适合做密集计算型的任务
还有就是换一些更适合做大数据计算的框架，比如 hadoop