Python 怎么多机器执行任务？求推荐框架

資深大佬 : zealinux 3

现在 Python 脚本跑任务跑在一台机器上，已经跑了一天了，还没跑完。

从数据库拿处所有的数据（量非常大）
循环中每条进行处理（这个处理异步请求 api ）
处理后每条再重新更新到数据库中
db commit

感觉应该有办法并行处理

比如：生产者一次性创建所有的任务（ 1 ），然后创建 N 个消费者（可以部署到多台机器上），所有任务入 MQ，然后生产者通过 pull 去拿任务去消费

求推荐的框架或者更好的思路？

大佬有話說 (31)

資深大佬 : fansfans

celery
資深大佬 : Vegetable

你这个任务之间互相独立的话，可以直接在取数据时做筛选，然后脚本直接放在不同的机器上跑。
举个例子，在数据库取数据时，A 机器只取 id % 2 == 1 的，B 取 id % 2 ==0 的，这样就实现了两台机器同时处理互不冲突了鸭

不过，你这个任务貌似还不需要多机器，看起来时 io 密集型的，非阻塞编程可能就够了
資深大佬 : MegrezZhu

spark / map-reduce?
資深大佬 : jiedadada

celery 可以完美解决你的需求,消息队列用 redis 。
主資深大佬 : zealinux

@Vegetable 感谢，但我的 id 是 uuid，还不大好分片。

但是可以用工具分成 1w 个 id 一个数组，然后存成文件，
再把文件拷贝到另一个机器上，或者再起一个脚本进程然后跑。

但是我这种感觉好麻烦
資深大佬 : shoaly

你可以反过来, 不要消费者去取, 而是生产者去调用 … 这样就不会冲突了
資深大佬 : maocat

一台 redis，N 个 celery
資深大佬 : wjidea

我目前做的是 rmq 和 celery 。请问 rmq 和 redis 性能方面有差别吗？
資深大佬 : ch2

为什么不尝试对第二步并行呢？第二步是 IO 密集型还是 CPU 密集型的任务？
資深大佬 : hanssx

celery bug 贼多，用着用着就出现各种问题，解决了一个就会出现另一个，比如 https://github.com/celery/celery/issues/4226，不知道现在 5.x 好点了没，而且定时任务需要重启才能修改，有空可以试试 apscheduler + dramatiq
主資深大佬 : zealinux

@ch2
IO 密集型，我已经做了异步处理，
第二部怎么做并行？

几十万个进程&线程？
这台单机器应该扛不住的
資深大佬 : Mars2333

不知道 faust 合不合适
https://github.com/robinhood/faust
資深大佬 : ch2

@zealinux #11 IO 密集型单机到达带宽上限也是很可观的，多进程不需要，多线程反正 python 的线程只会吃一个核心，开个 64 线程的池子也无所谓
資深大佬 : wuwukai007

celery 跟 redis 搭配，各种问题停不下来，建议跟 rabbitmq 搭配
資深大佬 : MintZX

这个数据量大是有多大？一般情况下遇到极大的数据的情况我们都是直接做快照弄个三四天然后再增量把新增数据处理一下。一天弄不完挺正常的？至于 UUID 的问题可以新建一个 indexed column 写个 procedure 搞一个 int ID 出来。。
資深大佬 : hanyceZ

celery 纯 beat 用了三个月，bug 不断，各种 bug，flower 卡在 started 状态，定时任务重复执行，还有心跳连接错误导致日志爆了。。。服了
資深大佬 : liprais

处理后每条再重新更新到数据库中
积累几万条再一块 load 呗
資深大佬 : lithiumii

rq 吧，celery 我反正是用不明白
資深大佬 : dayeye2006199

这种一次性，简单并行循环的任务，建议可以考虑[dask]( https://dask.org/)框架。代码非常好写，改动很小，纯 python 框架，不依赖外部服务（数据库、消息队列等）。
建立一个 scheduler 和多台 worker 机器的集群也十分简单。
資深大佬 : xchaoinfo

分批次取数据，例如，一次取 10w 条，pandas 处理后，在更新回去。
資深大佬 : Jat001

@hanssx n 年前我用 celery 的时候也发现有一堆 bug，不知道是现在好点了还是一堆人跟风，实际没怎么用过，反正当时是真后悔选 celery 了
資深大佬 : Selenium39

才用完 celery，一大堆坑，但是功能还是很强大
資深大佬 : Jat001

https://github.com/celery/celery/issues/3864
17 年提的 feature request，一直在 milestones 里往后拖，现在已经在 5.2 的 todo list 里了
資深大佬 : ipwx

这个场景不适合用任何工作队列。因为大部分时间在 IO 上。主线程读进来然后再分派是什么鬼？
—-

建议先读进来所有 ID，对 ID 分片，然后在子进程根据 ID 取数据、处理、然后写回去。如果可以，那就直接要求每个子进程读比如“尾部是 XXX” 的 ID 的记录。
資深大佬 : nthhdy

一次性的任务，还是重复性的工作？
另外，你预计单机的算力能支持吗？

如果是一次性的任务，并且单机多核算力没问题，上 multiprocessing 就行了，多进程，代码很好写。
如果否，上任务队列吧。你这个需求简单，celery，或者 rq 都可以。
資深大佬 : DoctorCat

如果调度策略很基础没复杂的设计，RQ 就行了 https://github.com/rq/rq
資深大佬 : SjwNo1

concurrent.futures
資深大佬 : tisswb

这种我一般都是 celery，效果，功效都不错
資深大佬 : Hconk

试试 ray 呢， https://github.com/ray-project/ray
資深大佬 : cco

pyspark 或许也可以。
資深大佬 : sss495088732

kafka+Faust