跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 问一个关于深度学习训练任务&资源分配的问题
未分類
15 1 月 2021

问一个关于深度学习训练任务&资源分配的问题

问一个关于深度学习训练任务&资源分配的问题

資深大佬 : lllllliu 0

被迫研究深度学习,在一台服务器上跑自己的几个模型训练。 现在管理的方式是 ide 远程提交脚本,ssh 上去开个 screen 跑,过会儿再过来看。同时会跑两三个不同模型的训练。 问:是否有可以管理 python&tensorflow 训练任务的开源平台呢?最好是脚本提交的,那种可视化的好像没啥用。。。 emmm 可以支持分布式调度的最好。。目前一台服务器有点顶不住

大佬有話說 (4)

  • 資深大佬 : xjx0524

    kubeflow?

  • 資深大佬 : northisland

    见过顶级大神,自己介绍巅峰时,一天只做 10 个实验,炼 10 个丹。
    第 2 天看整理结果和思路。

    不是很复杂,screen 或者 tmux 窗口编上号。

    复杂点,就搞个 rabbitmq + [任务队列 或者 pika]。执行脚本扔 mq 里,自动调度练丹顺序。

  • 主 資深大佬 : lllllliu

    @xjx0524 有一丢丢复杂看起来。。想给大家用,就是大家写好 py 直接提交下,能监控运行状态和输出就好了。

  • 主 資深大佬 : lllllliu

    @northisland 这个可以有

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具