- 使用 Kubeflow 进行超参数调优 - Richard Liu,Google;Johnu George, Cisco
- Slides
- Kubeflow 社区中的超参数学习与模型结构搜索系统,也是由我们深度参与的开源系统。这一 talk 由谷歌工程师 Richard Liu 和 Cisco 的 Johnu 一起完成。在其中应该会介绍 katib 进行超参数搜索的接口与其实现。
- 利用 Knative 发展深度学习平台 - Ti Zhou,百度
- Slides
- 这一 talk 主要介绍了百度如何利用 KNative Build 和 Serving 来进行训练镜像的构建,以及模型部署的。目前学术界许多关于模型部署系统的论文,都是在 Serverless 的基础上进行自动扩缩容和 SLA 保证等方面的探索。而 Istio 或者基于 Istio 的 KNative Serving 是这一探索在工业界落地的最优路径,因此这一 Talk 值得一听。
- Knative Serving 内部介绍 - Dominik Tornow,SAP;Andrew Chen,Google
- 这一 Talk 本身与 ML/DL 无关,但鉴于 KNative Serving 逐渐被用来做模型服务,因此也列上。除此之外值得一提的是,这两位讲师也将参与才云在 6.28 组织的 CKA(Certified Kubernetes Administrator)认证培训。
- 机器学习部署的开放标准 - Animesh Singh 和 Hou Gang, IBM
- 这一 Talk 是由 Kubeflow Serving 来自 IBM 的贡献者进行的。ML 的中间表示(IR)也越来越成为了一个关注的焦点,这一 Talk 主要介绍了目前的一些流行的 IR,如 ONNX 等。但其中似乎遗漏了 TVM Relay IR 这一重量级选手。
- Kubernetes 集群的大规模分布式深度学习 - Yuan Tang,蚂蚁金服;Yong Tang,MobileIron
- 这一 Talk 的讲者之一是 MXNet,XGBoost 和 TensorFlow 三个项目的 Committer Yuan Tang。他也是 Kubeflow 社区中一些项目的维护者。虽然目前没有提供 Slides,但想来也值得一听。
- 最大限度地降低在 Kubernetes 上运行深度学习的 GPU 成本 - Kai Zhang 和 Yang Che,阿里巴巴
- Slides
- 这一 Talk 的两位讲者是阿里云前段时间开源的 gpushare-scheduler-extender 的作者,才云也有一个类似的闭源实现。所以这一 Talk 应该会分享他们在 GPU 共享的调度实现上的经验之谈。
- Kubernetes 的多云机器学习数据和工作流 - Lei Xue,Momenta;Fei Xue,Google
- 这一 Talk 的讲者之一是 Momenta 的 Infra TL。Momenta 的机器学习集群环境中有着 Infiniband,因此硬件的异构性应该是这一 Talk 的亮点。
- Volcano: 在Kubernetes上运行AI/DL工作负载 - Da Ma, Huawei
- 这一分享是一个展示剧院的展示,但讲者是 Kubernetes SIG-Scheduling 的 Co-Leader。Volcano 的调度器部分有一些 Kubernetes Default Scheduler 没有的功能,如公平调度,队列管理、作业管理(暂停/恢复)、数据管理等。这一 Talk 应该会着重展示这些高级功能以及它们对 AI/DL 工作场景的帮助。
- 基于Kubernetes进行深度学习训练推理的成本优化实践 - Pavee Han & Lei Wang, Tencent Cloud
- Slides
- 这一 Talk 介绍了一种在 Kubernetes 上实现 GPU 虚拟化的方式。之前 VMWare 在 Kubenetes & Kubeflow Meetup 也有分享过,不知两者有何异同。
- 2019 年 AI 和机器学习运营状况 - Alejandro Saucedo,The Institute for Ethical AI & Machine Learning
- 这一 Talk 应该是对 ML 系统的一个 Survey 性质的介绍,由于对主讲人不了解加上没有 Slides,所以不多介绍了。
- 利用 Istio 管理多租户机器学习工作负载 - Wencheng Lu 和 Limin Wang,谷歌
- Slides
- 这一 Talk 与前面的 KNative Serving 用于模型部署的 Talk 内容相近,只不过是基于 Istio 进行的。这也可以从侧面说明,将 Service Mesh,Serverless 应用于模型推理场景,是业界主流的观点了。
- Kubeflow 介绍(包含Special Guests Tensorflow 和 Apache Spark)- Trevor Grant,IBM
- 这一 Talk 标题已经很清楚地介绍了它的内容了,所以不再多说了。
- 将 Kubernetes 用于机器学习框架 - Arun Gupta,AWS
- 由于对主讲人不了解加上没有 Slides,所以不多介绍了。
关于作者
高策,才云科技工程师
License
- This article is licensed under CC BY-NC-SA 3.0.
- Please contact me for commercial use.