MLOops 播客第一期:从工程师的角度聊聊 ChatGPT 与大模型
TL; DR: 前往 小宇宙播客|Spotify Podcast 直接收听我们的播客频道!
自 2021 年初以来,关于大规模语言模型的研究就已经如火如荼。最近 ChatGPT 通过全新的人机交互方式,再一次震撼了我们。
当然问题也随之而来,微信有没有可能借助其广阔的中文对话数据集训练出更好的中文大模型?ChatGPT 的未来会如何?沿着 Transformer 结构的演进,我们是否能够迎来真正的通用人工智能(AGI)?
为了更加深入地了解这些问题,我们分别在工业界和学术界邀请了一位嘉宾,一起讨论大模型的现状及未来。
本期嘉宾:方佳瑞,孙天祥,高策(主播)
- 方佳瑞:HPCAITech(潞晨科技)Cofounder & CTO,专注于大模型的训练和推理框架
- 孙天祥:复旦大学自然语言处理实验室博士研究生
- 高策:TensorChord Cofounder & CEO 博客
我们聊了什么
- 01:29 主播跟嘉宾的自我介绍
- 03:41 嘉宾最近几个月在做的工作
- 06:52 方佳瑞博士在之前微信 AI 工作时对于大模型的思考,微信有没有做大模型的打算?
- 10:57 孙天祥博士对于大模型的历史和未来的独到看法
- 15:44 过去 AI 进展是从 CV 领域开始蔓延到其他领域,而大模型为什么首先出现在 NLP 领域?
- 20:57 Diffusion 在 CV 领域会不会被其他结构取代?
- 23:48 OpenAI 是否会垄断大规模语言模型?
- 27:29 大模型时代的 AI 研究还会以开源的形式进行么?
- 31:05 训练大模型的技术会不会成为一种屠龙技,只能大公司才需要?
- 33:05 大模型会不会让 NLP 工程师失业?大模型对 NLP 行业的影响
- 36:08 国产大模型有没有必要,谁来做?
- 38:12 Transformer 结构有可能进化出通用 AI 么?
- ⚠️:以下是非常技术向的问题
- 42:41 有哪些 NLP 的领域是目前大模型还不擅长的?
- 43:24 基于过去知识(数据)训练的大模型如何能在未来一段时间继续适用?大模型的更新与维护
- 46:28 目前的大模型训练和传统数据并行的分布式训练之间有什么显著的差异?
- 49:20 从技术角度 Ray 能给大模型训练带来什么好处或优势?
- 51:35 训练框架的未来发展方向
- 53:54 如何评估大模型的效果
- 56:43 Chain of thought 与 fine-tune 的辩证关系
讨论中提到的论文/开源项目(基本按照时间顺序)
- tensorchord/envd
- microsoft/DeepSpeed
- hpcaitech/ColossalAI
- Percy Liang、李飞飞等发布 200 多页综述,阐述大模型机遇与风险的论文
- 2017 年谷歌大脑发表的 Transformer 论文
- Chain of Thought 论文
如果您也对大模型感兴趣,欢迎通过 Discord 频道告诉我们你感兴趣的内容和建议!
License
- This article is licensed under CC BY-NC-SA 3.0.
- Please contact me for commercial use.