用 CUDA 为 GPU 编程实在太难了。为了让没有 CUDA 编程经验的人写出和专家效率相当的 GPU 代码,现在 OpenAI 推出了一种新的语言和编译器 ——Triton。它的难度比 CUDA 低,但是性能却可与之相媲美。OpenAI 声称:Triton 只要 25 行代码,就能在 FP16 矩阵乘法 shang 上达到与 cuBLAS 相当的性能。OpenAI 的研究人员已经使用 Triton,来生成比同等 Torch 效率高出 1 倍的内核。Triton 项目的负责人 Philippe Tillet 说:“我们的目标是使 Triton 成为深度学习 CUDA 的可行替代方案。”25 行代码实现最佳性能Triton 起源于 Tillet 在 2019 年学术会议 MLPF 上的一篇论文,当时他还是哈佛大学的一名研究生。Tillet 解决的问题是如何开发一种 cuDNN 更具表现力的语言,既能够处理神经网络中涉及的矩阵的各
英伟达 CUDA 太难:OpenAI 出手要取代它,新语言性能相当但编程更简单
2021-07-29 15:58:11来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 美股大型科技股盘前涨跌不一,英伟达跌0.77%2024-03-28 20:46:18
- 英伟达 AI 芯片 H200 开始供货,性能相比 H100 提升 60%-90%2024-03-28 18:19:52
- 罗克韦尔自动化携手英伟达 拓宽 AI 在制造业中的应用规模和范围2024-03-28 16:38:00
- PCIe 6.0 retimer 连接演示,可用于英伟达 Blackwell 系列系统2024-03-28 14:54:59
- Alibaba Eyes Global Market After Cainiao’s IPO Withdrawal2024-03-27 21:22:02
- 浪潮信息"源2.0"大模型YuanChat支持英特尔最新商用AI PC2024-03-27 18:03:00
- 将AIGC用于数码印花场景,服装供应链企业「云快反」获数千万元Pre-A+轮融资 | 36氪首发2024-03-27 16:39:38
- 氪星晚报|中信证券投行转岗百余人;百度智能云发布 Baidu Comate 2.0;全网短视频账号总数达15.5亿个,职…2024-03-27 19:21:58
- 麻省理工学院携手 Adobe 演示 DMD AI 技术:每秒可生成 20 幅图像2024-03-27 13:48:43
- 机构预估 OpenAI 部署文生视频模型 Sora 需要 72 万片英伟达 H100:价值 216 亿美元2024-03-27 14:13:58