技术博文从第一性原理出发《MakingDeepLearningGoBr

又仁看科技 2025-02-08 09:19:37

技术博文从第一性原理出发《Making Deep Learning Go Brrrr From First Principles》让深度学习飞速运转

horace.io/brrr_intro.html

“你想提高你的深度学习模型的性能。你可能会如何处理这个任务呢？通常，人们会依赖一些以前可能有效或在推特上看到的技巧。--使用in-place operations！将梯度设置为 None！安装 PyTorch 1.10.0 而不是 1.10.1！

用户为何常常采取这种临时性的方法来处理性能问题是可理解的，因为在现代系统（尤其是深度学习）中，性能优化往往既像科学又像炼金术。话虽如此，从第一性原理出发进行推理仍能排除大量方法，从而使问题更易于解决。

例如，在使用深度学习对数据集进行良好性能训练时，也涉及大量猜测。但是，如果你的训练损失远低于测试损失，那么你正处于“过拟合”状态，此时若试图增加模型容量，则是在浪费时间。或者，如果你的训练损失与验证损失相同，那么如果你尝试正则化你的模型，就是在浪费时间。

同样，你可以将深度学习机制的效率理解为包含三个不同的组成部分。

⭐计算：在 GPU 上进行实际浮点运算（FLOPS）所花费的时间

⭐内存：在 GPU 内传输张量所花费的时间

⭐开销：其他所有内容

就像训练机器学习模型一样，了解你所处的状态能让你专注于那些真正重要的优化。例如，如果你把所有时间都花在内存传输上（即你处于内存带宽受限的状态），那么提高 GPU 的浮点运算能力（FLOPS）将无济于事。另一方面，如果你把所有时间都花在执行大块的矩阵乘法（即计算密集型模式）上，那么将模型逻辑重写为 C++以减少开销并不会有所帮助。

所以，如果你想让你的 GPU 保持高速运转，让我们讨论一下你的系统可能花费时间的三个部分——计算、内存带宽和开销。”

0 阅读：0

又仁看科技

感谢大家的关注

作者最新文章

1

电子书《How to Scale Your Model》如何扩展模型：TPU

2

Hugging Face 团队发了篇博客介绍了对 OpenAI 的 Deep R

3

开工大吉！🎉

4

CUDA_Kernel_Samples：CUDA 算子手撕与面试指南github

5

又一个Deep Research的开源实现，大家动作都好快。。github.co

6

DeepSeek R1回答多位数乘法和除法的准确率。位数不多时都能算对，十几位数

7

直播间送的车你抢到过吗某车帝这个，太大手笔了，太有钱了，一天直接抽100量车

8

一本概率论与归纳逻辑入门教材《Odds & Ends》jonathanweisb

9

电子书《Beej 的进程间通信指南》beej.us/guide/bgipc/《B

10

推理类大语言模型的可视化指南newsletter.maartengrootend

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

mac你真的神了🫶

2

为什么央视不让苹果露出？在2024年春晚上，有一个细节值得注意，陈奕迅使用的

3

有点想换手机的冲动了

4

小米要破万亿市值了？太猛了，美国关税的情况下，小米都能猛涨[并不简单][加油]

5

多平台宣布上线DeepSeek大模型：腾讯云、阿里云、华为云、360、亚马逊A

6

2025年几乎零差评的几款手机！你认同哪一款？1.Magic72.OPPO

7

扎克伯格宣布2025年投入650亿美元，建立自己的AI大数据库，可是没想到这两天

8

马斯克才是2025最大的冤种！马斯克大选花了2.9亿美元，最后得了个弼马温的职位

9

4款2000档位的手机怎么选？这个价位，一般都是给孩子买的，玩游戏多一些

10

deepseek被用户训练得成精了！

科技最新文章

1

昨天雷军不是发了微博说，标是金子做的嘛，今天我专程替大家来环球港看了看。现在的金

2

【#澳禁止政府系统和设备使用DeepSeek#，澳部长辩称：不是针对中国】据澳

3

小米市值彻底失控估计就连雷军都想不到吧！才过去1个月时间，这哪里是超越和碾压，

4

2025年几乎零差评的几款手机！你认同哪一款？1.Magic72.OPPO

5

国补降价最狠的4款手机！嗯认同哪一款？1.荣耀Magic7，发布价4999，

6

荣耀手机哪几款比较值得入手？相信下面这4款一定不会让你失望。荣耀X60Pro

7

deepseek被用户训练得成精了！

8

小米集团市值突破万亿港元买了小米股票的朋友真的发财了，小米卖手机卖了十多年，上

9

4款2000档位的手机怎么选？这个价位，一般都是给孩子买的，玩游戏多一些

10

卢伟想把DeepSeek商标转让给美国公司，用美国法律保护他不被东方大国法律制裁