AAA高老庄旺铺招租的个人博客

发表于2025-07-14|Tutorials

关于我来着何人，报上姓名。俺是AAA高老庄旺铺招租，是一名三维视觉算法工程师，以前从事SLAM，现在主要从事3dgs重建，神经辐射场，图像和视频的AIGC，目前在自动驾驶领域当牛马，也可以找我交流CSGO和OW（上勾拳！）。以后会在这边分享一些技术，或者一些杂谈。联系方式如果你想要与我交流，可以通过以下方式联系我： GitHub: https://github.com/chengYi-xun 邮箱: ldq4399@163.com 感谢你的阅读，希望我们可以一起学习和成长！生成式人工智能通用理论笔记｜扩散模型（一）：一些概率论的基础概念和理论笔记｜扩散模型（二）：生成模型的技术路线总览笔记｜扩散模型（二）：生成对抗理论

笔记｜生成模型（三）：生成对抗理论

发表于2025-08-07|Notes

生成对抗网络（Generative Adversarial Nets，GAN）核心思想生成对抗网络是一种基于对抗学习的深度生成模型，最早由Ian Goodfellow于2014年在《Generative Adversarial Nets》中提出，一经提出便成为了学术界研究的热点，也将生成模型的热度推向了另一个新的高峰。上节有讨论到，直接用图片做监督存带来均值灾难，我们又无法得到真实分布从而监督训练。因此，借助变分推断的思想做一个概率分布近似。从一个简单的已知分布（如标准高斯分布）出发，通过某种方式或手段，将其近似为真实数据的概率分布。GAN正是遵循这一理论，但实现过程中直接对齐分布是很难的，因为我们并不知道概率分布的函数形式，所以也无法得知它到底有几个参数。所以可以换一个思想，既然无法得到概率分布函数的具体形式，没有参数，不好近似，那我就不去近似他了。对于两个分布而言，如果它们的大多数随机采样的样本概率都是对齐的，那不就说明这两个概率分布函数已经接近了吗。很好，你已经掌握了生成对抗网络的要领，试着自己实现一下吧。（-_-||）网络架构生成对抗网络采用双网络架构设计，由生成器（ ...

笔记｜生成模型（二）：生成模型的技术路线总览

发表于2025-08-04|Notes

判别模型 vs 生成模型在人工智能领域，如今深度学习模型大致可分为两类：判别式模型（Discriminative Models）和生成式模型（Generative Models）。判别模型: 判别模型关注的是建模条件概率 \(P(y \mid x)\)，即在给定输入 \(x\) 的条件下预测标签 \(y\)。从信息学角度来看，人类所使用的语言、图像、音频等形式的信息，虽然本质上处于极高维空间中，但它们在该空间中的分布往往集中在结构性很强、低维的流形上。因此，它们在高维空间中呈现出几何稀疏性，换句话说，数据在高维空间中运动、变化，但只活动在某种低自由度的结构中。举个栗子：假设我们用 \(64×64×3=12288\) 维来表示彩色人脸图像，但现实中，人脸受限于：姿态（2～3个自由度），表情（2～5个自由度），光照变化，年龄、性别等特征。尽管图像空间是 1 万多维，人脸变化的真实自由度可能只有几十个维度，所以，所有可能的 RGB 图像中，人脸图像只占据一个非常小的“面团”一样的区域，这个区域是一个低维流形。很多人对低维流形可能理解的还是不够形象，举一个更抽象的例子就是：想象一只虫子在 ...

笔记｜生成模型（一）：一些概率论的基础概念和理论

发表于2025-07-31|Notes

概率 vs 似然概率：已知某种分布和其参数 \(\theta\) 的情况下，某件事情发生的概率。似然：已知一种分布形态（可能是高斯分布，泊松分布等）和一组观测数据的情况下，不同的参数 \(\theta\) 产生这组观测数据的可能性。简单来说，概率是已知 \(P(x)\) 的具体形式，求 \(x = x_0\) 时候的值。而似然是已知 \(P(x)\) 的形态，比如二次函数，一次函数之类的，但是其具体参数未知。假设这里是二次函数 \(P(x) = ax^2+bx+c\)，同时我们又已知一组观测数据 \(x_1, x_2, x_3, \ldots, x_n\)，则任意一组参数 \(a, b, c\) 产生上述观测数据的可能性即为似然。最大似然（MLE）：假设存在独立同分布的观测数据 \(x_1, x_2, x_3, \ldots, x_n\)，某个概率分布函数是 \(P_\theta(x)\)，\(\theta\) 为该函数的参数，则这组观测数据的联合概率有如下形式： \[P_\theta(x_1, \ldots, x_n) = \prod_{i = 1}^N P_\theta( ...