关于我

来着何人,报上姓名。俺是AAA高老庄旺铺招租,是一名三维视觉算法工程师,以前从事SLAM,现在主要从事3dgs重建,神经辐射场,图像和视频的AIGC,目前在自动驾驶领域当牛马,也可以找我交流CSGO和OW(上勾拳!)。

以后会在这边分享一些技术,或者一些杂谈。

联系方式

如果你想要与我交流,可以通过以下方式联系我:

  • GitHub: https://github.com/chengYi-xun
  • 邮箱: ldq4399@163.com

感谢你的阅读,希望我们可以一起学习和成长!

生成式人工智能

通用理论

  1. 笔记|生成模型(一):一些概率论的基础概念和理论
  2. 笔记|生成模型(二):生成模型的技术路线总览
  3. 笔记|生成模型(三):生成对抗理论
  4. 笔记|生成模型(四):变分自编码器理论
  5. 笔记|生成模型(五):DDPM理论
  6. 笔记|生成模型(六):DDIM理论
  7. 笔记|生成模型(七):Score-Based理论
  8. 笔记|生成模型(八):SDE统一DDPM和SMLD
  9. 笔记|生成模型(九):Classifier Guidance 理论与实现
  10. 笔记|生成模型(十):Classifier-Free Guidance 理论与实现
  11. 笔记|生成模型(十一):UIT和DiT架构详解
  12. 笔记|生成模型(十二):Normalizing Flow理论与实现
  13. 笔记|生成模型(十三):Flow Matching理论与实现
  14. 笔记|生成模型(十四):Stable Diffusion 3 架构解析 (MMDiT)
  15. 笔记|生成模型(十五):Flux 架构解析
  16. 笔记|生成模型(十六):强化学习基础与策略梯度
  17. 笔记|生成模型(十七):信任区域与近端策略优化 (从 TRPO 到 PPO)
  18. 笔记|生成模型(十八):大模型对齐的另一条路:DPO (Direct Preference Optimization)
  19. 笔记|生成模型(十九):大模型在线 RL 破局者:GRPO 算法详解
  20. 笔记|生成模型(二十):Flow-GRPO 与图像生成应用(基于 Flux 的代码解析)
  21. 笔记|生成模型(二十一):DAPO:从 GRPO 到大规模推理 RL 的工程实践
  22. 笔记|生成模型(二十二):GRPO 的三重面孔——从 2-GRPO 到 f-GRPO 与 GIFT
  23. 笔记|生成模型(二十三):SuperFlow 与图像生成 RL 前沿(2026)
  24. 笔记|生成模型(二十四):DanceGRPO——视频生成的统一强化学习框架

LLM 记忆与对齐

  1. 笔记|MemoryBank:用艾宾浩斯遗忘曲线赋予 LLM 长期记忆

多模态融合

  1. 笔记|多模态融合(一):从特征拼接到注意力融合——多模态学习基础
  2. 笔记|多模态融合(二):CLIP——对比学习连接视觉与语言
  3. 笔记|多模态融合(三):从 BLIP 到 BLIP-2——Q-Former 与交叉注意力的艺术
  4. 笔记|多模态融合(四):LLaVA——用一层 MLP 让大模型"看懂"图片
  5. 笔记|多模态融合(五):原生多模态——从 Flamingo 到 Chameleon
  6. 笔记|多模态融合(六):2026 前沿——InternVL、Qwen-VL、Mamba 与多模态的未来

世界模型

  1. 笔记|世界模型(一):什么是世界模型?从认知科学到深度学习
  2. 笔记|世界模型(二):Dreamer 系列——在想象中学习控制
  3. 笔记|世界模型(三):JEPA——在嵌入空间预测世界
  4. 笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos
  5. 笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律
  6. 笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测
  7. 笔记|世界模型(七):前沿与统一视角——五条路线的收敛

杂谈

  1. 杂谈|写作的目的
  2. 笔记|VGGT——用一个 Transformer 完成所有 3D 视觉任务
  3. 笔记|Vision Transformers Need Registers:用 Register Tokens 治愈 ViT 的"注意力伪影"