avatar
文章
42
标签
72
分类
2

首页
归档
标签
分类
友链
AAA高老庄旺铺招租的个人博客
首页
归档
标签
分类
友链

AAA高老庄旺铺招租的个人博客

置顶|本站文章索引
发表于2025-07-14|Tutorials
关于我 来着何人,报上姓名。俺是AAA高老庄旺铺招租,是一名三维视觉算法工程师,以前从事SLAM,现在主要从事3dgs重建,神经辐射场,图像和视频的AIGC,目前在自动驾驶领域当牛马,也可以找我交流CSGO和OW(上勾拳!)。 以后会在这边分享一些技术,或者一些杂谈。 联系方式 如果你想要与我交流,可以通过以下方式联系我: GitHub: https://github.com/chengYi-xun 邮箱: ldq4399@163.com 感谢你的阅读,希望我们可以一起学习和成长! 生成式人工智能 通用理论 笔记|生成模型(一):一些概率论的基础概念和理论 笔记|生成模型(二):生成模型的技术路线总览 笔记|生成模型(三):生成对抗理论 笔记|生成模型(四):变分自编码器理论 笔记|生成模型(五):DDPM理论 笔记|生成模型(六):DDIM理论 笔记|生成模型(七):Score-Based理论 笔记|生成模型(八):SDE统一DDPM和SMLD 笔记|生成模型(九):Classifier Guidance 理论与实现 笔记|生成模型(十):Classifier-Free Gui ...
笔记|世界模型(七):前沿与统一视角——五条路线的收敛
发表于2026-04-06|Tutorials
前置知识:本文是世界模型系列的终篇。建议先阅读前六篇。 - (一)世界模型基础 - (二)Dreamer 系列 - (三)JEPA - (四)视频生成世界模型 - (五)物理化世界模型 - (六)自动驾驶世界模型 0. 2026 年的世界模型:百花齐放还是趋于收敛? 回顾过去三年(2023-2026),世界模型领域从五条独立的技术路线发展而来。截至 2026 年,我们看到了一个明确的趋势:路线开始交叉融合。 本篇将讨论四个前沿方向,然后从统一视角分析路线收敛。 1. 4D 生成:时空一体的世界构建 1.1 什么是 4D 生成? 4D = 3D 空间 + 时间。4D 生成的目标是从文本/图像/视频生成随时间变化的 3D 场景。 这与视频生成(2D+T)的本质区别:4D 生成的输出是一个可以从任意角度、任意时刻渲染的 3D 场景。 1.2 4D Gaussian Splatting 主流的 4D 表示基于 4D Gaussian Splatting: 每个高斯核的参数是时间的函数: \[ \begin{aligned} \mu_i(t) &= \mu_i^0 + \Delt ...
笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测
发表于2026-04-06|Tutorials
核心论文: - GAIA-1: arXiv:2309.17080 (2023) - DriveDreamer: arXiv:2309.09777 (ECCV 2024) - Vista: arXiv:2405.17398 (NeurIPS 2024) - OccWorld: arXiv:2311.16038 (CVPR 2024) 前置知识:上一篇:物理化世界模型 0. 为什么自动驾驶特别需要世界模型? 假设你在开发自动驾驶系统,需要测试"行人突然从路边冲出"的场景。你有两个选择: 真实路测:让测试车上路,等这种场景自然发生——可能等几万公里都遇不到一次,而且有安全风险 仿真器:在 CARLA 等仿真器中构建场景——但仿真器的画面和真实世界差距太大(domain gap),训练出的模型可能无法迁移 世界模型提供了第三种选择:从真实驾驶视频中学习环境动力学,生成无限的、逼真的、可控的驾驶场景。 自动驾驶世界模型有三个独特需求: 3D 几何:必须理解三维空间(深度、遮挡、多视角一致性) 可控性:必须能根据驾驶指令生成对应场景(转弯、加速、变道) 安全关键:生成的场景必须用于安全 ...
笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律
发表于2026-04-06|Tutorials
核心论文: - PhysDreamer: arXiv:2404.13026 (ECCV 2024) - PhysGen: arXiv:2409.18964 (ECCV 2024) - NewtonGen: arXiv:2509.21309 (2025) - NewtonRewards: arXiv:2512.00425 (2025) 代码:stevenlsw/physgen · pandayuanyu/NewtonGen 前置知识:上一篇:视频生成世界模型 0. Sora 生成的球为什么不遵守牛顿定律? 用 Sora 生成一段"球从桌子上滚下来"的视频。你可能会看到:球的轨迹看起来大致合理,但仔细观察——球在桌边没有加速(无视重力),落地后弹跳角度不对(违反反射定律),甚至可能穿过桌面。 纯数据驱动的视频模型学到了"球通常会往下掉"这种统计规律,但没有学到 \(F = ma\) 这个物理定律。在训练数据覆盖的常见场景中统计规律足够,但一旦进入未见过的物理场景(如月球上的低重力),模型就会失败。 本篇介绍四种将物理知识嵌入视频生成的方案——从显式物理仿真到可验证奖励。 1. Ph ...
笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos
发表于2026-04-06|Tutorials
核心论文: - Genie: arXiv:2402.15391 (ICML 2024) - Cosmos: arXiv:2501.03575 (2025) - UniSim: arXiv:2310.06114 (ICLR 2024) 前置知识:上一篇:JEPA 0. 如果视频模型就是世界模型? 给一个视频生成模型一张图片和指令"向左走",它生成了一段视角向左移动的视频——走廊延伸出去,墙上的画从右侧滑入视野,地板的透视关系正确变化。 这个视频模型"理解"了三维空间吗?它是不是已经在内部构建了一个"世界模型"? 2024 年 2 月,OpenAI 发布 Sora 时明确提出:视频生成模型是世界模拟器的有前途的路径。 这是与 JEPA 截然相反的立场——JEPA 说"不需要生成像素",Sora 说"生成像素本身就是理解世界"。 1. Sora:视频生成模型作为世界模拟器 1.1 OpenAI 的定位 OpenAI 在 Sora 的技术报告中写道: "我们发现视频模型在大规模训练后展现出了许多有趣的涌现能力。这些能力使 Sora 能够模拟物理世界中人、动物和环境的某些方面。" 1 ...
笔记|世界模型(三):JEPA——在嵌入空间预测世界
发表于2026-04-06|Tutorials
核心论文: - I-JEPA: arXiv:2301.08243 (CVPR 2023) - V-JEPA: arXiv:2404.08471 (2024) - V-JEPA 2: arXiv:2506.09985 (2025) 代码:facebookresearch/ijepa · facebookresearch/jepa 前置知识:上一篇:Dreamer 系列 0. 预测每片树叶的飘动是愚蠢的 观察窗外的一棵树。树叶在风中随机飘动——每片叶子的具体轨迹本质上不可预测。但你能预测"树叶还会继续飘动"、"风变大了树会摇得更厉害"。 这就是 JEPA 的核心直觉:好的预测不需要重建每个像素细节,只需要在语义层面预测未来。 Dreamer 和 Sora 都在某种程度上试图"重建"观测——前者通过解码器重建图像训练世界模型,后者直接生成视频。JEPA 走了一条完全不同的路:丢弃不可预测的细节,只在嵌入空间中预测。 1. LeCun 的认知架构提案 1.1 三种学习架构 2022 年,Yann LeCun 在白皮书 "A Path Towards Autonomous Machin ...
笔记|世界模型(二):Dreamer 系列——在想象中学习控制
发表于2026-04-06|Tutorials
核心论文: - Dreamer v1: arXiv:1912.01603 (ICLR 2020) - DreamerV2: arXiv:2010.02193 (ICLR 2021) - DreamerV3: arXiv:2301.04104 (Nature 2025) 代码:danijar/dreamerv3 前置知识:上一篇:世界模型基础 0. 在 Minecraft 中不靠真实交互采到钻石 Minecraft 的钻石任务是 RL 界的"登月挑战":从零开始,需要砍树 → 合成工作台 → 挖石头 → 合成石镐 → 找到并挖掘钻石——约 24,000 步的长序列,中间没有任何奖励信号。 DreamerV3 是第一个从零开始、不依赖人类先验完成这个任务的算法——而且用与 Atari 和 DeepMind Control Suite 完全相同的超参数。 核心秘密:在世界模型的"想象"中大量练习,然后把学到的策略部署到真实环境。 1. RSSM:Dreamer 的心脏 1.1 为什么需要 RSSM? 上一篇介绍的 MDN-RNN 有一个限制:它的隐状态 \(h_t\) 是纯确定性的。 ...
笔记|世界模型(一):什么是世界模型?从认知科学到深度学习
发表于2026-04-06|Tutorials
系列说明:本文是世界模型系列的第一篇。世界模型领域目前技术路线尚未收敛,存在五大并行分支。本系列将从基础概念出发,按分支逐一展开。 核心论文:World Models(Ha & Schmidhuber, 2018, arXiv:1803.10122) 0. 闭眼踢球——大脑里的物理模拟器 闭上眼睛,想象你在踢一个足球。球从脚尖飞出,在空中画一条抛物线,弹地后滚动减速。 你不需要看到球,就能"预测"它的轨迹。这种能力来自你大脑中的世界模型——一个关于物理世界如何运作的内部模拟器。 认知科学家 Kenneth Craik 在 1943 年就提出了这个概念: "如果生物体能在头脑中构建一个外部现实的微型模型,它就能在行动前先在模型中尝试各种方案,预测哪种最优。" — Kenneth Craik, The Nature of Explanation, 1943 在深度学习中,世界模型(World Model)就是这个"内部模拟器"的计算实现:一个能够预测环境在给定动作下如何变化的神经网络。 1. 世界模型的数学定义 1.1 核心要素 一个世界模型包含四个基本要素: 要 ...
笔记|多模态融合(六):2026 前沿——InternVL、Qwen-VL、Mamba 与多模态的未来
发表于2026-04-06|Tutorials
核心论文: - InternVL 2.5(Chen et al., 2024, Shanghai AI Lab) - Qwen2.5-VL(Bai et al., 2025, Alibaba) - OmniMamba(Chen et al., 2025) - FUSION(Li et al., 2025) 前置知识:上一篇:Flamingo 与 Chameleon 0. 一张表格暴露的差距 给不同模型展示同一张包含复杂表格和小字注释的文档图片,要求模型回答"第三行第二列的数值是多少?" 模型 回答准确率 模型参数 开源 GPT-4o 94.2% 未知 ✗ Claude 3.5 Sonnet 91.8% 未知 ✗ InternVL 2.5-78B 90.3% 78B ✓ Qwen2.5-VL-72B 88.7% 72B ✓ LLaVA-1.5-13B 52.1% 13B ✓ 两年前,开源模型和闭源模型之间有 30+ 个百分点的差距。到 2025 年底,InternVL 2.5 成为第一个在 MMMU benchmark 上突破 70% 的开源模型 ...
笔记|多模态融合(五):原生多模态——从 Flamingo 到 Chameleon
发表于2026-04-06|Tutorials
论文: - Flamingo: a Visual Language Model for Few-Shot Learning(Alayrac et al., 2022, DeepMind) - Chameleon: Mixed-Modal Early-Fusion Foundation Models(Meta, 2024) 代码:lucidrains/flamingo-pytorch · facebookresearch/chameleon 前置知识:上一篇:LLaVA 0. 翻译官 vs 双语母语者 前面三篇介绍的模型——CLIP、BLIP-2、LLaVA——都遵循同一个范式:视觉编码器和语言模型是独立预训练的,通过某种中间模块(对比学习/Q-Former/MLP)将它们连接起来。 这就像两个只说各自语言的专家,中间需要一个翻译官。翻译官再好,也会有信息损失。 有没有一种模型,从第一层开始就天然理解图像和文字,就像一个双语母语者? 本篇介绍两种接近这个目标的方案: 模型 方案 类比 Flamingo 在冻结 LLM 中插入交叉注意力层 翻译官驻场在一个专家 ...
12…5
avatar
AAA高老庄旺铺招租
欢迎来到我的博客
文章
42
标签
72
分类
2
Follow Me
公告
欢迎来到AAA高老庄旺铺招租的猪舍~(昼伏夜出型)
最新文章
笔记|世界模型(七):前沿与统一视角——五条路线的收敛2026-04-06
笔记|世界模型(六):自动驾驶世界模型——从视频预测到占用预测2026-04-06
笔记|世界模型(五):物理化的视频生成——让模型理解牛顿定律2026-04-06
笔记|世界模型(四):视频生成即世界模拟——从 Sora 到 Genie 与 Cosmos2026-04-06
笔记|世界模型(三):JEPA——在嵌入空间预测世界2026-04-06
分类
  • Notes27
  • Tutorials15
标签
Contrastive Learning Video Generation 3D Vision Generative Model Model-based RL Fusion Transformer Multimodal Learning DPO LLaVA Register Tokens Cross-Attention Mamba Vision-Language Model Deep learning InfoNCE LLM AI Companion V-JEPA PhysDreamer Multi-modal Fusion PhysGen DriveDreamer SigLIP Generative models theory Multimodal LLM Perceiver Resampler Stable Diffusion Flamingo Cosmos Flow Matching Flux Physics-Grounded Self-Supervised Learning DINOv2 thinking BLIP-2 Q-Former Multimodal Frontier State Space Model
归档
  • 四月 202620
  • 八月 202520
  • 七月 20252
网站资讯
文章数目 :
42
已运行时间 :
本站访客数 :
本站总访问量 :
最后更新时间 :
©2025 - 2026 By AAA高老庄旺铺招租
框架 Hexo|主题 Butterfly