笔记｜世界模型（五）：物理化的视频生成——让模型理解牛顿定律

核心论文： - PhysDreamer: arXiv:2404.13026 (ECCV 2024) - PhysGen: arXiv:2409.18964 (ECCV 2024) - NewtonGen: arXiv:2509.21309 (2025) - NewtonRewards: arXiv:2512.00425 (2025)

代码：stevenlsw/physgen · pandayuanyu/NewtonGen 前置知识：上一篇：视频生成世界模型

0. Sora 生成的球为什么不遵守牛顿定律？

用 Sora 生成一段"球从桌子上滚下来"的视频。你可能会看到：球的轨迹看起来大致合理，但仔细观察——球在桌边没有加速（无视重力），落地后弹跳角度不对（违反反射定律），甚至可能穿过桌面。

纯数据驱动的视频模型学到了"球通常会往下掉"这种统计规律，但没有学到 \(F = ma\) 这个物理定律。在训练数据覆盖的常见场景中统计规律足够，但一旦进入未见过的物理场景（如月球上的低重力），模型就会失败。

本篇介绍四种将物理知识嵌入视频生成的方案——从显式物理仿真到可验证奖励。

1. PhysDreamer：从视频先验蒸馏物理属性

1.1 核心思想

PhysDreamer（MIT, 2024）将问题分为两步：

从视频模型中"蒸馏"出物理属性（如材质的弹性模量）
用显式物理仿真器驱动运动（Material Point Method）

这是"数据驱动的物理参数估计 + 基于物理的仿真"的混合方案。

1.2 方法

给定一个静态 3D 物体（用 3D Gaussian Splatting 表示），PhysDreamer 的流程：

Step 1：物理属性估计

对 3D 场景中的每个 Gaussian 预测一个材质参数向量 \(\mathbf{m}_i = (\mu_i, \lambda_i)\)（杨氏模量和泊松比）：

\[ \mathbf{m}_i = \text{MLP}_\theta(\mathbf{x}_i, \mathbf{f}_i) \]

其中 \(\mathbf{x}_i\) 是空间位置，\(\mathbf{f}_i\) 是外观特征。

如何训练这个 MLP？用视频扩散模型的得分函数作为监督信号（Score Distillation）：

\[ \nabla_\theta \mathcal{L}_{\text{SDS}} = \mathbb{E}_{t, \epsilon}\left[w(t) \cdot (\hat{\epsilon}_\phi(z_t, t, c) - \epsilon) \cdot \frac{\partial z}{\partial \theta}\right] \]

直觉：视频扩散模型"知道"物体在外力作用下应该如何运动（从训练视频中学到），PhysDreamer 利用这个知识来估计材质参数。

Step 2：物理仿真

用 Material Point Method (MPM) 进行可微物理仿真：

\[ \begin{aligned} \mathbf{v}^{n+1}_p &= \mathbf{v}^n_p + \Delta t \cdot \left(\mathbf{g} + \frac{1}{m_p} \mathbf{f}^n_p\right) \\ \mathbf{x}^{n+1}_p &= \mathbf{x}^n_p + \Delta t \cdot \mathbf{v}^{n+1}_p \end{aligned} \]

其中 \(\mathbf{g}\) 是重力加速度，\(\mathbf{f}^n_p\) 是弹性力（由材质参数决定），\(m_p\) 是质点质量。

弹性力通过变形梯度 \(\mathbf{F}\) 和应力张量 \(\boldsymbol{\sigma}\) 计算：

\[ \boldsymbol{\sigma} = \frac{1}{J}\frac{\partial \Psi}{\partial \mathbf{F}} \mathbf{F}^\top \]

其中 \(\Psi\) 是弹性势能密度（由杨氏模量 \(E\) 和泊松比 \(\nu\) 决定），\(J = \det(\mathbf{F})\)。

Step 3：渲染

将仿真后的粒子位置更新到 3D Gaussian，用可微渲染生成视频。

1.3 效果

PhysDreamer 能让静态 3D 物体在外力作用下产生物理合理的形变和运动。例如推一只布料做的兔子，它会像真正的布料一样变形和回弹。

局限：偏向慢速、平滑的运动（弹性形变），无法处理碰撞、断裂等复杂物理。

2. PhysGen：刚体物理 + 扩散视频

2.1 混合管线

PhysGen（UIUC, 2024）走了一条不同的路——先仿真后生成：

1	图像理解 → 物理参数提取 → 刚体仿真 → 视频扩散细化

2.2 三阶段流程

阶段 1：场景理解

从单张图像中提取物理信息：

\[ \{\text{几何}, \text{材质}, \text{物理参数}\} = \text{SceneParser}(\mathbf{I}) \]

包括物体的 3D 形状、质量、摩擦系数等。

阶段 2：图像空间物理仿真

在 2D 图像空间中运行简化的刚体动力学：

\[ \begin{aligned} \mathbf{F} &= m\mathbf{a} \quad &\text{（牛顿第二定律）} \\ \boldsymbol{\tau} &= I\boldsymbol{\alpha} \quad &\text{（旋转动力学）} \\ \mathbf{v}' &= -e \cdot \mathbf{v}_n + \mu \cdot \mathbf{v}_t \quad &\text{（碰撞响应）} \end{aligned} \]

其中 \(e\) 是恢复系数，\(\mu\) 是摩擦系数。仿真输出是粗糙但物理正确的运动轨迹。

阶段 3：视频扩散细化

用视频扩散模型将粗糙的仿真结果（线条/简笔画级别）"美化"为逼真视频：

\[ V_{\text{realistic}} = \text{VideoDiffusion}(V_{\text{sim}}, \mathbf{I}_0, \text{prompt}) \]

2.3 数学：力条件控制

PhysGen 允许用户指定作用力来控制生成：

\[ \mathbf{F}_{\text{ext}} = (F_x, F_y), \quad \text{作用点} = (x_0, y_0) \]

物理仿真器根据这些力计算运动轨迹，再交给视频模型渲染。

3. NewtonGen：Neural Newtonian Dynamics

3.1 核心创新

NewtonGen（2025）直接在视频扩散模型的潜空间中嵌入牛顿运动方程：

\[ \text{Neural Newtonian Dynamics (NND)}: \quad z_{t+1} = z_t + \Delta t \cdot v_t + \frac{1}{2} (\Delta t)^2 \cdot a_t \]

其中 \(z_t\) 是潜变量，\(v_t\) 和 \(a_t\) 是在潜空间中学到的"速度"和"加速度"。

3.2 架构

NewtonGen 在标准视频扩散模型中加入一个 NND 模块：

\[ \begin{aligned} v_t &= \text{VelocityNet}_\psi(z_t, t) \\ a_t &= \text{AccelNet}_\psi(z_t, v_t, t, F_{\text{ext}}) \\ z_{t+1}^{\text{physics}} &= z_t + \Delta t \cdot v_t + \frac{(\Delta t)^2}{2} a_t \\ z_{t+1} &= (1 - \lambda) \cdot z_{t+1}^{\text{diffusion}} + \lambda \cdot z_{t+1}^{\text{physics}} \end{aligned} \]

\(\lambda\) 控制物理约束的强度——\(\lambda = 0\) 回退为标准扩散，\(\lambda = 1\) 完全由物理主导。

3.3 可控物理参数

NewtonGen 支持用户指定物理参数来控制生成：

参数	含义	效果
重力 \(g\)	重力加速度	改变物体下落速度
恢复系数 \(e\)	弹性碰撞程度	控制弹跳高度
摩擦系数 \(\mu\)	表面摩擦	影响滑动速度
外力 \(\mathbf{F}_{\text{ext}}\)	施加的力	推动物体运动

4. NewtonRewards：用后训练奖励教模型物理

4.1 另一种思路

前面三种方法都在训练/推理过程中嵌入物理。NewtonRewards（2025）走了一条更简单的路：后训练——用可验证的物理奖励对已有视频模型做 RLHF。

4.2 可验证物理奖励

速度奖励：通过光流估计速度，检查是否满足匀加速运动：

\[ r_{\text{vel}} = -\sum_t \|v_t - (v_0 + a \cdot t)\|^2 \]

如果物体做自由落体，\(a = g\)，奖励鼓励模型生成符合 \(v = v_0 + gt\) 的运动。

质量一致性奖励：检测到的物体应有一致的质量表现：

\[ r_{\text{mass}} = -\text{Var}\left(\frac{F_i}{a_i}\right)_{i=1}^{N} \]

如果同一个物体在不同碰撞中表现出不同的质量（\(m = F/a\) 不一致），给低奖励。

综合奖励：

\[ r = w_1 r_{\text{vel}} + w_2 r_{\text{mass}} + w_3 r_{\text{quality}} \]

4.3 后训练流程

用已有视频模型生成 \(N\) 个候选视频
计算每个视频的物理奖励
用 GRPO/DPO 等方法优化模型偏好

4.4 NewtonBench-60K

NewtonRewards 附带了一个评测基准——60K 个视频，标注了物理正确性：

类别	物理现象	示例
自由落体	\(y = \frac{1}{2}gt^2\)	球从高处落下
碰撞	动量守恒	台球碰撞
斜面运动	\(a = g\sin\theta\)	物体沿斜面滑下
抛体运动	抛物线轨迹	投篮

Physics-Grounded World Models Comparison

5. 四种方案对比

方案	物理嵌入方式	优点	局限
PhysDreamer	蒸馏材质参数 + MPM 仿真	物理准确的3D形变	仅弹性体，速度慢
PhysGen	先仿真后生成	力控制，刚体物理	仿真粗糙，仅2D
NewtonGen	潜空间牛顿方程	端到端，参数可控	物理近似
NewtonRewards	后训练物理奖励	即插即用，不改架构	依赖奖励质量

6. 物理约束的数学框架

6.1 守恒律作为损失项

物理中最基本的约束是守恒律。可以将其作为正则化项加入训练损失：

能量守恒：

\[ \mathcal{L}_{\text{energy}} = \left|\sum_i \frac{1}{2}m_i v_i^2(t) + m_i g h_i(t) - E_0\right|^2 \]

动量守恒（无外力时）：

\[ \mathcal{L}_{\text{momentum}} = \left\|\sum_i m_i \mathbf{v}_i(t) - \mathbf{p}_0\right\|^2 \]

6.2 PINN 式混合动力学

Physics-Informed Neural Networks（PINN）的核心思想：让神经网络的输出满足物理 PDE。

对于视频世界模型，可以要求：

\[ \mathcal{L}_{\text{total}} = \underbrace{\mathcal{L}_{\text{data}}}_{\text{拟合数据}} + \alpha \underbrace{\mathcal{L}_{\text{PDE}}}_{\text{满足物理方程}} \]

例如，对流体场景，\(\mathcal{L}_{\text{PDE}}\) 可以是 Navier-Stokes 方程的残差：

\[ \mathcal{L}_{\text{NS}} = \left\|\frac{\partial \mathbf{u}}{\partial t} + (\mathbf{u} \cdot \nabla)\mathbf{u} + \frac{1}{\rho}\nabla p - \nu \nabla^2 \mathbf{u}\right\|^2 \]

7. 总结与展望

物理化的视频生成代表了世界模型领域最重要的交叉方向之一——数据驱动的学习与物理知识的注入并非对立，而是互补。

趋势	含义
仿真→生成	用物理仿真器提供骨架，用生成模型填充视觉细节
奖励→对齐	用可验证的物理奖励"教"模型遵守物理定律
显式→隐式	从手写方程到可微仿真器到潜空间约束

下一篇将介绍世界模型在自动驾驶中的专业化应用——从像素级预测到 3D 占用预测。

下一篇：笔记｜世界模型（六）：自动驾驶世界模型——从视频预测到占用预测

参考文献

Zhang, T., et al. (2024). PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation. ECCV 2024.
Liu, S., et al. (2024). PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation. ECCV 2024.
Pan, Y., et al. (2025). NewtonGen: Physics-Consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics. arXiv:2509.21309.
Duan, H., et al. (2025). What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards. arXiv:2512.00425.