YuMioの世界へ

Dreamer V3 Mastering Diverse Domains through World Models

Dreamer V3: Mastering Diverse Domains through World Models 深度学习笔记：解构DreamerV3——通用强化学习的基石论文核心贡献: 本文提出了DreamerV3，一个基于世界模型的通用强化学习算法。其核心突破在于，使用单一固定超参数配置，在超过150个任务上展现了卓越的性能，超越了众多为特定领域精调的专家算法。其里程碑式的成就是，

2025-09-24

#VLA #模仿学习 #Robotic Manipulation

Flow matching训练时训练损失不降低的问题

Flow matching训练时训练损失不降低今天尝试复现flow matching训练一个机器人操作任务，但是发现训练损失完全没有下降的趋势，排查之后发现问题在于网络初始化的时机不对。在我的流匹配模型中(MLP based)，一开始的网络初始化逻辑是这样的: 1234567891011121314151617181920# In FlowMatchingMLPdef __init__(.

2025-09-11

#algorithm #flow matching #diffusion #torch

Ubuntu远程服务器无法正常git pull

Ubuntu远程服务器无法正常git pull 问题今天在服务器上运行git pull发现无法拉取，输出以下信息: 12345678910111213141516Missing or invalid credentials.Error: connect ECONNREFUSED /run/user/1028/vscode-git-363d95683a.sock at PipeConne

2025-09-11

#Ubuntu #git

Ubuntu根目录空间占用过高，通过清理系统日志文件进行清理

Ubuntu根目录空间占用过高，通过清理系统日志文件进行清理问题发现今天突然发现 / 目录占用达到了100%，需要清理一下磁盘，进入/ 目录一看，发现/var/log 占用了55G磁盘，再进log 中查看，发现syslog 就占用了50G。处理方法 1.临时清空日志 1sudo truncate -s 0 /var/log/syslog 由于syslog是系统日志文件，不能直接删除。上述

2025-09-05

#Linux #Ubuntu

Open3D无头渲染失败：eglInitialize failed

Open3D无头渲染失败：eglInitialize failed 最近在尝试做点云，将点云特征作为机器人策略的输入。先是用RGBD图像构建点云数据，然后用Open3D渲染，由于我在服务器上渲染，没有显示设备，VcXsrv也莫名其妙不通，只好采用无头模式(headless)进行离线渲染，相关代码如下： 1234567891011121314151617181920212223242526272

2025-08-18

#Ubuntu #Open3D #EGL

Learning to Act Anywhere with Task-centric Latent Actions

论文地址：Learning to Act Anywhere with Task-centric Latent Actions 这篇论文的核心目标是解决当前机器人学习领域的一个重大挑战：如何创建一个通用（Generalist）的机器人策略，使其能够利用互联网上海量的、多样化的、无动作标签的视频（例如人类活动视频），并在不同的机器人（Embodiment）和不同的任务上高效工作。一、核心问

2025-08-14

#VLA #模仿学习 #Robotic Manipulation

在humanoid-gym训练以及演示过程中记录的视频无法在Vscode中播放

用Humanoid-gym这套框架训练之后，运行其提供的play.py记录下的视频无法在Vscode中播放。由于我在远程服务器上训练，要想查看演示效果就得下载到本地再播放，十分不方便。 humanoid-gym原有的记录视频的代码如下： 123456789101112131415161718192021222324252627282930313233#------------相机初始化----

2025-08-14

#强化学习

Ubuntu安装不同版本的GCC/G++并切换

有时会遇到需要在同一台机器上使用不同版本的GCC/G++编译器的情况，比如在编译不同版本的项目时，或者在使用某些特定的库时。假设系统中已经安装了gcc13和g++13，以安装gcc11、g++11为例： 1sudo apt install gcc-11 g++-11 顺利的话，系统中就会存在两个版本的gcc和g++。在终端中输入： 12ls /usr/bin/gcc*ls /usr/bin/

2025-04-29

#Linux

OpenVLA(An Open-Source Vision-Language-Action Model)

论文地址：OpenVLA: An Open-Source Vision-Language-Action Model 一、背景 1.机器人操作策略的弱点：无法在训练数据之外泛化，即使有些方法能够将操作行为推广到不同的初始条件（比如对象位姿），但仍然缺少鲁棒性，难以应对数据集中不存在的情况相比LVLM，机器人操作任务数据集的数据量较少，即使最大的机器人操作数据集也只有100k-1M个演示

2025-04-27

#VLA #机器人学习 #机器人操作

广义优势估计（Generalized Advantage Estimation，GAE）

Warning：这是一篇GPT-based笔记在强化学习中，广义优势估计（Generalized Advantage Estimation，GAE）是一种对优势函数进行平滑估计的方法，通过对不同步长的时序差分残差（TD residual）按指数加权累积，以在偏差-方差权衡上取得最佳效果。GAE引入了参数控制权重，当时退化为单步TD(0)，可获得低方差、高偏差的估计；当时退化为蒙特卡洛回报，

2025-04-23

#强化学习