YuMioの世界へ
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

广义优势估计(Generalized Advantage Estimation,GAE)

Warning:这是一篇GPT-based笔记 在强化学习中,广义优势估计(Generalized Advantage Estimation,GAE)是一种对优势函数进行平滑估计的方法,通过对不同步长的时序差分残差(TD residual)按指数加权累积,以在偏差-方差权衡上取得最佳效果。GAE引入了参数控制权重,当时退化为单步TD(0),可获得低方差、高偏差的估计;当时退化为蒙特卡洛回报,
2025-04-23
#强化学习

6D连续旋转表示(On the Continuity of Rotation Representations in Neural Networks)

出自论文:On the Continuity of Rotation Representations in Neural Networks 毕业设计用到机械臂,复现的论文提到采用6D旋转表示更适合神经网络学习。此前一直没弄清楚所谓的6D旋转表示是什么,为什么不直接用旋转矩阵或者四元数。今天查了些资料(其实是问了AI)简单总结一下,但其背后还涉及到更深层次的数学知识(例如群论)还远超出我的知
2025-04-21
#深度学习 #机器人学

记录一个在运行isaac gym时遇到的bug和修bug过程:cudaExternamMemoryGetMappedBuffer failed on…

Bug的出现 今天在跑项目时,发现会报错: 1234Traceback (most recent call last): ... color_obs = torch.stack(color_obs)[..., :-1] #RGBA->RGBTypeError: expected Tensor as elment 0 in argument 0, but got NoneType 大概情况
2025-04-07
#Python #IsaacGym

通过SSH克隆Github仓库时报错The authenticity of host 'github.com' can't be established.

今天在服务器上git clone时出现错误: 12git@github.com: Permission denied (publickey).fatal: Could not read from remote repository. 一看不知道为什么之前配置的SSH Key被删掉了,正好借此机会记录一下这个问题的解决。 出现这个问题说明Git无法同通过SSH访问Github,很大的可能是因为S
2025-03-19
#Linux

强化学习中回报(Return)、价值(Value)、动作价值(Action-Value)和优势(Advantage)的联系

在做项目的过程中总是对这些概念有些模糊,如果不搞明白很容易在读论文和看代码的时候绕晕,因此写一篇笔记理清一下关系。 1.回报 Return 回报表示从时间步开始,经过未来所有时间步(或是有限步数)的折扣累积奖励。形式上可以写为: 其中: 是在时间步的即时奖励 是折扣因子,用于衡量未来奖励的重要性 是终止时间步(在无限时间步的情形下,使用极限) 回报代表了从时间步开始智能体可以获得的总收益
2025-03-14
#深度学习 #强化学习

Introduction to Robotics-Stanford 笔记 LEC4

LEC4 Manipulator Kinematics 机械臂运动学 正运动学是一种随动坐标系与基坐标系之间的关系 Link Description 连杆描述 1 对于一个连杆,其两端有两个关节轴,如何描述这两个轴的关系?为了去确定机械臂两个相邻关节轴的位置关系,可把连杆看作一个刚体。用空间中的直线来表示关节轴。显然,在描述连杆的运动时,一个连杆运动可用两个参数描述,这两个参数定义了空
2024-12-23
#Robotics

多智能体强化学习(MARL)值函数分解——从VDN到QMIX

一、MARL中的难点 1、部分可观察 当和环境进行交互时,无法看到和环境的全局状态,只能观察到自己视野范围内的局部信息。 比如StarCraft II: Partial observability is achieved by the introduction of unit sight range, which restricts the agents from receiving inf
2024-12-07
#强化学习 #多智能体

DDPM(Denoising Diffusion Probabilistic Models)论文阅读笔记

DDPM(Denoising Diffusion Probabilistic Models)论文阅读笔记 论文:Denoising Diffusion Probabilistic Models 前言 最近在研究Diffusion Policy,跟DDPM关系非常密切,于是读了下DDPM的文章,写篇笔记,顺便挖个坑,记录一些生成模型的研究。DDPM(以下简称扩散模型)不仅在图像生成方面有着非
2024-12-04
#深度学习 #Diffusion Model

Introduction to Robotics-Stanford 笔记 LEC3

没怎么听懂的一节,还得慢慢啃🤯 Homogeneous Transform Interpretations Description of frame 描述B相对于A的坐标系变换 Transform mapping 将坐标系B中的点P的描述映射到坐标系A中(点不变,向量变) Transform operator 将坐标系A中的向量变换成向量(坐标系不变) Transform Equati
2024-11-19
#机器人学

Introduction to Robotics-Stanford 笔记 LEC2

这自动识别的字幕和机翻看得是真的费劲啊。。。 Spatial Descriptions 空间描述 LEC2-1 Task Description: 确定机器人的位置、框架、连杆和关节 Transformations: 知道一个连杆/构件(这里把一个机械臂描述成连杆和关节组成的链条)的位置时,将该描述转换成下一个link的描述或者前一个link的末端位置和方向 Representati
2024-11-12
#机器人学
123

搜索

Hexo Fluid