YuMioの世界へ
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

强化学习中回报(Return)、价值(Value)、动作价值(Action-Value)和优势(Advantage)的联系

在做项目的过程中总是对这些概念有些模糊,如果不搞明白很容易在读论文和看代码的时候绕晕,因此写一篇笔记理清一下关系。 1.回报 Return 回报表示从时间步开始,经过未来所有时间步(或是有限步数)的折扣累积奖励。形式上可以写为: 其中: 是在时间步的即时奖励 是折扣因子,用于衡量未来奖励的重要性 是终止时间步(在无限时间步的情形下,使用极限) 回报代表了从时间步开始智能体可以获得的总收益
2025-03-14
#深度学习 #强化学习

Introduction to Robotics-Stanford 笔记 LEC4

LEC4 Manipulator Kinematics 机械臂运动学 正运动学是一种随动坐标系与基坐标系之间的关系 Link Description 连杆描述 1 对于一个连杆,其两端有两个关节轴,如何描述这两个轴的关系?为了去确定机械臂两个相邻关节轴的位置关系,可把连杆看作一个刚体。用空间中的直线来表示关节轴。显然,在描述连杆的运动时,一个连杆运动可用两个参数描述,这两个参数定义了空
2024-12-23
#Robotics

多智能体强化学习(MARL)值函数分解——从VDN到QMIX

一、MARL中的难点 1、部分可观察 当和环境进行交互时,无法看到和环境的全局状态,只能观察到自己视野范围内的局部信息。 比如StarCraft II: Partial observability is achieved by the introduction of unit sight range, which restricts the agents from receiving inf
2024-12-07
#强化学习 #多智能体

DDPM(Denoising Diffusion Probabilistic Models)论文阅读笔记

DDPM(Denoising Diffusion Probabilistic Models)论文阅读笔记 论文:Denoising Diffusion Probabilistic Models 前言 最近在研究Diffusion Policy,跟DDPM关系非常密切,于是读了下DDPM的文章,写篇笔记,顺便挖个坑,记录一些生成模型的研究。DDPM(以下简称扩散模型)不仅在图像生成方面有着非
2024-12-04
#深度学习 #Diffusion Model

Introduction to Robotics-Stanford 笔记 LEC3

没怎么听懂的一节,还得慢慢啃🤯 Homogeneous Transform Interpretations Description of frame 描述B相对于A的坐标系变换 Transform mapping 将坐标系B中的点P的描述映射到坐标系A中(点不变,向量变) Transform operator 将坐标系A中的向量变换成向量(坐标系不变) Transform Equati
2024-11-19
#机器人学

Introduction to Robotics-Stanford 笔记 LEC2

这自动识别的字幕和机翻看得是真的费劲啊。。。 Spatial Descriptions 空间描述 LEC2-1 Task Description: 确定机器人的位置、框架、连杆和关节 Transformations: 知道一个连杆/构件(这里把一个机械臂描述成连杆和关节组成的链条)的位置时,将该描述转换成下一个link的描述或者前一个link的末端位置和方向 Representati
2024-11-12
#机器人学

Introduction to Robotics-Stanford 笔记 LEC1

最近开始学习机器人学,目前跟着斯坦福大学的机器人学导论公开课学,记录一下第一课的笔记,都是些简单介绍的概念。 斯坦福大学机器人学导论公开课地址: Lecture 1 | Introduction to Robotics Lecture 1 | Introduction to Robotics 要控制机器人,首先需要找到机构本身的所有位置和方向,这需要我们找到物体在空间中的位置和方向的描述。
2024-11-07
#机器人学
记录在Linux服务器上配置Clash+yacd dashboard

记录在Linux服务器上配置Clash+yacd dashboard

日志参考: Linux 服务器安装 Clash代理,感谢作者。 一、安装与配置Clash 由于Clash的Github仓库已经被ban了,获取方法各凭本事,这里就不赘述了。 创建文件夹: 12mkdir clashcd clash 下载、解压、安装 以clash-linux-amd64-latest.gz为例,下载放进clash文件夹里并解压:gunzip clash-linux-a
2024-09-23
#Linux
12

搜索

Hexo Fluid