YuMioの世界へ
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

TensorBoard 无法显示数据?大日志背后的可见性陷阱

1. 现象描述: 在服务器上进行深度学习训练,并用Tensorboard记录训练日志,但是发现某一个实现日志在通过浏览器打开Tensorboard页面之后没有数据显示,而是产生了下面的警告: image.png 一般这种警告是因为日志中没有数据写入,比如实验刚运行起来就终止了。但是我确定我的这个日志中是有数据写入的,因为同一时间运行起来的另一个实验的日志是能正常用Tensorboard打开
2026-01-16

在A100平台集群上部署OpenVLA与LIBERO仿真环境的踩坑及解决方法记录

1. 问题背景 在尝试运行OpenVLA的LIBERO评测脚本时,遇到了从环境导入到编译安装,再到底层图形驱动的一系列问题。 运行环境: 硬件:NVIDIA A100 任务:OpenVLA 7B 策略在LIBERO仿真环境中的评估 软件:PyTorch + MuJoCo (Robosuite) 2. 主要问题及解决方案 问题一:模块搜索路径失效 (ModuleNotFoundError)
2026-01-16
#Linux #Ubuntu #Python #Pytorch

ninja / g++ / nvcc 到底谁是谁:一次把“编译这件事”的角色分清楚

今天在服务器上编译pointnet2_ops时遇到了一些问题,并且报错的输出中包含以下信息: ninja: build stopped c++ ...(其实就是 g++) /path/to/nvcc ... 以及一堆 -I -L -gencode -std=c++17 于是去研究了一下这些工具在编译中的角色,特别是ninja / g++ / nvcc这三者。 1. 总览:三者的分工
2026-01-14
#Linux #Compile #CUDA

PATH vs. LD_LIBRARY_PATH: Linux 开发里最容易踩坑的两条“路径”环境变量(以及一堆亲戚)

Intro: 你在Linux上敲python、nvcc、gcc等命令时,它们是怎么被找到的?你编译出来的程序运行时为什么会突然报错 libxxx.so: cannot open shared object file ?这些玄学的背后,几乎都和PATH、LD_LIBRARY_PATH以及它们的亲戚有关。 这篇博客就把它们按“到底在找什么”讲清楚: PATH: 找可执行文件 LD_LIBRA
2026-01-14
#Linux

Ubuntu服务器上在conda环境中安装nvcc并成功编译cuda扩展(无管理员权限)

场景:在服务器上安装一个带CUDA扩展的Pyhton包(例如Pointnet++的pointnet2_ops) 问题:服务器GPU是RTX 3090,pytorch版本是2.4.1+cu118,但是系统上没有安装cuda 11.8,导致 pip install -e . 编译扩展失败。并且没有管理员权限,安装不了cuda 11.8. 目标:不触碰系统级CUDA,用conda在用户态装齐编译链
2026-01-14
#Ubuntu #Conda #nvcc #cuda #debug

使用SSH 隧道转发绕过服务器网络封锁 / Windsurf连接远程服务器时加载不出Cascade

1. 问题描述 在远程服务器上进行开发的时候,突然发现Windsurf加载不出Cascade的对话框了,不管怎么刷新窗口、杀死进程都没用,Cascade窗口只会一个Logo,没有任何反应。但是在本地计算机上,Windsurf完全正常。 此外,运行clash进程的终端中,发现日志中频繁刷出i/o timeout 或 connect error 。 2. 故障排查与定位 我在远程服务器上按照以
2026-01-14
#Linux #Ubuntu #Debug #Windusrf

在一台计算机上运行多个torchrun任务

1. 问题 当我在一个终端中运行 CUDA_VISIBLE_DEVICES=6,7 torchrun --nproc_per_node=2 xxx.py ,然后打开了第二个终端运行 CUDA_VISIBLE_DEVICES=3,4 torchrun --nproc_per_node=2 xxx.py 时,产生了报错: 1RuntimeError: The server socket has f
2026-01-14
#Ubuntu #Python #Pytorch

Matplotlib无法使用Times new roman字体

解决方案: 12sudo apt install msttcorefonts -qqrm ~/.cache/matplotlib -rf
2026-01-14
#Ubuntu #Python

从一台电脑迁移 Hexo 项目到另一台电脑:踩坑记录与完整解决方案

在日常开发中,把Hexo博客工程从一台电脑迁移到另一台电脑上是非常常见的事情,例如: 更换电脑 在服务器/Ubuntu环境继续写博客 在多台设备之间同步维护博客 但是Hexo项目并不是clone下来就能直接跑的。 本文记录一次真实的迁移过程,以及其中遇到的问题、背后的原因和标准的解决方案,供后续参考。 一、背景说明 原始环境 一台已经正常运行Hexo博客的电脑 博客工程已经push到Gi
2026-01-14
#Linux #Ubuntu

RynnVLA-001 Using Human Demonstrations to Improve Robot Manipulation

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation image.png I. 核心思想与贡献 RynnVLA-001 的核心贡献在于提出了一套系统性的知识迁移方法论,旨在解决机器人领域长期存在的数据稀缺问题。它不直接创造一个全新的模型架构,而是通过一个精心设计的渐进式预训练流程,将海量、易于获取的人类
2025-09-24
#VLA #Robotics #World Models
1234

搜索

Hexo Fluid