监督信号的粒度与训练效率
从 DPI 和 η 框架理解合成数据为什么有时有效有时崩溃,以及监督信号的粗细如何决定训练效率、泛化能力和 reward hacking 风险。
Image API Error
强化学习算法梳理:从 PPO 到 GRPO 及之后
梳理 2024-2026 年推理 LLM 强化学习的主要进展,从 REINFORCE、PPO 讲起,到 GRPO 及 DAPO、CISPO、GSPO 等后续改进方法。
Image API Error
LLM 深度解析:从后训练到 Agent 时代
P-Lib 2026 年第一次讲座的视频学习笔记:从后训练(SFT / RLHF / RLVR / DPO)到 Agent 时代的演进,涵盖推理能力三层次、Benchmark 评估方法、Agent RL 训练范式以及 LLM 能力边界的判断。
Image API Error
大模型训练、推理、Infra 概览
北京大学 Linux 俱乐部 HPCGame 2026 赛前讲座笔记,覆盖大模型训练、推理系统、并行策略、GPU 与高性能网络。
Image API Error
Sublime Text
文章介绍了Sublime Text的破解步骤,并详细列举了其丰富的快捷键分类与用法,涵盖选择、编辑、搜索及显示等操作。
Image API Error
分类
标签
LLM 7 RL 5 Distributed Training 3 GPU 3 MoE 3 Post-Training 3 Scaling Laws 3 Attention 2 GRPO 2 Inference 2 Transformer 2 Benchmark 1 CUDA 1 Data 1 Evaluation 1 Flash Attention 1 Git 1 GPU Kernel 1 Information-Theory 1 KV Cache 1 LaTeX 1 Linux 1 Pre-Training 1 Quantization 1 State Space Models 1 Sublime Text 1 Tokenization 1 Triton 1
分类
标签
LLM 7 RL 5 Distributed Training 3 GPU 3 MoE 3 Post-Training 3 Scaling Laws 3 Attention 2 GRPO 2 Inference 2 Transformer 2 Benchmark 1 CUDA 1 Data 1 Evaluation 1 Flash Attention 1 Git 1 GPU Kernel 1 Information-Theory 1 KV Cache 1 LaTeX 1 Linux 1 Pre-Training 1 Quantization 1 State Space Models 1 Sublime Text 1 Tokenization 1 Triton 1
© 2026 xwysyy. All Rights Reserved.