善良的xwysyy

速查 4 笔记 2

Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective

2026-06-04

--

--

用 AND-OR 交互框架追踪 SFT 过程中推理模式的涌现与消亡，发现 SFT 主要去噪而非学习新模式，且有效阶段极短。

#SFT #LLM #Explainability

Cover Image of the Post

强化学习算法梳理：从 PPO 到 GRPO 及之后

2026-05-25

--

--

梳理 2024-2026 年推理 LLM 强化学习的主要进展，从 REINFORCE、PPO 讲起，到 GRPO 及 DAPO、CISPO、GSPO 等后续改进方法。

Cover Image of the Post

2024-12-27

--

--

本文介绍如何通过配置SSH密钥和VSCode插件，实现从Windows系统远程连接Linux服务器进行开发。

Cover Image of the Post

2023-12-08

--

--

本文介绍Git LFS安装、代理配置及常用操作，包括连接远程仓库、提交代码、清除记录和版本回退等实用技巧。

Cover Image of the Post

2023-12-08

--

--

本文介绍LaTeX排版系统中的数学公式基础语法，包括上标、下标、积分、求和、字体设置及文本注释等常用符号的输入方法。

Cover Image of the Post

2023-12-08

--

--

文章介绍了Sublime Text的破解步骤，并详细列举了其丰富的快捷键分类与用法，涵盖选择、编辑、搜索及显示等操作。

Cover Image of the Post

© 2026 xwysyy. All Rights Reserved.

Powered by Astro & Firefly