Posts

Deepseek-TUI Markdown格式修复

我的第一个开源贡献：修复 DeepSeek-TUI 的 Markdown 渲染问题背景 DeepSeek-TUI 是一个用 Rust 编写的终端 AI 助手，基于 DeepSeek V4 模型，支持 1M token 上下文。我在日常使用中发现 AI 的回复里 Markdown 格式完全没有被渲染，严重影响阅读体验。这是我第一次接触 Rust，也是我第一次向开源项目提交 PR。问题现象使用时发现三类渲染问题： 1. 表格原样输出 | 名称 | 版本 | 状态 | |----------|------|------| | React | 18.x | 稳定 | 分隔行 |---| 也直接显示出来，没有任何格式化。 2. 粗体/斜体标记符没有被剥掉 **粗体文本** 和 *斜体文本* 星号原样显示，没有加粗或斜体效果。 3. 水平线没有渲染 --- 直接显示成三个横杠，没有渲染成分隔线。代码分析项目的渲染逻辑在 crates/tui/src/tui/markdown_render.rs。读完代码后理解了它的设计：两阶段渲染架构源文本 → parse() → ParsedMarkdown (AST) → render_parsed(width) → Vec<Line> parse 阶段：与终端宽度无关，把源文本分类成 Block 枚举的各种变体 render 阶段：依赖宽度，做折行和样式渲染这个设计的好处是终端 resize 时只需重新 render，不需要重新 parse，性能更好。 ...

LONGCAT-SKILL0及其延伸思考---SkillLoRA

详细内容敬请期待–这里先放个Longcat的论文 SKILL0.pdf

ROCK-as-Backend-Harbor搭建

敬请期待

学习各种东西后一定要记笔记

今日最大感悟可以都记在这里就比如这个网站的使用方法博客维护手册最后更新：2026-05-04 一、架构概览你的电脑服务器 (134.209.97.93) ┌──────────────────────┐ ┌──────────────────┐ │ blog-papers/ (Obsidian)│ 部署脚本 │ /var/www/blog/ │ │ ├ llm学习记录/ │──Hugo构建──▶│ Nginx │ │ ├ 通信原理/ │ SCP上传 │ ↓ │ │ ├ 胡思乱想/ │ │ wyxbupt.me │ │ └ templates/ │ │ │ ├──────────────────────┤ └──────────────────┘ │ blog-scripts/ │ │ └ deploy-blog.ps1 │ │ └ rebuild-section-indexes.py │ └──────────────────────┘ 二、日常使用写文章打开 Obsidian，vault 在 E:\_MyCollegeLife\blog-papers 在对应文件夹里新建笔记： llm学习记录/ → LLM相关通信原理/ → 通信课程 ...

5.22 看大厂青年困境后的感想

通信原理第一章 - 绪论

通信系统基本模型、信息与信号基础概念

Test Workflow

这是测试文章：Obsidian 写笔记 → Hugo 构建 → 自动部署。如果你在网站上看到这段文字，说明发布流程正常工作！

agent-harness

harbor opencode

ppo

ppo、grpo、gspo

从强化学习到PPO的理论部分（学习笔记）

从强化学习到PPO的理论部分（学习笔记）从强化学习到PPO的理论部分（学习笔记）1.强化学习的基本概念2.理论推导部分3.针对R(τ)n的优化3.1对R(τ)n引入时间步的考量3.2状态价值函数，动作价值函数，优势函数3.3时序差分和GAE4.Proximal Policy Optimization(PPO)邻近策略优化4.1On-policy和Off-Policy4.2重要性采样4.3最终的形式最近从头开始学习强化学习以及PPO，花了两天的时间才搞懂了一些基本的概念和流程。主要参考了B站UP主RethinkFun的《零基础学习强化学习算法：ppo》，在这里记录一下自己的学习笔记。 1.强化学习的基本概念 State（状态）， Action（动作）， Environment（系统设定等环境）， Agent（智能体或模型） Reward：奖励，指Agent在某个State下执行了某个Action与Environment交互之后得到的奖励,记为r Policy：策略，主要指Agent在某个State下执行各个Action的概率分布，记为$\pi_{\theta}(a|s)$ Trajectory：轨迹，指在策略$\theta$下的某次具体的路径，也即Policy的一次采样值，记为$\tau$，由一连串的${{s_{1},a_1,s_2,a_2,\ldots}}$构成 Return:回报，指某次Trajectory结束后得到的累积Reward 所以强化学习的目标是：训练一个Policy神经网络$\pi$,在所有状态State下，做出相应的Action，得到相应的Reward，使得Return的期望最大或者表述为：训练一个Policy神经网络$\pi$,在所有的Trajectory下，Return的期望最大 2.理论推导部分前面提到，强化学习的目标是最大化Return的期望，Return的期望可以表示为 $$ E(R(\tau))_{\tau\in P_\theta(\tau)} = \sum_\tau R(\tau)*P_\theta (\tau) $$而对于公式中的 $P_{\theta}(\tau)$ ,表示的是该策略下选到该轨迹的概率，根据Trajectory的定义，其可以表示为： $$ P_\theta (\tau) = \prod_{t=1}^T \pi_\theta(a_t|s_t)*p(s_{t+1}|s_t,a_t) $$这里要怎么理解呢？根据Trajectory的定义，轨迹是由一连串的$s_1,a_1,s_2,a_2,\ldots,s_t,a_t$构成，因此可由某状态下执行某动作的概率*某个动作导致下一状态的概率连乘表示，其中$\pi_\theta(a_t|s_t)$由Policy决定（由下标也可以看出来），而$p(s_{t+1}|s_t,a_t)$由Environment决定。接着，我们知道在深度学习中，不管是求损失函数的最小值还是目标函数的最大值，都需要用到梯度下降法或者梯度上升法，所以这里我们来求$E(R(\tau))_{\tau\in P_\theta(\tau)}$的梯度 $$ \begin{align*} \nabla_\theta E(R(\tau))_{\tau\in P_\theta(\tau)}&= \nabla_\theta \sum_\tau R(\tau)*P_\theta (\tau) \\ &=\sum_\tau R(\tau)*\nabla_\theta P_\theta(\tau)\\ \end{align*} $$这里涉及到一个技巧：$\nabla ln(f(x)) = \frac{\nabla f(x)}{f(x)}$,因此我们可以用$P_\theta(\tau) \nabla_\theta ln(P_\theta (\tau))$替换掉公式中的$\nabla_\theta P_\theta (\tau)$,得到 $$ \begin{align*} &=\sum_\tau R(\tau)*P_\theta(\tau)\nabla_\theta ln(P_\theta(\tau))\\ &=\sum_\tau R(\tau)*P_\theta(\tau)\sum_{t=1}^T\nabla_\theta ln\pi_\theta(a_t|s_t)\\ &=E_{\tau\in P_\theta(\tau)}(R(\tau)\sum_{t=1}^T\nabla_\theta ln\pi_\theta(a_t|s_t)) \end{align*} $$这里不难理解，用到了期望的基本定义；之后我们再次用到期望的一个性质： ...

平庸之恶

随波逐流，逃避反思，对某一抽象立场/观点/词汇/符号的人云亦云，进而导致的盲目造神或群起而攻之里，没有对自己的具体行为对具体事件造成的具体影响的思考，并将其脱罪于所谓群体的意识。这是我在未了解到这个专业词汇前，对这种现象的理解和总结。以下举两个例子来进一步说明： 1.“嘉豪”梗：我第一次听说这个梗，对其理解是对某些自认小众/独特而产生优越感并进行标榜的群体进行的讽刺。我不回避的说，如今回想自己初高中时期，这样的行为与心态也非没有过，或者可能再过几年，回想现在的自己，可能也会自嘲一句“当时的自己真是个嘉豪”，所以当我第一次听到这个梗时，除了稍微觉得会有一些对真实姓名为“嘉豪”的人造成伤害的道德洁癖外，并未对这个梗有太多的抵触，只将其作为某种中立或善意的但不完全无害的自嘲方式。但后来我的观察里，这个词逐渐被泛化成了对一切刺痛自己神经的看法/行为/人物的无差别攻击。只要看不惯，一句“XX 嘉豪”“豪死我了”就可以在不区分“具体情境”“具体对象”的情况下形成某种诡异的共识，进而左脚踩右脚的互相支持互相加深刻板印象，最后进行群起攻之。虽然这样的趋势可以预想，但依旧让人难过。当这个原本有具体语境的圈地自萌的词汇，变成了一种无差别攻击的符号与标签，其本身带来的道德影响就已经无法回避，值得重视。但令人难过的是，在群体无意识的浪潮里，该道德影响背后的责任无从追溯，个体层面的责任被无限分散消解，仅一句“玩梗而已”就足以在心理和道德层面双重脱罪，而追究群体责任，又无异于从雪崩里揪出那几片最大的雪花。更无解的是，这种梗还存在着一种逻辑闭环。我甚至可以预见的是，以上文字发出，我很快就会被贴上一个词：“反思嘉豪”/“哲学嘉豪”。这就是其无解之处，任何想要打破闭环的因素都可以轻易被同化消解，进而依旧在闭环里反复。 2.“胖猫”梗：当初“胖猫”事件引发“大桥外卖潮”与激烈的男女对立，而在事件迎来所谓反转后，“胖猫”作为逝者又被迅速消解为娱乐符号并被各种“玩梗”。令我震惊的是，这两波浪潮中的竟然几乎是同一批人。一旦问起原因，只有“当时被情绪煽动”“好像反转了”“玩梗而已”这样抽象的人云亦云的回答。在这场浪潮里，人们似乎并无对具体事物的痛感、对具体人物的触感，只有对某种身份认同（不管是纯爱的道德符号，还是讽刺意味的娱乐符号）的狂热追求。点一份外卖，我就是纯爱战士的坚定支持者；玩一次梗，我就不是玩不起梗的故作清高的严肃无趣者。这两个案例看似不同，但指向的是同一个深层机制：个体在群体中的自我解散。胖猫事件里，人们不需要真的关心胖猫是谁，只需要"纯爱战士"这个身份标签来确认自己的道德站位。嘉豪梗里，人们不需要真的分析对方错在哪里，只需要"嘉豪"这个标签来宣告对方的无效和自己的优越。一个是向外投射道德感，一个是向内确认归属感——但操作方式一模一样：用标签替代思考，用立场替代判断。更值得追问的是：为什么这种机制在今天如此高效？我觉得关键在于——互联网生态对"反思"的系统性惩罚。一个认真思考的人，在公共空间里面对的是一个非常不对称的局面： • 贴标签：一秒，零消耗 • 认真回应：十分钟，还要承担被攻击的风险 • 解构严肃讨论：一句"玩梗而已"，快乐，还有点赞 • 严肃讨论：吃力不讨好，被说上纲上线这是一个激励不思考、惩罚思考的负反馈循环。当"随便"的成本趋近于零，而"认真"的成本越来越高的时候，平庸之恶就不再需要"恶人"了——它只需要无数个随手点了转发、随手回了哈哈的人。每个人都没有"故意做恶"，但合在一起就是一片没有主体的暴政。那剩下一个更难的问题：知道这些之后，还能怎么办？我没有乐观的通解。但几个不成熟的方向也许值得试试看：一是不回避具体性。在自己的小范围里，坚持和具体的人谈具体的事。当别人说"这人是个嘉豪"的时候，追问一句"他到底说了什么让你不舒服"——哪怕这句话被当成"反思嘉豪"，也值得说。二是不放弃自我审视。就像我自己回看初中时的心态时说的"当时的自己真是个嘉豪"——这种诚实本身就是对平庸之恶的抵抗。承认自己也在系统里，比站在外面评判别人难得多，但也诚实得多。三是不追求速效。这种层面的改变不可能靠一次呼吁、一篇文章、一个热搜完成。它更像是一种长期的、隐秘的自我训练——在每个想随手贴标签的瞬间多停一秒，在每个想跟风的时候多问一句"我确定吗"。

心理的最小单位是感受

最近听到一个让我一下通了不少事的观点：心理的最小单位是感受。我顺着这个想了很久，写下来算是一次梳理吧。为什么是感受，不是道理？我以前总觉得"想通一个道理就能解决问题"。比如我知道了"我不配得感是因为小时候怎样怎样"，好了，我知道了，那下次应该就能正常了吧？但不行。下次遇到同样的场景，那股难受的感觉还是会自动冒出来。道理在脑子里清清楚楚地跑，感受在身体里平行地跑，两套系统根本不互通。你能用一个道理说服一个人，但你很难用一个道理说服自己身体里的那道程序。后来我理解了，感受比认知来得早太多。你还在发育、还没学会说话的时候，被抱、被放下、被注视、被忽略，就已经在积累感受数据了。那些东西存得比道理深得多，层级完全不一样。认知像是后来盖在土地上的楼，感受是那片地本身的土质和地基。你可以在楼上装修，但地基不行就是不行，装修得再漂亮也没用。道理是面子，感受是里子。面子可以换，里子是盖在骨头上的。感受链路是怎么形成的一个本能的感受产生了——比如考了第一名，很高兴，本能地想要被看见、被夸奖。如果这个时刻，有人接住了你——“哇你真的好棒”——这个感受就完成了它的生命周期，自然地释放、消散了。然后继续下一个感受。但如果没被接住呢？感受不会凭空消失。它会被打包存档，而且不是原样存，是带着一条备注一起存。备注的内容取决于环境给你的反馈。我的情况是：每次考第一，回到家想要被认可，换来的不是表扬，而是"别张扬"“低调点"“枪打出头鸟”。看得出来，我妈是真心觉得这是为我好。但问题是，那个"想被看见"的感受没有消失，它只是被压下去了。而且每一次被压抑都在上面叠了一层新感受：“想要被看见是会带来尴尬的"“想要被表扬是我的问题。” 一次、两次、上百次之后，那条备注就固化成了一道自动运行的程序——不需要你思考，不需要你允许，它自己就在跑了。那条程序大概长这样：做得好 → 但我不该被看见 → 必须先对标最厉害的人 → 看看那些最厉害的人什么样 → 完了我差太远 → 开始幻想他们笑话我 → 算了别做了。有没有发现，从"做得好"到"算了别做了”，中间没有一个步骤是理性参与的。全是自动的。这就是心理链路的可怕之处——它不是你可以选择打开关闭的东西，它已经长在你的系统里了。另一条链路类似，不过是关于"想要"的。小时候想要玩具，但家里条件一般，于是学会了"我不说，我说了就是不懂事”。换来一句"真懂事"当奖励。久了就变成：我想要 → 但我不该要 → 如果我想要了我就不是好孩子 → 所以我不配。这条链路的终点，就是成年后每次为自己花点钱，负罪感先于快乐到达。两条链路，一条管"被看见"，一条管"被满足"。你想想，一个人活在这个世界上，主要不就这两件事吗？为什么能说出来就是进步这玩意儿最坑人的地方在于它会藏在你看不见的地方。你不会在结账前对自己说"好了，不配得模式即将启动"——你只是突然觉得一阵不舒服，一阵负罪感突然升起，但不知道从哪来的。它的运行是无声的，是你身体里的一道后台程序，从你有记忆之前就在跑，跑到你都忘了它是跑着的。所以当你能把这些东西用语言描述出来的时候，最根本的变化已经发生了：你从被它驱动，变成了看它怎么跑的人。你不再是被程序控制的人，你是能坐下来读那一段代码的人。这个距离本身就意味着变化已经开始了。我觉得这是所有疗愈的共同起点。不是因为说出来就能改，而是因为你终于不用再被它暗中操控了。然后呢说能说出来就完了，那太理想化了。问题摆在那了，路还得走。我不信"对抗"这一套。你越是用力对抗一条链路，它就越被强化——因为它会识别出"威胁"，变得更活跃。更像是在跟一个程序较劲，你越用力按，它越反弹。我更相信的方法是从小处试。今天想吃什么就去吃，想说什么话就说，想发的一条动态就发——不先过那道"我配吗"“他会不会笑话我"的审查。不是放纵，是教你的大脑说：看，我的感受是可信的。我在做我本能想做的事，没出事。一次两次不会改变什么。但当你积累了足够多的"安全经验”，大脑会慢慢开始接受：原来"被看见"不会出事，原来"被满足"也不会被抛弃。那两条旧的链路不会消失，但它们旁边会长出新的路径。下次再走到那个岔路口的时候，你会有多一个选择。-最后这框架不局限于原生家庭那点事。工作中不敢跟老板提加薪、不敢拒绝不合理的安排、亲密关系里不敢表达真正的需求、社交场合不敢展现真实的自己——底层都是同一个机制：某些本能的感受，在成长过程中被贴上了"不能碰"的标签。而成长的过程，就是把那些被贴上"危险"标签的感受，一个一个地取下来，重新检验一遍。说到底它们本来就不是危险的。它们只是没有被好好接住。所以我们应当从感受着眼，来解决那些所谓的表象问题

Hello World

欢迎来到我的学习笔记博客。这里会记录课程整理、复习要点和实验总结。