强化学习笔记(四)
强化学习学习笔记,从MDP到动态规划,从MC方法到TD方法,从函数逼近到策略梯度,从DQN到PPO,从强化学习到大语言模型
强化学习笔记(三)
强化学习学习笔记,从MDP到动态规划,从MC方法到TD方法,从函数逼近到策略梯度,从DQN到PPO,从强化学习到大语言模型
强化学习笔记(二)
强化学习学习笔记,从MDP到动态规划,从MC方法到TD方法,从函数逼近到策略梯度,从DQN到PPO,从强化学习到大语言模型
强化学习笔记(一)
强化学习学习笔记,从MDP到动态规划,从MC方法到TD方法,从函数逼近到策略梯度,从DQN到PPO,从强化学习到大语言模型
分布式训练
分布式训练,包括训练的显存计算,分布式训练的基本概念、训练技术(DDP、FSDP、DeepSpeed)、分布式训练库(torchrun、Accelerate)
机器学习笔记
机器学习学习笔记,包括概率分布、朴素贝叶斯、信息熵、隐马尔可夫模型、FNN、BP算法、RNN、CNN、Transformer
LLaMA-Factory参数说明
LLaMA-Factory微调、推理等各阶段的参数说明
大模型微调BUG记录
大语言模型微调,有关微调的定义、分类、方法、加速等方面的综述。
大语言模型微调综述
大语言模型微调,有关微调的定义、分类、方法、加速等方面的综述。
卸载小米系列机型的预装软件
卸载小米系列机型的预装软件
Anaconda安装教程及命令
Anaconda是一个开源的Python发行版和包管理器,用于简化Python环境的安装和管理,特别是在数据科学和机器学习领域中广泛使用。
博客搭建指南(一)
我的博客搭建指南之一,主要介绍博客功能的演变升级历程,如控制台、导航栏、右键菜单等实现过程。