Tolshao

规划是基于模型的搜索，学习是基于数据的总结，二者结合，1+1>2

2020-08-17 强化学习笔记

一点点装饰你的房子，让它变得更漂亮

2020-08-12 博客

Blog Hexo

策略梯度法，可以实现不基于价值函数的动作选取，在训练过程中稳定性更优

2020-08-11 强化学习笔记

不买域名，不租服务器，不写html，跟我走

2020-08-08 博客

Blog

ios黄页，让你用iPhone打电话的时候快人一步

2020-08-07 工具

ios 黄页 iPhone

当然是因为他仿真精度高啊，为啥，进来看看吧小跳最近在搭建一个数值仿真环境，由于需要用到python里面的一些库，所以不得不把simulink的模型搬过来，我们都知道在simulink里，仿真的时候设置仿真步长和微分方程求解器是必要的步骤。但是为什么要设置这个小跳却早已忘记了。

2020-08-05 笔记

RK4 数值仿真

离散空间的RL问题可以构建value table进行查表解决，对于连续空间的问题，可以引入值函数估计器，解决了查表运算量大的问题

2020-08-05 强化学习笔记

Keras是一个高层神经网络API，能够把你的idea迅速转换为结果

2020-08-03 机器学习笔记

机器学习 ML keras tensorflow

记录了深度学习课程的知识与亮点，不仅仅适合初学者了解深度学习，还适合机器学习从业者和研究者复习基本概念。

2020-08-03 机器学习笔记

深度学习 DL

完成了不基于模型的策略评估之后，可以采取$\epsilon$-greedy等方法进行动作选取，根据状态信息进行动作选取并执行，就实现了不基于模型的控制

2020-08-01 强化学习笔记

深度学习是用深度神经网络的方法，将机器学习加以拓展，其优势是可以实现超复杂非线性函数的映射

2020-07-23 机器学习笔记

BiliBili_Dr_can 课程笔记

2020-07-15 控制理论笔记

高级控制理论经典控制理论