ROC 曲线与 PR 曲线
ROC 曲线和 PR 曲线是评估机器学习算法性能的两条重要曲线,两者概念比较容易混淆,但是两者的使用场景是不同的。本文主要讲述两种曲线的含义以及应用的场景。
ROC 曲线和 PR 曲线是评估机器学习算法性能的两条重要曲线,两者概念比较容易混淆,但是两者的使用场景是不同的。本文主要讲述两种曲线的含义以及应用的场景。
python 的 format
函数能够对输出做格式化从而使得符合输出的要求,这里记录其一些常见用法,主要参考了博客 飘逸的 python - 增强的格式化字符串 format 函数
在之前的文章 强化学习笔记 (2)- 从 Q-Learning 到 DQN 中,我们已经知道 Q-Learning 系列方法是基于 value 的方法, 也就是通过计算每一个状态动作的价值,然后选择价值最大的动作执行。这是一种间接的做法,那有没有更直接的做法呢?有!那就是直接更新策略。本文要介绍的 Policy Gradient 就是这类 policy-based 的方法, 除此之外,还会介绍结合了 policy-based 和 value-based 的 Actor-Critic 方法,以及在 Actor-Critic 基础上的 DDPG、A3C 方法。
在上一篇文章强化学习笔记 (1)- 概述中,介绍了通过 MDP 对强化学习的问题进行建模,但是由于强化学习往往不能获取 MDP 中的转移概率,解决 MDP 的 value iteration 和 policy iteration 不能直接应用到解决强化学习的问题上,因此出现了一些近似的算法来解决这个问题,本文要介绍的就是基于 value iteration 而发展出来的 Q-Learning 系列方法,包括 Q-Learning、Sarsa 和 DQN。
本文主要介绍强化学习的一些基本概念:包括 MDP、Bellman 方程等, 并且讲述了如何从 MDP 过渡到 Reinforcement Learning。
本文简单介绍梯度裁剪 (gradient clipping) 的方法及其作用,最近在训练 RNN 过程中发现这个机制对结果影响非常大。
本文主要介绍了如何通过 Keras 实现 LRCN 模型,模型出自论文 Long-term Recurrent Convolutional Networks for Visual Recognition and Description,最近需要用这个模型做个实验,在网上搜到的实现代码不多,因此这里记录一下,以供参考。
最近需要频繁切换使用台式机和笔记本,但是我的小桌子上实在没法同时放得下一个键盘和笔记本 (≧0≦)。哪怕凑合挤下,还得不停在两台电脑之间切换键鼠,因此就想着有没有共享键鼠的方案,结果在网上找到了 Synergy,试了几天后发现这真的是一个共享键鼠的神器。
本文主要介绍 Wand (Weak And) 算法的原理和实现,Wand 算法是一个搜索算法,应用在 query 有多个关键词或标签,同时每个 document 也有多个关键词或标签的情形(如搜索引擎);尤其是在 query 中的关键词或标签较多的时候,通过 Wand 能够快速的选择出 Top n 个相关的 document,算法的原始论文见 Efficient Query Evaluation using a Two-Level Retrieval Process,本文主要讲述这个算法的原理以及通过 python 实现这个算法。
文章为转载,原文链接见这里,作者是 carbon zhang。这篇文章主要介绍了分布式机器学习中的若干重点概念和经典论文,包括数据并行和模型并行、分布式框架的流派、参数服务器以及同步协议的演进等,非常值得一看。