吴良超的学习笔记

强化学习笔记 (2)- 从 Q-Learning 到 DQN

发表于 2018-05-09 标签机器学习，强化学习

在上一篇文章强化学习笔记 (1)- 概述中，介绍了通过 MDP 对强化学习的问题进行建模，但是由于强化学习往往不能获取 MDP 中的转移概率，解决 MDP 的 value iteration 和 policy iteration 不能直接应用到解决强化学习的问题上，因此出现了一些近似的算法来解决这个问题，本文要介绍的就是基于 value iteration 而发展出来的 Q-Learning 系列方法，包括 Q-Learning、Sarsa 和 DQN。

阅读全文 »

强化学习笔记 (1)- 概述

发表于 2018-05-05 标签机器学习，强化学习

本文主要介绍强化学习的一些基本概念：包括 MDP、Bellman 方程等，并且讲述了如何从 MDP 过渡到 Reinforcement Learning。

阅读全文 »

梯度裁剪及其作用

发表于 2018-05-01 标签机器学习，深度学习

本文简单介绍梯度裁剪 (gradient clipping) 的方法及其作用，最近在训练 RNN 过程中发现这个机制对结果影响非常大。

阅读全文 »

通过 Keras 实现 LRCN 模型

发表于 2018-04-18 标签机器学习，深度学习

本文主要介绍了如何通过 Keras 实现 LRCN 模型，模型出自论文 Long-term Recurrent Convolutional Networks for Visual Recognition and Description，最近需要用这个模型做个实验，在网上搜到的实现代码不多，因此这里记录一下，以供参考。

阅读全文 »

共享键鼠神器 Synergy

发表于 2018-03-31 标签工具使用

最近需要频繁切换使用台式机和笔记本，但是我的小桌子上实在没法同时放得下一个键盘和笔记本（≧0≦）。哪怕凑合挤下，还得不停在两台电脑之间切换键鼠，因此就想着有没有共享键鼠的方案，结果在网上找到了 Synergy，试了几天后发现这真的是一个共享键鼠的神器。

阅读全文 »

Wand 算法介绍与实现

发表于 2018-03-18 标签计算广告

本文主要介绍 Wand (Weak And) 算法的原理和实现，Wand 算法是一个搜索算法，应用在 query 有多个关键词或标签，同时每个 document 也有多个关键词或标签的情形（如搜索引擎）；尤其是在 query 中的关键词或标签较多的时候，通过 Wand 能够快速的选择出 Top n 个相关的 document，算法的原始论文见 Efficient Query Evaluation using a Two-Level Retrieval Process，本文主要讲述这个算法的原理以及通过 python 实现这个算法。

阅读全文 »

大规模机器学习框架的四重境界

发表于 2018-03-10 标签机器学习，转载，分布式

文章为转载，原文链接见这里，作者是 carbon zhang。这篇文章主要介绍了分布式机器学习中的若干重点概念和经典论文，包括数据并行和模型并行、分布式框架的流派、参数服务器以及同步协议的演进等，非常值得一看。

阅读全文 »

分布式机器学习 (4)-Implement Your MapReduce

发表于 2018-02-24 标签机器学习，分布式

提到 MapReduce，很自然想到的是 Hadoop MapReduce ，但是 MapReduce 只是一个编程范式，而 Hadoop MapReduce 则是这个编程范式的一个比较出名的实现。实际上，可以通过多种方式实现 MapReduce，本文要介绍的就是如何在 Linux 的 bash 下实现一个 MapReduce 程序，并且分别实现了单机版本和多机器版本。原视频见这里，需要自备梯子。

阅读全文 »

分布式机器学习 (3)-Application Driven

发表于 2018-02-18 标签机器学习

本文主要介绍了互联网几项重要业务（在线广告，推荐系统，搜索引擎）背后所需的一项共同技术：语义理解 (semantic understanding)，同时介绍了实现语义理解的若干种方法：包括矩阵分解，主题模型 (Topic Models) 等。原视频见这里，需要自备梯子。

阅读全文 »

分布式机器学习 (2)-Infrequent Pattern Mining using MapReduce

发表于 2018-02-11 标签机器学习，分布式

这一讲主要介绍了挖掘频繁项集中的经典方法 FP-growth，以及如何通过 MapReduce 实现这个算法，通过 MapReduce 实现的 FP-growth 也称为 PFP，这个方法不仅能够挖掘频繁项集，还能够挖掘非频繁项集。原视频在这里，需要自备梯子。

阅读全文 »