在上一篇文章强化学习笔记 (1)- 概述中,介绍了通过 MDP 对强化学习的问题进行建模,但是由于强化学习往往不能获取 MDP 中的转移概率,解决 MDP 的 value iteration 和 policy iteration 不能直接应用到解决强化学习的问题上,因此出现了一些近似的算法来解决这个问题,本文要介绍的就是基于 value iteration 而发展出来的 Q-Learning 系列方法,包括 Q-Learning、Sarsa 和 DQN。

阅读全文 »

本文主要介绍了如何通过 Keras 实现 LRCN 模型,模型出自论文 Long-term Recurrent Convolutional Networks for Visual Recognition and Description,最近需要用这个模型做个实验,在网上搜到的实现代码不多,因此这里记录一下,以供参考。

阅读全文 »

最近需要频繁切换使用台式机和笔记本,但是我的小桌子上实在没法同时放得下一个键盘和笔记本 (≧0≦)。哪怕凑合挤下,还得不停在两台电脑之间切换键鼠,因此就想着有没有共享键鼠的方案,结果在网上找到了 Synergy,试了几天后发现这真的是一个共享键鼠的神器。

阅读全文 »

本文主要介绍 Wand (Weak And) 算法的原理和实现,Wand 算法是一个搜索算法,应用在 query 有多个关键词或标签,同时每个 document 也有多个关键词或标签的情形(如搜索引擎);尤其是在 query 中的关键词或标签较多的时候,通过 Wand 能够快速的选择出 Top n 个相关的 document,算法的原始论文见 Efficient Query Evaluation using a Two-Level Retrieval Process,本文主要讲述这个算法的原理以及通过 python 实现这个算法。

阅读全文 »

提到 MapReduce,很自然想到的是 Hadoop MapReduce ,但是 MapReduce 只是一个编程范式,而 Hadoop MapReduce 则是这个编程范式的一个比较出名的实现。实际上,可以通过多种方式实现 MapReduce,本文要介绍的就是如何在 Linux 的 bash 下实现一个 MapReduce 程序,并且分别实现了单机版本和多机器版本。原视频见这里,需要自备梯子。

阅读全文 »

本文主要介绍了互联网几项重要业务(在线广告,推荐系统,搜索引擎)背后所需的一项共同技术:语义理解 (semantic understanding),同时介绍了实现语义理解的若干种方法:包括矩阵分解,主题模型 (Topic Models) 等。原视频见这里,需要自备梯子。

阅读全文 »
0%