分布式机器学习 (4)-Implement Your MapReduce
提到 MapReduce,很自然想到的是 Hadoop MapReduce ,但是 MapReduce 只是一个编程范式,而 Hadoop MapReduce 则是这个编程范式的一个比较出名的实现。实际上,可以通过多种方式实现 MapReduce,本文要介绍的就是如何在 Linux 的 bash 下实现一个 MapReduce 程序,并且分别实现了单机版本和多机器版本。原视频见这里,需要自备梯子。
提到 MapReduce,很自然想到的是 Hadoop MapReduce ,但是 MapReduce 只是一个编程范式,而 Hadoop MapReduce 则是这个编程范式的一个比较出名的实现。实际上,可以通过多种方式实现 MapReduce,本文要介绍的就是如何在 Linux 的 bash 下实现一个 MapReduce 程序,并且分别实现了单机版本和多机器版本。原视频见这里,需要自备梯子。
本文主要介绍了互联网几项重要业务(在线广告,推荐系统,搜索引擎)背后所需的一项共同技术:语义理解 (semantic understanding),同时介绍了实现语义理解的若干种方法:包括矩阵分解,主题模型 (Topic Models) 等。原视频见这里,需要自备梯子。
这一讲主要介绍了挖掘频繁项集中的经典方法 FP-growth,以及如何通过 MapReduce 实现这个算法,通过 MapReduce 实现的 FP-growth 也称为 PFP,这个方法不仅能够挖掘频繁项集,还能够挖掘非频繁项集。原视频在这里,需要自备梯子。
这个分布式机器学习系列是由王益分享的,讲的是分布式机器学习。正如作者在分享中所说,分布式机器学习与我们今天常听到的机器学习存在比较大的差异,因此分享中的很多观点跟我们从教课书上学到的机器学习是背道而驰的。作者在这方面具有丰富的经验,虽然是三年前的分享,或许分享中提到的部分技术改变了,但是其中的一些观点还是具有一定参考价值的。
笔者对于分享中的一些观点也是存在疑惑的,这里还是按照分享中作者表达的意思记录下来, 也许等到笔者工作后,才有机会去验证这些观点的正误。
本文主要介绍了分布式机器学习中的一些重要概念,如互联网的真实数据是长尾分布的、大比快要重要、不能盲目套用一个框架等,本文对应的视频在这里,需要自备梯子。
本文主要介绍机器学习中的一种集成学习的方法 stacking,本文首先介绍 stacking 这种方法的思想,然后提供一种实现 stacking 的思路,能够简单地拓展 stacking 中的基本模型。
本文主要讲述如何通过 word2vec 和 CNN/RNN 对动作序列建模,在最近的一个比赛中验证了这个思路,的确有一定效果,在二分类的准确率上能达到 0.87. 本文主要介绍这个方法的具体步骤,并以比赛和代码为例进行说明。
一个多月没写文章了,这个月主要是被各种焦头烂额的事情所烦扰:比赛、数据的采集与筛选、各种无聊的报告等等。一眨眼就踏入了 2018,本来也不打算写年度总结,但是后来想想还是做一下简单的记录,一是因为自己本来就有总结的习惯,要不也不会一直在写这个博客;二是因为不总结下,都不知道自己这一年过得有多烂(捂脸)。言归正传,下面主要写一下在这一年里干了啥。
由于最近需要在几台电脑上配置相同的环境,几台电脑的操作系统不一样,而且配置一台所需要的步骤是比较繁琐的,因此就想到了用 docker,下面是使用 docker 构造镜像并且在不同的电脑上使用这个镜像的记录。
在深度学习中训练网络时,往往会出现训练数据过于庞大从而无法全部加载到内存中的情况,这里讲述的就是如何分批训练一个庞大的数据集,下面会以 Keras 中的训练为例进行讲述。
本文主要介绍 《Machine Learning with Spark》这本书各章节的主要内容,以及提供该书各章节对应的 python 代码。