提到 MapReduce,很自然想到的是 Hadoop MapReduce ,但是 MapReduce 只是一个编程范式,而 Hadoop MapReduce 则是这个编程范式的一个比较出名的实现。实际上,可以通过多种方式实现 MapReduce,本文要介绍的就是如何在 Linux 的 bash 下实现一个 MapReduce 程序,并且分别实现了单机版本和多机器版本。原视频见这里,需要自备梯子。

阅读全文 »

本文主要介绍了互联网几项重要业务(在线广告,推荐系统,搜索引擎)背后所需的一项共同技术:语义理解 (semantic understanding),同时介绍了实现语义理解的若干种方法:包括矩阵分解,主题模型 (Topic Models) 等。原视频见这里,需要自备梯子。

阅读全文 »

这个分布式机器学习系列是由王益分享的,讲的是分布式机器学习。正如作者在分享中所说,分布式机器学习与我们今天常听到的机器学习存在比较大的差异,因此分享中的很多观点跟我们从教课书上学到的机器学习是背道而驰的。作者在这方面具有丰富的经验,虽然是三年前的分享,或许分享中提到的部分技术改变了,但是其中的一些观点还是具有一定参考价值的。

笔者对于分享中的一些观点也是存在疑惑的,这里还是按照分享中作者表达的意思记录下来, 也许等到笔者工作后,才有机会去验证这些观点的正误。

本文主要介绍了分布式机器学习中的一些重要概念,如互联网的真实数据是长尾分布的、大比快要重要、不能盲目套用一个框架等,本文对应的视频在这里,需要自备梯子。

阅读全文 »

一个多月没写文章了,这个月主要是被各种焦头烂额的事情所烦扰:比赛、数据的采集与筛选、各种无聊的报告等等。一眨眼就踏入了 2018,本来也不打算写年度总结,但是后来想想还是做一下简单的记录,一是因为自己本来就有总结的习惯,要不也不会一直在写这个博客;二是因为不总结下,都不知道自己这一年过得有多烂(捂脸)。言归正传,下面主要写一下在这一年里干了啥。

阅读全文 »

由于最近需要在几台电脑上配置相同的环境,几台电脑的操作系统不一样,而且配置一台所需要的步骤是比较繁琐的,因此就想到了用 docker,下面是使用 docker 构造镜像并且在不同的电脑上使用这个镜像的记录。

阅读全文 »
0%