《Programming Collective Intelligence》(中文名为《集体智慧编程》),是一本关于数据挖掘的书籍,每一章都会通过一个实际的例子来讲述某个机器学习算法,同时会涉及到数据的采集和处理等,是一本实践性很强的书籍。

本文是关于本书的第二章 Making Recommendations 的前半部分。主要讲述了寻找用户相似性和物品相似性的方法,并在这个基础上讲述如何为用户推荐物品。

阅读全文 »

这是一篇关于 maven 入门的相当好的文章,文章有点长,但是非常值得看。原文链接

Maven 简介

何为 Maven

Maven 这个词可以翻译为 “知识的积累”,也可以翻译为 “专家” 或 “内行”。本书将介绍 Maven 这一跨平台的项目管理工具。作为 Apache 组织中的一个颇为成功的开源项目,Maven 主要服务于基于 Java 平 台的项目构建、依赖管理和项目信息管理。无论是小型的开源类库项目,还是大型的企业级应用;无论是传统的瀑布式开发,还是流行的敏捷模式,Maven 都能 大显身手。

阅读全文 »

面向对象语言中,一般会有 “静态变量”,也就是给整个类共享的变量,如 C++,java 中 static 修饰的变量。但是在 python 中并没有 static 这个关键字,实现类似功能需要依靠 python 中的类属性和实例属性的语法特点。本文主要就是讲述这两种属性的区别。

阅读全文 »

在数据挖掘中需要大量的数据,这些数据往往存储在数据库中或者文件中。存储数据库中比较好理解,可通过 程序数据库接口+SQL语句 获取。存储在文件中则往往有多个按日期命名的文件夹,数据以文本格式存储,且有特定的分割符。本文主要就是讲述如何通过 python 读取后一类的数据。

阅读全文 »

网络编程简介

网络通讯的方式有 TCP 和 UDP 两种,其中 TCP 方式的网络通讯是指在通讯的过程中保持连接,有点类似于打电话,只需要拨打一次号码 (建立一次网络连接),就可以多次通话 (多次传输数据)。这样方式在实际的网络编程中,由于传输可靠,类似于打电话,如果甲给乙打电话,乙说没有听清楚让甲重复一遍,直到乙听清楚为止,实际的网络传输也是这样,如果发送的一方发送的数据接收方觉得有问题,则网络底层会自动要求发送方重发,直到接收方收到为止。

阅读全文 »
0%