在机器学习中,常常会遇到样本比例不平衡的问题,如对于一个二分类问题,正负样本的比例是 10:1。这种现象往往是由于本身数据来源决定的,如信用卡的征信问题中往往就是正样本居多。样本比例不平衡往往会带来不少问题,但是实际获取的数据又往往是不平衡的,因此本文主要讨论面对样本不平衡时的解决方法。

阅读全文 »

这篇文章的内容主要来源于 该知乎 live,主要介绍了利用数据获取了用户后如何运营,从而能够尽可能长时间地留存用户,介绍了这方面的三个具体方法:建立用户转化漏斗、通过多维报表找到问题和建立实验框架。

阅读全文 »

Reservoir sampling 是一个随机采样算法,简单来说就是从 \(n\) 个 items 中随机选择 \(k\) 个 items,并且每个 item 被选择的概率应该都一样。这个算法的优点在于时空复杂度都不高,其中时间复杂度为 \(O(n)\), 空间复杂度为 \(O(1)\)下面介绍该算法的过程,并且以 leetcode 上的两道题目为例讲解。

阅读全文 »

之前曾写过一篇最优化课程总结, 涉及到的内容较多也较细。而在最优化中,凸优化是最为常见而又最为重要的,因为凸优化有一个良好的性质:局部最优是全局最优,这个性质使得我们不需要去证明解是否会收敛到全局最优,或者如何避免局部最优。因此凸优化有广泛应用,在优化问题不是凸的时候,往往也会尝试将其变为凸问题便于求解。本文着重讲凸优化,算是对之前写的文章的一个拓展和补充。

本文主要讲述下面内容,凸优化的概念以及凸优化中的三类常见解法:梯度类方法,对偶方法和 ADMM 方法

阅读全文 »
0%