机器学习中样本比例不平衡的处理方法
在机器学习中,常常会遇到样本比例不平衡的问题,如对于一个二分类问题,正负样本的比例是 10:1。这种现象往往是由于本身数据来源决定的,如信用卡的征信问题中往往就是正样本居多。样本比例不平衡往往会带来不少问题,但是实际获取的数据又往往是不平衡的,因此本文主要讨论面对样本不平衡时的解决方法。
在机器学习中,常常会遇到样本比例不平衡的问题,如对于一个二分类问题,正负样本的比例是 10:1。这种现象往往是由于本身数据来源决定的,如信用卡的征信问题中往往就是正样本居多。样本比例不平衡往往会带来不少问题,但是实际获取的数据又往往是不平衡的,因此本文主要讨论面对样本不平衡时的解决方法。
LeetCode 上的这两道题 343. Integer Break 和 377. Combination Sum IV 从名字上来看没有什么联系,但是实际上两个题目都是通过动态规划来降低了求解时间复杂度,并且面对这种题目一开始往往难以往动态规划方向去想,特此记录。
这篇文章的内容主要来源于 该知乎 live,主要介绍了利用数据获取了用户后如何运营,从而能够尽可能长时间地留存用户,介绍了这方面的三个具体方法:建立用户转化漏斗、通过多维报表找到问题和建立实验框架。
本文的内容主要来源于该知乎 live,主要介绍了哪些行为数据是有价值的,以及广告领域中数据是如何交易的,最后还讨论了数据隐私的问题。
本文内容主要来源于该知乎 live,主要介绍了受众定向(用户画像)的分类和方法、具体介绍标签体系建立以及如何进行行为定向。
本文内容主要来源于该知乎 live,主要介绍了深度学习为什么能在大数据的环境下有效,并描述了大数据的三个特点:行为数据、全量加工和自动化应用。
Reservoir sampling 是一个随机采样算法,简单来说就是从 \(n\) 个 items 中随机选择 \(k\) 个 items,并且每个 item 被选择的概率应该都一样。这个算法的优点在于时空复杂度都不高,其中时间复杂度为 \(O(n)\), 空间复杂度为 \(O(1)\)。下面介绍该算法的过程,并且以 leetcode 上的两道题目为例讲解。
文章为转载,原文链接在这里,文章从业界的角度出发介绍了机器学习如何发挥其价值,非常接地气,值得一看,以下为原文