中文维基百科语料库词向量的训练
要通过计算机进行自然语言处理,首先就需要将这些文本数字化。目前用得最广泛的方法是词向量,根据训练使用算法的不同,目前主要有 Word2Vec 和 GloVe 两大方法,本文主要讲述通过这两个方法分别训练中文维基百科语料库的词向量。
要通过计算机进行自然语言处理,首先就需要将这些文本数字化。目前用得最广泛的方法是词向量,根据训练使用算法的不同,目前主要有 Word2Vec 和 GloVe 两大方法,本文主要讲述通过这两个方法分别训练中文维基百科语料库的词向量。
前面讲到的随机变量都是一维的,但是某些试验中随机变量可能有多个,这里主要讨论二维的随机变量。
本文主要讲述三种离散型随机变量的分布 (伯努利分布,二项分布,泊松分布) 和三种连续型随机变量的分布 (均匀分布,指数分布,正态分布)。
本文主要讲述如何解决这一类问题:给定一个含有数字或英文字母的字符串,从中删除 k 个字符,使得剩下的字符取得最小值或最大值。数字的大小的比较容易理解,而字母的大小则是按照其 ASCII 码来排列,如 'abc'>'abd'。
在 Markdown 中编辑数学公式一般是使用 LaTeX 来渲染和排版的,但是一些数学符号的 LaTeX 比较特殊,常常会忘掉,因此在这里特意记录这些数学符号用 LaTeX 的表示方法。
本文主要讲述 python 中的几个概念:可迭代对象 (iterable)、迭代器 (iterator) 与生成器 (generator)。
在 python 中,经常可以看到定义函数或调用函数时 f(*arg)
和 f(**args)
类型的参数,本文主要讲述这两个形式的参数的含义以及应用。
Supervisor 是 Linux 下一个进程管理的工具,主要的功能包括让程序自动启动、程序奔溃后自动重启,指定进程的数目等。本文主要讲述 Supervisor 在 Linux 下的安装与使用。
在计算机科学中,锁是在执行多线程时用于强行限制资源访问的同步机制,即用于在并发控制中保证对互斥要求的满足。
本文主要以 MySQL 为例,讲述几个锁的概念 (行级锁、页级锁、表级锁、共享锁、排它锁等),这些概念的范畴不限于 MySQL,在并发系统上均有应用。
爬虫一般通过获取网页的源码,然后通过正则表达式或 html 解释器获取所需的信息,但是有的网页,不能直接通过 linux 下的 wget
命令、或者使用 Python 中的 requests.get
这样的函数库来直接获取其真正展现给用户的信息,因为里面包含有 JavaScript 脚本,而该 JS 和页面数据的生成相关,需要通过 Firefox、Chrome 等浏览器渲染后才能得到想要看的结果。