TF-IDF
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF(Term Frequency)
词频(TF):表示词条(关键字)在文本中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。
TFw=该类中所有的词条数目在一类中词条w出现的次数
IDF(Inverse Document Frequency)
逆向文件频率(IDF):某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。
如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。
IDFw=log(包含词条w的文档书+1语料库的文档总数)
+1是为了避免分母为0。
TF-IDF
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
TF−IDF=TF∗IDF=单词总数词条w数量∗log(包含w词条的文档数+1文档总数)
注:TF-IDF算法非常容易理解,并且很容易实现,但是其简单结构并没有考虑词语的语义信息,无法处理一词多义与一义多词的情况。
BM25
BM(Best Match) 计算query与文档相似度得分的算法,是TF-IDF的优化版本,25指25次算法迭代。
BM25的一般公式是:
Score(Q,d)=i∑nWiR(qi,d)
其中Q表示一条query,qi表示query中的单词,d表示某个搜索文档,Wi表示单词权重,R表示qi和d的相关性。
BM25计算主要有以下几个部分:
- query中每个单词qi与文档d之间的相关性:
S(qi,d)=K+tftd(ki+1)tftd,K=ki(1−b+b∗L+aveLd,其中tftd是单词在文档d中词频,Ld是文档d的长度,Lave是所有文档的平均长度,变量k1是一个正的参数,用来标准化文章词频的范围,当k1=0,就是一个二元模型,一个更大的值对应使用更原始的词频信息。b是另一个可调参数(0<b<1),它是用决定使用文档长度来表示信息量的范围:当b为1时,时完全使用文档长度来权衡词的权重,当b为0表示不使用文档长度。
- 单词qi与query之间的相似性:
当query很长时,我们还需要刻画单词与query之间的权重(对于短的query,这一项不是必须的),S(qi,Q)=ke+tftq(k3+1)tftq,这里tftq表示单词在query中的词频,k3是一个可调正参数,来矫正query中的词频范围。
- 每个单词的权重:
Wi表示分词权重,这里用IDF代替:IDF(qi)=log(dfi+0.5N−dfi+0.5),N表示索引中全部文档数量,dfi表示包含了分词qi的文档个数。根据IDF的作用,对于qi来说,包含qi的文档数量越多,说明qi的重要性越小,或者区分度越低,所以用IDF来刻画qi与文档的相似度。
RSVd=t∈q∑log(dftN)∗k1((1−b)+b∗LaveLd)+tftd(k1+1)tftd∗k3+tftq(k3+1)tftq