SEO优化算法之:TF-IDF算法计算网页关键词权重
编辑:小舟信息发布时间:2017-07-08今天和大家分享一下网页的关键词权重算法:TF-IDF算法
我们知道,用户在百度上搜索时,会输入一个搜索词,百度会根据这个搜索词,去匹配相关的网页,我们以“漂亮MM的秘密想法” 为例,来说明这整个过程。
首先是分词
“漂亮MM的秘密想法” 这个搜索词可以分为: 漂亮MM 、的、秘密想法 。我这里只是举例,至于百度如何分词,它有它自己的一套算法,或是基于它自己的字典词库、或是基于大数据分析得到的词库。总之一句话,用户输入搜索词后,百度会按他的一套算法,把用户输入的搜索词进行分词。
同样的方法,百度还会对他收录的网页进行分词处理,分词的逻辑和上诉逻辑是一样的。那么如何计算搜索词和网页的相关性呢?
按照正常人的直觉:网页里包含上诉三个词越多的越相关。没错!就是这样,不过如果真的简单粗暴这么去认为的话,我们看至少存在这么两个漏洞:
1、网页内容多的要比网页内容少的占便宜啊,哪个讲的内容多的一定比内容少的相关呢?
2、即然包含关键词多就越相关,那么好,我网页里就全堆砌关键词(机器他就是单纯的可爱),这样网页就高相关了呀,但他一定是和用户想找的内容相关吗?
首先对于第一个问题,怎么解决呢? 词频(Term Frequency)! 简称TF。
TF = 网页词出现的次数/网页中总共包含的总字数。TF可称之为关键词频率,也可以称为关键词密度。也就是TF值越大,网页和关键词就越相关。
那么页面的相关性 = TF值(漂亮MM) + TF值(的)+TF(秘密想法)
大家看看以上的公式,是不是哪里不对呢,关键词“的”的重要性明显没有用呢,另外“漂亮MM”明显比秘密想法重要呢?
那么这个问题咋解决呢?权重!一个词预测主题能力越强,权重就越大,反之,权重就越小。
那么如何计算关键词的权重呢?
如果一个关键词只在很少的网页中出现,通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍 然不很清楚要找什么内容,因此它应该小。
我们设总体网页的个数为 D,称出现关键词W的网页个数称之为DW。
那么得出一个公式: IDF = log(D/DW);
这个IDF,就可以认为是词的权重,大家可以简单的理解成,关键词在越多的网页中出现,它越普通,权重就越小,反之就越大。
比如的这个关键词:几科每个网页都出现,那么有
IDF值(的) = log(1) = 0 。 也即他的权重值为0.
那么页面相关性的最终算法:
那么页面的相关性 = TF值(漂亮MM)* IDF值(漂亮MM) + TF值(的)* IDF值(的)+TF(秘密想法)*IDF值(秘密想法)
好了IF-TDF的算法就是这些了,希望大家能够看得明白
那么我们如何用这个算法呢?
一个页面,主题一定要明确,关键词定位一定要精准,内容上要自然的让关键词多出现。
另外用户的搜索词千差万别,比如我们定位的关键词是自媒体 ,那么用户的搜索词可能是:每天晚上花3个小时经营自媒体平台值吗?
这个搜索词,分词成关键词可能是:每天晚上 3个小时 自媒体 ,你的内容套用公式,相关度除了自媒体这个关键词有贡献,别的词有贡献吗? 所以研究好用户的需求,考虑好你想引流的用户,一切都在细节里面!