敬请期待| 留言反馈 欢迎访问导航梦收录网
广告
当前位置:网站首页 > SEO知识 > 正文

索引创建过程中的加权方法

收录员 2019-06-22 68 浏览 0 评论

 

搜索引擎会给予每一个页面一定的权重值,这个值也会随着页面的更新和时间地流逝而改变。今天,SEO百科网带来的是《TF-IDF算法-索引创建过程中的加权方法-什么是搜索引擎》。希望对大家有所帮助。

一、索引创建中的权值

搜索引擎蜘蛛的爬行与抓取,页面的收录与索引,是一个页面能够在用户搜索关键词时能够获得展现的几个基本步骤,其中索引创建中包含着对页面内容本身的加权因素。

① 索引项权值概念

索引项的权值,在一定程度上反应了文档中词的相对重要性,这个值通常用于索引排序过程中计算分值,也就是影响搜索引擎排序的重要因素之一。

② 索引项权值怎么得来的?

索引项权值,是由检索模式中的加权组件利用文档统计结果来计算得出的。

③ 索引项加权方法

传统的检索模式中最常见的加权方法:TF-IDF算法。

二、TF-IDF算法

① TF-IDF算法定义

TF-IDF算法,基于索引项出现在一个文档中的次数或频率,以及索引项在整个文档集合中出现的频率,两者的组合(或者说两者的乘积)。

② TF-IDF算法中词的解析

1)TF

次数和频率称之为词频,英文简称为tf。

2)IDF

索引项在整个文档集合中出现的频率,称之为范文档频率,英文简称为idf。

③ TF-IDF算法的简单说明

TFIDF的核心思想,是指某个词或某个短语在一篇文档中出现的频率高,并且在索引库的其他文档中出现较少,就认为这个词或短句有很好的类别区分能力,可以用来进行分类。

简单来讲,某个词或某个短语就是索引词,对于这篇文章而言,该词项将被赋予较高的权值。

三、理解并使用TF-IDF算法

对于SEOer来讲,了解上面的知识已经足够了,没必要非得知道是用哪个函数,哪个公式算出来的结果。

其实,通过TF-IDF算法的学习,我们可以更好理解一些常识性的SEO知识。

① 品牌词容易优化

品牌词一般是自己创造的,满足TF值大,同时IDF值大,页面加权高,自然排名很容易。

② 行业核心词难优化

无数网站都在优化这同一个词,然而首页的位置却是有限的,大家都满足TF大,但同样IDF越小,证明这个词越难优化。

这也就是平时在判断关键词优化难度时,为什么将百度搜索的相关结果数作为优化难度之一的原因。

③ 多挖掘没有百度指数的关键词-降低优化难度

行业中有百度指数的词,大家都在做优化与排名,这样的词不光是竞争压力大,可能还带不来多少点击。因为百度指数可能是100,真实用户也许只有2个,另外的98个都是企业的竞争者们。

我们应该挖掘一些没有百度指数的词,但是需要这次保持一定的搜索量,这样可以保证降低优化难度的同时,带来更多真实流量

④ TF并不是万能!过度堆积害处大!

根据TF-IDF算法,很多人会想,增加关键词密度或频率,以增加TF值,从而获得更好的排名。然而,这种做法可以适当做,但超过一定度的话,没什么好处,反而可能会因为过度堆积被搜索引擎降权!

所谓的2%~8%的关键词密度只是个大概范围,很多排名好的页面很多都在2%一下,当然也有在8%以上的,只要密度不是过小,不必过度在乎这个。

举个例子,已经是5%的密度了,非要故意堆积到8%,甚至百分之20%,就会变得非常没有意义。这是对TF高的一种误解。

也就是我们能够根据TF-IDF算法中得到的启发是不应该让关键词的密度或频率(TF)过低,然而对于IDF来说,我们只能通过寻找IDF值高的关键词来优化,如果我们优化的关键词的IDF值本来就很低,我们也不能对其改变这个现状,IDF值越低,证明这个词在一定程度上就越难优化。

所以,在网站优化过程中,除了要做好页面外,还需要关注内链与外链优化。

四、TF-IDF算法公式

① TF公式

索引创建过程中的加权方法 SEO知识 第1张  

TF(i,j):关键词j在文档i中的出现频率。

n(i,j):关键词j在文档i中出现的次数。

索引创建过程中的加权方法 SEO知识 第2张  

举例来讲:

一篇文章总共100个词,其中“SEO培训”一共出现了10词,那么TF就是10/100,结果就是0.1。

然而,由于文章中会出现大量的“的”、“得”、“吗”、“地”,不能正常反应文章的词,所以,就得用IDF来做一个限制了。

② IDF公式

索引创建过程中的加权方法 SEO知识 第3张  

IDF(i):词语i的反文档频率

|D|:语料库中的文件总数

|j:t(i)属于d(j)|出现词语i的文档总数

+1是为了防止分母变0。

索引创建过程中的加权方法 SEO知识 第4张  

IDF就可以防止常用词的干扰了。

还是刚才的例子:

一篇文章总共100个词,其中“SEO培训”一共出现了10词,那么TF就是10/100,结果就是0.1。

另外“我们”一共出现了10词,其TF结果也是0.1。

假设语料库总共有1000篇文章,其中“SEO培训”文章有10篇,“我们”文章有1000篇。

“SEO培训”的IDF=log(1000/10)= 2

“我们”的IDF=log(1000/1000)= 0

③ TF-IDF公式

TF-IDF = TF*IDF

索引创建过程中的加权方法 SEO知识 第5张  

“SEO培训”的TF*IDF=0.1*0=0

“我们”的TF*IDF=0.1*2=0.2

那么很显然,对于这篇文章而言,“SEO培训”比“我们”更加重要。

以上就是SEO百科网带来的是《TF-IDF算法-索引创建过程中的加权方法-什么是搜索引擎》。感谢您的观看。更多seo教程搜索“错误教程”。原创文章欢迎转载并保留版权:https://www.cuowu.com/

广告

相关推荐

新手如何诊断影响网站seo优化的因素?

网站关键词对seo起了决定性作用,可这样咱们就可以按部就班的更新文章坐等排名了么?当然不是,我们还需要对网站进行诊断后才能真正上线。对于如何诊断seo优化的影响因素我们需要注意以下几点:一、诊断页面标...

SEO怎么优化?SEO关键词优化技巧

是否还在为SEO怎么优化而烦恼?为寻求SEO关键词优化技巧而发愁呢?搜索引擎间的收录、排序、展现算法是互相借鉴的,从这方面来看,掌握搜索引擎一系列相关的优化点是非常重要的,尤其是百度,掌握收录、展现、...

判断网站关键词的优化难度的具体方法

判断关键词排名的难度是一个SEO人员必备的技能。如果某天接到了一个需要优化网站的客户,客户给出一些关键词让你来优化,问这些关键词需要多少钱和多长时间才做到搜索引擎搜索结果的首页。这必须得经过详细的分析...

新网站怎么让百度收录?做好这十点就够了!
新网站怎么让百度收录?做好这十点就够了!

很多企业网站,由于新站的原因,往往出现网站首页在被百度收录后,内页却一直不收录,这个时候我们就需要找出问题原因在哪里,然后找到解决方案,让百度更好的收录我们的产...

6天前 收录员

Flash网站如何优化更有利于蜘蛛抓取

搜索引擎之所以不喜欢Flash的网站,是因为Flash动画太复杂。与一般的网页上的文字不同,Flash动画是由帧构成的,搜索引擎不能读取到Flash内部的帧,因此搜索引擎不会索引它。如果要优化Flas...

对网站排名影响最大的因素是什么?

关于排名因素的11个问题人们总是在谈论排名因素。你知道,百度的神奇算法公式的秘密成分。如果你了解它们并找到一种方法来取悦这些因素,那么你就可以顺利进入这个令人垂涎的第一位–或者人们似乎在想。一般来...

讲解关于百度快照不更新的原因及解决办法
讲解关于百度快照不更新的原因及解决办法

百度快照是什么?有什么用呢?快照是指搜索引擎蜘蛛抓取后在其数据库内建立的备份,这样做的好处是为了当你的网站打不开时,用户可以通过快照来查看网站内容。当然快照还有...

1周前 (07-12) 收录员

学习了这‘’5‘’点能让你的网站成功避免搜索引擎的惩罚

在互联网电商迅速发展的当代,外链对于seo显得尤其重要,外链不仅可以为网站带来流量,还可以提高权重和pr值。技巧一:侧重发布效果好的外链类型1.纯文本外链:以纯文本的形式显示,不可点击。2.超链接外链...

新站如何发布外链?发布外链的六个技巧!

在互联网电商迅速发展的当代,外链对于seo显得尤其重要,外链不仅可以为网站带来流量,还可以提高权重和pr值。技巧一:侧重发布效果好的外链类型1.纯文本外链:以纯文本的形式显示,不可点击。2.超链接外链...

百度云计算对网站SEO的好处和百度排名的影响

云计算及其对您的SEO的影响互联网对商业世界的影响不容低估,经常使用“革命化”和“提升”等词语来描述当前的气候。过去三十年来,企业逐渐适应互联网,并在网上开展越来越多的业务。互联网技术的进步使得企业竞...

欢迎 发表评论:

分享:

支付宝

微信