对于在黑产seo研究中遇到的大小站关系的一点看法,如有疑问和其他想法,望不吝交流:D
最近在对出入链分析的时候,我提出了这么一个基础的问题到底什么样的站是大站,什么样的是小站。我们都知道腾讯,新浪这样的站是大站;政府网站也是大站;类似360官网这样的企业网站也算是大站。
上面的例子中,我提到了三个向量的网站:高流量,高用户;政府网站;企业官网。他们之中,有流量高的,有出入链高的,有比重高的,有搜索权威认定的。那么在做分析的时候就会遇到这样的问题,无法将他们通过一个强关系来分类。
接下来我们就针对网站的各个向量来范式的对网站进行分析。
PR值算是一个比较老的评判标准了,我们不再概述PR值到底是什么了,我们关注一下PR值为我们分析seo提供了什么样的维度。
了解过PR算法的人应该明白,PR值实际上表现了不同内容网站间的相对值,也就是说它最重要的是表现了不同站之间的相对重要性。从严谨的角度上来说,PR值是一个相对的不确定变量。
从上面我们可以说PR值并不能成为判别网站大小的依据,它的缺陷在于并没有考虑到流量对于排名的影响。
它具有的实际意义是反映了某个网站的是否为一个较为“权威的网站”。
PR值分析的相对结果是由于PR值本身的相对性来说的。具体可以总结为下面四种模型:
中间网站的PR值相对于其他的三个网站的PR值较大,所以可以说在这四个站的关系中,中间的站为权重大的站:
同理,中间的网站相较于两边的网站处于中型网站中所占比重较大的网站,所以其关系可以用下面的图来说明:
这个道理和上面相同,只不过因为得到的PR值较小,而成为了中型网站中权重较小的网站。
这样的情况原理和上面两种的原理相同,其关系为:
通过上面的分析,我们可以明显的看到PR值的局限:PR值关注站与站之间的关系,所以其本质来说是一种相对的值的关系,通过PR值来确定大小站关系,本来就是不科学与不准确的。
Alexa排名对于做seo优化的人来说,是一个比较重要的判断向量。以下我们从Alexa指数的角度来看一下网站。
Alexa网站排名的计算是以网站的每天平均使用人数、人均访问页面数、与其他网站的链接和曝光数、网友所留言讨论的消息篇数等信息为基础,并以比重不明的加权平均数来排名。Alexa网站排名通常是根据最近是那个月数据的总和来排行,因此要等很久才会有显著的变化,对于小的网站来说通常是没有Alexa网站排名数的。
从上述的介绍中,我们可以看出,Alexa排名主要完成的工作是评估网站的受欢迎指数。同时由于其数据是从Google Chrome、Firefox、IE来获取数据的,可以反映一般用户流量的情况,以及网站的权威程度。
如上所说,Alexa排名的优点,其实就是它自己的缺陷。从Alexa本身的统计手法就可以看出,Alexa排名对于个人站点、小型企业站点来说,其统计的数据是不准确的,同时也是没有什么实际用途的。
除非是纯互联网公司(比如做互联网广告的,盈利性论坛什么的),否则,该排名指数是不会影响到实际业务的。
其次,Alexa排名只是统计了Google Chrome、Firefox、IE的数据,对于国外的网站来说,数据统计是较为准确的,但对于国内网站来说,准确性又要低一个层次。
在中小型网站中,我们发现了一些非常有意思的现象:相当一部分高PR值高流量的网站,Alexa排名很低。这样的现象产生的原因我不再赘述,通过这样的现象而得出的结论是:Alexa排名不具备普遍的大小站评定资格。
顾名思义,无论网站如何进行seo优化,其最终的目的就是为了提高搜索引擎收录量及该网站的流量。其seo的手法都是可以从流量上表现出来的。接下来我们从出入链流量的角度来分析,是否能将网站进行大小站划分。
出入链流量的数据表现在日均uv以及日均pv值,相对来说,uv值是比较准确的,但是缺点是对于中小型网站的uv数据需要自己进行收集,网络上并没有现成的统计数据。
比如bilibili.com
:
看日均uv和pv为百万级,算是一个非常大的站点了,再看看我的博客...
站点太小了,干脆就没有收录。
举个例子:相较于我的个人博客,bilibili算是一个大站,但是bilibili相较于qq.com...
就根本不是一个数量级上的问题了。这个时候我们会理所应当的认为qq.com是我们所说的大站,而bilibili是一个小站。那....
所以说,从这个角度看,我们不好说哪个是大站,哪个是小站。
说了这么多,我们到底该怎么解决这个问题?我用我手头上的数据,提出一个判定的思路。以下截图为一个demo数据,并不具有准确及实际意义。
识别目标域名中有哪些域名做了seo
当然这个模型只是一个想法,还没有数据支撑。PR值关系模型在前文中已经有所提及。
出入链对于seo来说是较为本质的数据,从中还有更多可挖掘的信息,接下来我抛砖引玉,提出自己的一个思路。
前段时间有人利用微博作为媒介,做了一个安全圈有多大的画像,我们可以把这个思路应用到出入链分析上。
出入链的优势是,从一个端点总能到达另外一个端点,那么我们就把我们“行走”的过程记录下来,是不是能对seo网站进行画像呢?
当然这是我的一个思路,这个实现起来是有难度的,但是我觉得是有意义的。
通过建模,从理论上探讨了各项判定向量的可行性,并提出了一个初级的处理大小站关系的模型,并提出了对该工作的展望。希望对有同样问题的朋友有帮助。