对于在黑产seo研究中遇到的大小站关系的一点看法,如有疑问和其他想法,望不吝交流:D

最近在对出入链分析的时候,我提出了这么一个基础的问题到底什么样的站是大站,什么样的是小站。我们都知道腾讯,新浪这样的站是大站;政府网站也是大站;类似360官网这样的企业网站也算是大站。

上面的例子中,我提到了三个向量的网站:高流量,高用户;政府网站;企业官网。他们之中,有流量高的,有出入链高的,有比重高的,有搜索权威认定的。那么在做分析的时候就会遇到这样的问题,无法将他们通过一个强关系来分类。

接下来我们就针对网站的各个向量来范式的对网站进行分析。

0x00 PR值

PR值算是一个比较老的评判标准了,我们不再概述PR值到底是什么了,我们关注一下PR值为我们分析seo提供了什么样的维度。

1. PR值现在的实际意义

了解过PR算法的人应该明白,PR值实际上表现了不同内容网站间的相对值,也就是说它最重要的是表现了不同站之间的相对重要性。从严谨的角度上来说,PR值是一个相对的不确定变量。

从上面我们可以说PR值并不能成为判别网站大小的依据,它的缺陷在于并没有考虑到流量对于排名的影响。

它具有的实际意义是反映了某个网站的是否为一个较为“权威的网站”

2. 根据PR值所得的相对结果

PR值分析的相对结果是由于PR值本身的相对性来说的。具体可以总结为下面四种模型:

1. 权重大

中间网站的PR值相对于其他的三个网站的PR值较大,所以可以说在这四个站的关系中,中间的站为权重大的站:

2. 权重较大

同理,中间的网站相较于两边的网站处于中型网站中所占比重较大的网站,所以其关系可以用下面的图来说明:

3. 权重较小

这个道理和上面相同,只不过因为得到的PR值较小,而成为了中型网站中权重较小的网站。

4. 权重小

这样的情况原理和上面两种的原理相同,其关系为:

3. PR值局限

通过上面的分析,我们可以明显的看到PR值的局限:PR值关注站与站之间的关系,所以其本质来说是一种相对的值的关系,通过PR值来确定大小站关系,本来就是不科学与不准确的。

0x01 Alexa排名

Alexa排名对于做seo优化的人来说,是一个比较重要的判断向量。以下我们从Alexa指数的角度来看一下网站。

1. Alexa排名的意义

Alexa网站排名的计算是以网站的每天平均使用人数、人均访问页面数、与其他网站的链接和曝光数、网友所留言讨论的消息篇数等信息为基础,并以比重不明的加权平均数来排名。Alexa网站排名通常是根据最近是那个月数据的总和来排行,因此要等很久才会有显著的变化,对于小的网站来说通常是没有Alexa网站排名数的。

从上述的介绍中,我们可以看出,Alexa排名主要完成的工作是评估网站的受欢迎指数。同时由于其数据是从Google Chrome、Firefox、IE来获取数据的,可以反映一般用户流量的情况,以及网站的权威程度

2. Alexa排名的缺陷

如上所说,Alexa排名的优点,其实就是它自己的缺陷。从Alexa本身的统计手法就可以看出,Alexa排名对于个人站点、小型企业站点来说,其统计的数据是不准确的,同时也是没有什么实际用途的。

除非是纯互联网公司(比如做互联网广告的,盈利性论坛什么的),否则,该排名指数是不会影响到实际业务的。

其次,Alexa排名只是统计了Google Chrome、Firefox、IE的数据,对于国外的网站来说,数据统计是较为准确的,但对于国内网站来说,准确性又要低一个层次。

3. 一些可以看到的现象

在中小型网站中,我们发现了一些非常有意思的现象:相当一部分高PR值高流量的网站,Alexa排名很低。这样的现象产生的原因我不再赘述,通过这样的现象而得出的结论是:Alexa排名不具备普遍的大小站评定资格。

0x02 出入链流量

顾名思义,无论网站如何进行seo优化,其最终的目的就是为了提高搜索引擎收录量及该网站的流量。其seo的手法都是可以从流量上表现出来的。接下来我们从出入链流量的角度来分析,是否能将网站进行大小站划分。

1. 统计出入链流量的数据源

出入链流量的数据表现在日均uv以及日均pv值,相对来说,uv值是比较准确的,但是缺点是对于中小型网站的uv数据需要自己进行收集,网络上并没有现成的统计数据。

比如bilibili.com

看日均uv和pv为百万级,算是一个非常大的站点了,再看看我的博客...

站点太小了,干脆就没有收录。

2. 从出入链流量角度分析问题的缺陷

  1. 首要的缺陷,就是没有一个确定的标准。具体来说就是没有一个准确的uv值或pv值来指明该网站的大小。

    举个例子:相较于我的个人博客,bilibili算是一个大站,但是bilibili相较于qq.com...

就根本不是一个数量级上的问题了。这个时候我们会理所应当的认为qq.com是我们所说的大站,而bilibili是一个小站。那....

所以说,从这个角度看,我们不好说哪个是大站,哪个是小站。

  1. 其次,对于一些小的网站(个人博客,或者说是没有插入相关统计代码的网站)很难得到其uv值与pv值。
  2. cdn与cname解析的域名会对统计结果造成很大的影响。

0x03 那该怎么做?

说了这么多,我们到底该怎么解决这个问题?我用我手头上的数据,提出一个判定的思路。以下截图为一个demo数据,并不具有准确及实际意义。

手头上的数据

  1. Alexa排名top n(基本上没有什么用)
  2. 目标域名的出入链情况
  3. 目标域名及出入链的PR值
  4. 出入链的uv值

要解决的问题

识别目标域名中有哪些域名做了seo

初步的设想

  1. 通过出入链关系对目标域名进行分组:分组为源域名-出入链域名:

  1. 给分组后的所有域名进行PR标识。这边需要注意的一个问题就是,很多网站是没有PR值的,这对于我们解决问题是一个非常大的阻碍。

  1. 统计原站与出入链网站的uv值,这边有着同上面一步一样的问题,那就是对网站的出入链uv值统计不完全,造成并不能建立一个强关系。(由于数据不方便展示,就不贴图了)
  2. 之后将目标站与入链数建立关系:目标站-入链数量:

  1. 接下来我们从统计数量中抽取每个目标域名,建立一个关联关系:目标域名-目标域名PR值-目标域名uv值-入链-入链数-入链PR-入链uv值。之后可以用下面的思路来进行判定:

    当然这个模型只是一个想法,还没有数据支撑。PR值关系模型在前文中已经有所提及。

  1. 注意:
         这个模型中对于源数据的需求量较大,个人在做demo的时候调查了近4w的域名,经过引入其他向量后数据量约为500w左右。经过数据挖掘及处理后,得到的效果非常的差。
        
    源数据的准确性要求较高,出现缺少PR值统计及uv值时,基本上是没有什么说服力的。
        * 大小关系本来是一种相对关系,在中间数据挖掘时会遇到各种各样的问题,尝试引入多种向量来解决。

0x04 展望

出入链对于seo来说是较为本质的数据,从中还有更多可挖掘的信息,接下来我抛砖引玉,提出自己的一个思路。

前段时间有人利用微博作为媒介,做了一个安全圈有多大的画像,我们可以把这个思路应用到出入链分析上。

出入链的优势是,从一个端点总能到达另外一个端点,那么我们就把我们“行走”的过程记录下来,是不是能对seo网站进行画像呢?

当然这是我的一个思路,这个实现起来是有难度的,但是我觉得是有意义的。

0x05 总结

通过建模,从理论上探讨了各项判定向量的可行性,并提出了一个初级的处理大小站关系的模型,并提出了对该工作的展望。希望对有同样问题的朋友有帮助。

源链接

Hacking more

...