百度智能算法在站点质量评级体系中的应用

时间：2021-02-04 作者：小馒头的SEO【原创】

长期以来，对于搜索引擎优化器，我们将每天讨论网站质量评估对搜索引擎自然排名的积极影响，但长期以来，我们没有收到有效的回应，以下内容是为了解决百度第一篇研究文章，供大家交流和学习：

:互联网的飞速发展和网络数据的大量涌入对搜索引擎技术提出了严峻的挑战，但同时也带来了新的机遇。从网络爬网的角度来看，同一站点通常包含质量相似的资源。搜寻高质量的网站通常可以找到质量更高的资源。因此，我们希望对网站的质量进行评级，以反映资源的质量水平，从而影响蜘蛛的编程和包容性。在过去的实践中，一般的想法是根据人工调查的经验来建立规则和阈值。发现问题后，逐个修补并调整阈值以适应更改。这种方法最大的问题是可伸缩性差，维护成本高，并且不利于国际多语言支持。因此，我们希望采用一种更智能的方法来自动发现站点数据中的模式以填充质量等级。

显示了我们网站如图1的智能质量评级框架。

图1：智能站点质量评级系统

在任务级别，首先，我们将站点分为高质量站点和低质量站点。区分高质量站点和低质量站点是在一批上搜索高质量站点，作为我们系统的基本集合，可降低反垃圾邮件和反欺诈的成本，并提高系统恢复结果的稳定性和权威性减少用户的不良反应，同时规范整个Internet生态，并鼓励创建有价值的Internet资源。我们的目标是使高质量资源在整个系统中具有绝对优势，而劣质资源则被排除在外，仅当系统策略不完善时才作为必要的附加组件。其次，我们将高质量站点和低质量站点细分为几个级别。使用这些级别来区分网站质量的差异将影响百度蜘蛛的计划和包含控制，以及不良质量网页的选择。

在战略层面，我们使用一系列机器学习方法从手动标记的样本中学习，构建模型，并将学到的知识应用于来自未知站点的数据，以完成质量评估任务。

接下来，以高质量/劣质站点二分法的问题为例，将智能算法的应用引入站点的质量评级系统。在高质量/劣质站点二分法的问题中，我们采用支持向量机（SVM）模型。 SVM是基于歧视的机器学习模型。它的原理非常简单：对于两类问题（例如高质量站点和低质量站点），SVM的目标是在多维空间中找到一个超平面，从而可以用尽可能多地使用该超平面，并且超平面从平面到其两侧最近的实例（称为边缘）的距离尽可能大（图2）。

支持向量机的目标函数可以转化为凸二次优化问题，可以通过数值优化方法解决。

SVM的优势包括：

（1）与其他机器学习方法相比，分类性能优异；

（2）模型的复杂度对尺寸的大小不敏感。这样一来，您就可以在高质量/劣质站点的二分法中取得良好的效果。

图2：SVM支持向量机

在使用SVM进行智能站点质量评级的过程中，有两个地方需要特别注意：一是特征预处理。在连续的数值特征中，某些特征的数值差异太大，高质量和低品质位点之间的数值差异可能为数百万或数千万。对于这些功能，我们使用记录搜索方法来平滑数字变化并促进机器学习。

对于离散特征，我们根据其值的数量将其分为几个变量，例如x=1,2,3，我们将其分为（0,0,1），（0,1,0）和（1 ，0.0）。另一个是功能的选择。在站点功能中，并非所有功能都有用，有些功能不相关，有些甚至会产生负面影响，应将其删除。在实践中，我们结合使用统计方法（信息收集，检查）和分类准确率的提高（减少），从中提取了许多有用的功能，从而提高了准确率和恢复率。 95以上的高质量站点识别率，效果显着。

上面以高质量/劣质站点的二分任务为例，简要介绍了智能算法在站点质量评级系统中的应用。理论上的SVM机器学习模型与站点质量等级的实际应用的完美结合，显着提高了系统性能。这给了我们一些启示：当面对复杂的问题时，与其去研究混乱的数据来寻找规则，不如看看是否有解决类似问题的理论模型。理论知识和实际问题的结合通常会产生意想不到的结果。

百度智能算法在站点质量评级体系中的应用

电话直呼