谷歌的这篇科学论文讨论了如何确定在线资源的可信度。除了链接分析之外,还提出了一种基于检查已发布信息准确性的新方法。
我们提出了一种依赖于内生信号的新方法,即来源提供的事实信息的正确性。虚假事实较少的来源被认为是值得信赖的。
为此,我们使用了数据挖掘方法
我在文章 《谷歌如何从非结 电报数据 构化内容中识别和解释实体?》中已经讨论过这些方法。以及 自然语言处理在数据挖掘、实体和搜索查询中的作用 的详细信息。
我们将计算出的信任度分数称为基于知识的信任 (KBT)。在合成数据上,我们表明我们的方法可以可靠地计算出来源的真实可信度水平。
当前基于链接和浏览器数据对网站使用行为的来源可信度的评估存在缺陷,因为不太受欢迎的来源会得到更差的评价,并被不公平地忽视,尽管它们提供了非常好的信息。
使用这种方法,可以根据“可信度分数”对来源进行评级,而不考虑受欢迎程度。经常提供不正确信息的网站会被降级。发布符合普遍共识信息的网站将获得奖励。这也降低了通过虚假新闻吸引注意力的网站在 Google 上获得知名度的可能性。
使用网络链接图中的距离对网页进行排名
该专利最新版本由谷歌于2017年签 些成功的冷电子邮件中的预标题 署,目前状态为有效。它描述了如何根据链接文档与所选种子网站的接近度来创建排名分数。种子页面本身是单独加权的。
种子页面本身质量很高,而且来源高度可信。关于这些页面,可以在专利中读到以下内容:
在本发明的一个实施例中,种子 102是专门选择的高质量页面,其为其他非种子页面提供良好的网络连接。更具体地说,为了确保其他高质量页面能够从种子 102轻松到达,种子 102中的种子 需要可靠、多样化以覆盖广泛的公共兴趣领域,并且与其他页面有良好的连接(即具有大量的出站链接)。例如,Google Directory 和纽约时报都是具备此类属性的优良种子。通常假设这些种子也“更接近”网络上的其他高质量页面。此外,具有大量有用的出站链接的种子有助于识别其他有用和高质量的页面,从而充当网络上的“枢纽”。
根据专利,这些种子页面必须手 新加坡數據 动选择,并且数量应受到限制以防止操纵。可以使用以下标准确定种子页面和要排名的文档之间的链接长度:
- 链接的位置
- 链接的字体
- 源页面主题偏离程度
- 源页面的出站链接数
有趣的是,没有直接或间接链接到至少一个种子页面的页面根本不会被计入评分。
但请注意,并非页面集合中的所有页面都会通过此过程获得排名分数。例如,任何种子页面都无法访问的页面将不会被排名。
算法 EAT 评估的可能标准
总而言之,我从研究结果中得出结论,根据 EAT,以下因素对作者和出版商等来源的算法评估有重大影响:
- 作者/出版商在某一主题领域创作内容的时间有多长
- 作者/出版商的知名度
- 用户对作者/出版商发布的内容的评分
- 作者/出版商就某一主题发表的文章数量
- 作者/出版商发布该主题内容的频率
- 作者/出版商与主题环境中的术语共现
- 与“普遍看法”或科学发现 (KBT) 相比,已发表信息的准确性
- 频繁链接接近发布者/作者内容的种子网站
- 用户信号,例如发布者/作者文档的点击率
- 最佳榜单中提及作者/出版商
- 作者/出版商获得的奖项和奖励
- 对公司/出版商/作者的心情/情感