重磅消息:一份关于谷歌搜索在排名和显示网页结果时所考虑因素的内部文件被泄露。
这些文件由SparkToro软件公司的Rand Fishkin获得并随后公开。Fishkin曾在搜索引擎优化(SEO)行业工作。这份名为“Google API Content Warehouse”的文件包含了内部API文档,向谷歌员工解释了生成搜索结果的各个组件如何工作。文件总共有超过2500页。
重要的是,这些信息似乎与过去二十年来众多谷歌搜索员工的声明相矛盾。
泄露文件解读
这次泄漏的文件包含大量技术细节,详细说明了谷歌搜索引擎内部如何运作。这些文件不仅描述了各种排名因素,还解释了这些因素如何在搜索结果的生成过程中交互。尽管没有具体说明每个因素的权重,但这些信息已经为SEO社区提供了大量有价值的洞见。
Aleyda Solis在X平台上简要总结了部分泄露内容:
- 文档中提到有14,000个排名特征及更多内容。
- 谷歌有一个叫做“siteAuthority”的计算特征。
- Navboost具有一个完全专注于点击信号的特定模块,将用户视为投票者,点击被记录为他们的投票。
- 谷歌记录了会话期间点击时间最长的结果。
- 谷歌有一个名为hostAge的属性,专门用于在服务时间内“沙盒新鲜的垃圾邮件”。
- 与页面质量分数相关的一个模块包括一个基于站点级别的Chrome浏览量度量。
SEO社区对这些泄漏信息热议纷纷。许多业内人士认为,这些文件证实了他们长期持有的一些猜测和理论。例如,有人早就怀疑谷歌可能使用用户点击信号来影响搜索排名,而这次泄漏的文档中确实提到了这些内容。
然而,重要的是要保持客观和开放的心态。虽然这些信息非常具有指导性,但也存在被误导的风险。SEO社区需要谨慎解读这些数据,避免陷入确认偏误,只选择那些支持自己先入之见的信息。
感兴趣的小伙伴可以阅读英文原文:
Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
谷歌回应
来自谷歌搜索联络员丹尼·沙利文(Danny Sullivan)对搜索泄露中提到的特定信号和元素给出了更具体的评论,回答了有关Navboost、点击和用户交互的问题,因为它与有用的内容更新和搜索泄漏有关。
沙利文在在X上说:“现实情况是,我们使用各种不同的排名信号,包括但不限于这里所涉及的“聚合和匿名交互数据”。”
这份文件的内容是:
Beyond looking at keywords, our systems also analyze if content is relevant to a query in other ways. We also use aggregated and anonymized interaction data to assess whether search results are relevant to queries. We transform that data into signals that help our machine-learned systems better estimate relevance. Just think: when you search for “dogs”, you likely don’t want a page with the word “dogs” on it hundreds of times. With that in mind, algorithms assess if a page contains other relevant content beyond the keyword “dogs” — such as pictures of dogs, videos, or even a list of breeds.
中文翻译:
除了查看关键字之外,我们的系统还以其他方式分析内容是否与查询相关。我们还使用汇总和匿名的交互数据来评估搜索结果是否与查询相关。我们将这些数据转换为信号,帮助我们的机器学习系统更好地估计相关性。试想一下:当你搜索“狗”时,你可能不想看到一个页面上有数百次“狗”这个词。考虑到这一点,算法会评估页面是否包含关键字“狗”之外的其他相关内容-例如狗的图片,视频,甚至是品种列表。
原创文章,作者:华再,如若转载,请注明出处:https://www.zhiwaimao.com/google-search-data-leak/