搜索引擎如何抓取网站

想象一下,作为一个搜索引擎爬虫,扫描一篇关于如何烤蛋糕的10,000字的文章。您如何识别烘焙蛋糕所需的作者,食谱,成分或步骤?这就是模式标记的用武之地。它允许您为搜索引擎提供更具体的分类,掌握搜索引擎原理,以了解页面上的信息类型。

架构是一种标记或组织内容的方式,以便搜索引擎更好地了解网页上的某些元素。此代码为您的数据提供了结构,这就是架构通常被称为“结构化数据”的原因。构建数据的过程通常被称为“标记”,因为您使用组织代码标记内容。

JSON-LD是搜索引擎首选的架构标记(2016年5月宣布),Bing也支持。在实施最适合您网页的结构化数据后,您可以使用搜索引擎的结构化数据测试工具测试您的标记。

搜索引擎原理

除了帮助像搜索引擎这样的机器人了解特定内容的内容之外,架构标记还可以在SERP中启用特殊功能以配合您的页面。这些特殊功能被称为“丰富的片段”,您可能已经看到它们在行动中。他们是这样的:

热门故事旋转木马

评论明星

附加链接搜索框

食谱

请记住,使用结构化数据可以帮助实现丰富的代码段,但并不能保证它。随着模式标记的使用增加,将来可能会添加其他类型的丰富网页摘要。

关于模式成功的最后建议:

您可以在页面上使用多种类型的架构标记。但是,如果您标记一个元素(例如产品),并且页面上列出了其他产品,则还必须标记这些产品。

请勿标记访问者看不到的内容,并遵循搜索引擎的质量指南。例如,如果您将评论结构化标记添加到页面,请确保这些评论在该页面上实际可见。

如果您有重复的网页,搜索引擎会要求您使用结构化标记标记每个重复的网页,而不仅仅是规范版本。

提供原创和更新(如果适用)conten 牛逼你的结构化数据的网页。

结构化标记应该是您页面的准确反映。

尝试为您的内容使用最特定类型的架构标记。

标记的评论不应由业务部门编写。它们应该是来自实际客户的真正无偿商业评论。

通过规范化告诉搜索引擎您的首选页面

搜索引擎原理

当搜索引擎在不同网页上抓取相同内容时,有时无法知道要在搜索结果中编入索引的页面。这就是发明rel =“canonical”标签的原因:帮助搜索引擎更好地索引首选内容版本,而不是所有重复内容。

rel =“canonical”标签允许您告诉搜索引擎内容的原始主版本所在的位置。你实际上是在说,“嘿,搜索引擎!不要将其编入索引;请改为索引此源页面。” 因此,如果您想重新发布一段内容,无论是完全修改还是稍微修改,但又不想冒创建重复内容的风险,那么规范标记就是为了节省时间。

搜索引擎原理

正确的规范化可确保您网站上的每个独特内容只有一个URL。为防止搜索引擎将单个网页的多个版本编入索引,搜索引擎建议您在网站的每个网页上都使用自引用规范标记。

“避免重复内容”是一个互联网真理,并有充分的理由!搜索引擎希望奖励那些具有独特,有价值内容的网站,而不是从其他来源获取并在多个网页上重复的内容。因为引擎想要提供最佳的搜索者体验,所以他们很少会显示相同内容的多个版本,而是选择仅显示规范化版本,或者如果不存在规范标记,则认为它们最有可能是原始版本。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2466060800@qq.com 举报,一经查实,本站将立刻删除。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注