掌握现代 SEO 的 NLP:技术、工具和策略


SEO已经从关键词堆砌时代走了很长一段路。像 Google 这样的现代搜索引擎现在依靠先进的自然语言处理 (NLP) 来理解搜索并将其与相关内容进行匹配。

本文将解释塑造现代 SEO 的关键 NLP 概念,以便您更好地优化内容。我们将涵盖:

  • 机器如何将人类语言处理为信号和噪音,而不是词语和概念。
  • 过时的潜在语义索引 (LSI) 技术的局限性。
  • 实体(特别是命名实体识别)在搜索中的作用日益增强。
  • 神经匹配和 BERT 等新兴 NLP 方法超越了关键词来理解用户意图。
  • 大型语言模型 (LLM) 和检索增强生成 (RAG) 等新前沿。

机器如何理解语言?

首先了解机器如何以及为何分析和处理它们接收的输入文本是有帮助的。

当你按下键盘上的“E”键时,你的计算机并不能直接理解“E”的含义。相反,它会向低级程序发送一条消息,该程序指示计算机如何操纵和处理来自键盘的电信号。 

然后,该程序将信号转换成计算机可以理解的动作,例如在屏幕上显示字母“E”或执行与该输入相关的其他任务。

这个简化的解释表明,计算机使用的是数字和信号,而不是字母和单词之类的概念。

对于 NLP 来说,挑战在于教会这些机器理解、解释和生成人类语言,因为人类语言本质上是微妙而复杂的。 

基础技术使计算机能够通过识别单词的数字表示之间的模式和关系来开始“理解”文本。它们包括:

  • 标记化,将文本分解为组成部分(如单词或短语)。
  • 矢量化,其中单词被转换成数值。

关键在于,算法,即使是非常先进的算法,也不会将单词视为概念或语言;它们将其视为信号和噪音。本质上,我们正在改变非常昂贵的沙子的电荷。

LSI 关键词:神话与现实

潜在语义索引 (LSI) 是 SEO 圈中经常使用的一个术语。其理念是,某些关键字或短语在概念上与您的主要关键字相关,将它们包含在您的内容中有助于搜索引擎更好地理解您的页面。

简单来说,LSI 就像图书馆的文本分类系统。LSI 于 20 世纪 80 年代开发,可帮助计算机掌握大量文档中单词和概念之间的联系。 

但“一堆文档”并非Google的全部索引。LSI 是一种旨在从一小组彼此相似的文档中寻找相似之处的技术。

它的工作原理如下:假设您正在研究“气候变化”。基本的关键字搜索可能会为您提供明确提到“气候变化”的文档。 

但是那些讨论“全球变暖”、“碳足迹”或“温室气体”的有价值的文章又如何呢? 

这时 LSI 就派上用场了。它可以识别那些语义相关的术语,确保即使没有使用精确的短语,你也不会错过相关信息。

问题是,Google 并没有使用 20 世纪 80 年代的图书馆技术来对内容进行排名。他们有比这更昂贵的设备。 

<img class="wp-image-437393 entered exited" src="data:;base64,” alt=”X 上的@johnmu” width=”1202″ height=”428″ data-lazy-srcset=”https://searchengineland.com/wp-content/seloads/2024/02/John-Mueller-on-X-LSI-keywords.png.webp 1202w,https://searchengineland.com/wp-content/seloads/2024/02/John-Mueller-on-X-LSI-keywords-600×214.png.webp 600w,https://searchengineland.com/wp-content/seloads/2024/02/John-Mueller-on-X-LSI-keywords-800×285.png.webp 800w,https://searchengineland.com/wp-content/seloads/2024/02/John-Mueller-on-X-LSI-keywords-200×71.png.webp 200w,https://searchengineland.com/wp-content/seloads/2024/02/John-Mueller-on-X-LSI-keywords-768×273.png.webp 768w” data-lazy-sizes=”(max-width: 1202px) 100vw, 1202px” data-lazy-src=”https://searchengineland.com/wp-content/seloads/2024/02/John-Mueller-on-X-LSI-keywords.png.webp” />
约翰·穆勒谈 X

尽管存在普遍的误解,但 LSI 关键字并未直接用于现代 SEO 或 Google 等搜索引擎。LSI 是一个过时的术语,Google 不使用语义索引之类的东西。

然而,语义理解和其他机器语言技术也很有用。这一发展为更先进的 NLP 技术铺平了道路,而这些技术正是当今搜索引擎分析和解释网络内容的核心。

那么,让我们超越关键词。我们有以特殊方式解释语言的机器,并且我们知道 Google 使用技术将内容与用户查询相匹配。但是,基本关键词匹配之后会发生什么呢? 

这就是当今搜索引擎中的实体、神经匹配和先进的 NLP 技术发挥作用的地方。

深入挖掘:实体、主题、关键词:澄清核心语义 SEO 概念

实体在搜索中的作用 

实体是 NLP 的基石,也是 SEO 的重点。Google 主要以两种方式使用实体:

  • 知识图谱实体:这些是定义明确的实体,如著名作家、历史事件、地标等,存在于 Google 的知识图谱中。它们很容易识别,并且经常出现在搜索结果中,带有丰富的摘要或知识面板。
  • 小写实体:这些实体可被 Google 识别,但不够突出,无法在知识图谱中占据专门的位置。Google 的算法仍然可以识别这些实体,例如鲜为人知的名称或与您的内容相关的特定概念。

了解“实体网络”至关重要。它帮助我们制作符合用户目标和查询的内容,使我们的内容更有可能被搜索引擎视为相关内容。

深入挖掘:实体 SEO:权威指南

了解命名实体识别

命名实体识别 (NER) 是一种 NLP 技术,可以自动识别文本中的命名实体并将其分类到预定义的类别中,例如人名、组织名和位置名。

让我们举个例子:“Sara 于 2016 年收购了 Torment Vortex Corp。” 

人类可以毫不费力地识别出: 

  • “Sara” 这个人。 
  • “Torment Vortex Corp.”作为一家公司。
  • “2016”作为时间。 

NER 是一种让系统理解上下文的方法。 

NER中使用了不同的算法:

  • 基于规则的系统:依靠手工制定的规则根据模式识别实体。如果它看起来像日期,它就是日期。如果它看起来像钱,它就是钱。
  • 统计模型:这些模型从标记的数据集中学习。有人浏览并将所有 Saras、Torment Vortex Corps 和 2016s 标记为各自的实体类型。当出现新文本时。希望其他符合类似模式的名称、公司和日期也被标记。示例包括隐马尔可夫模型、最大熵模型和条件随机场。
  • 深度学习模型:循环神经网络、长短期记忆网络和Transformer都已用于NER来捕获文本数据中的复杂模式。

像谷歌这样大型、快速发展的搜索引擎可能会采用上述方法的组合,以便对进入互联网生态系统的新实体做出反应。 

下面是使用 Python 的 NTLK 库实现基于规则的方法的简化示例:

import nltk

from nltk import ne_chunk, pos_tag

from nltk.tokenize import word_tokenize

nltk.download('maxent_ne_chunker')

nltk.download('words')

sentence = "Albert Einstein was born in Ulm, Germany in 1879."

# Tokenize and part-of-speech tagging

tokens = word_tokenize(sentence)

tags = pos_tag(tokens)

# Named entity recognition

entities = ne_chunk(tags)

print(entities)

对于使用预训练模型的更高级方法,你可以使用 spaCy:

import spacy

# Load the pre-trained model

nlp = spacy.load("en_core_web_sm")

sentence = "Albert Einstein was born in Ulm, Germany in 1879."

# Process the text

doc = nlp(sentence)

# Iterate over the detected entities

for ent in doc.ents:

    print(ent.text, ent.label_)

这些示例说明了 NER 的基本方法和更高级的方法。

从简单的基于规则或统计模型开始可以提供基础见解,而利用预先训练的深度学习模型可以提供更复杂和准确的实体识别能力的途径。

NLP 中的实体、SEO 中的实体以及 SEO 中的命名实体

实体是 Google 在搜索中以两种方式使用的 NLP 术语。 

  • 知识图谱中存在一些实体(例如,参见作者)。
  • 谷歌可以识别小写实体,但尚未做出区分。(即使他们不是名人,谷歌也可以识别姓名。) 

了解这个实体网络可以帮助我们了解用户对我们内容的目标 

NLP 中的实体、SEO 中的实体以及 SEO 中的命名实体

来自 Google 的神经匹配、BERT 和其他 NLP 技术

谷歌对理解人类语言细微差别的探索促使其采用了多种尖端的 NLP 技术。 

近年来最受关注的两个技术是神经匹配和 BERT。让我们深入了解一下它们是什么以及它们如何彻底改变搜索。

神经匹配:超越关键词的理解

想象一下寻找“阳光明媚的日子里可以放松的地方”。 

旧版谷歌可能会专注于“地点”和“晴天”,可能返回天气网站或户外装备商店的搜索结果。 

输入神经匹配——这就像谷歌试图读懂字里行间的意思,了解你可能正在寻找公园或海滩而不是今天的紫外线指数。

BERT:分解复杂查询

BERT(Transformers 的双向编码器表示)是另一个飞跃。如果神经匹配帮助 Google 读懂字里行间的意思,那么 BERT 则帮助它理解整个故事。 

BERT 可以将一个单词与句子中的所有其他单词关联起来处理,而不是按顺序逐个处理。这意味着它可以更准确地掌握每个单词的上下文。关系及其顺序很重要。

 “带泳池的最佳酒店”和“酒店的优质泳池”可能存在细微的语义差异:想想“今天只有他开车送她去学校”与“今天他只开车送她去学校”。

所以,让我们结合以前更原始的系统来思考这个问题。

机器学习的工作原理是获取大量数据(通常用标记和向量(数字以及这些数字之间的关系)表示),并对这些数据进行迭代以学习模式。 

借助神经匹配和 BERT 等技术,谷歌不再仅仅关注搜索查询和网页上的关键词之间的直接匹配。 

它试图理解查询背后的意图以及不同词语之间的关系,以提供真正满足用户需求的结果。 

例如,搜索“感冒头部治疗方法”将理解为寻求治疗感冒相关症状的背景,而不是字面上的“感冒”或“头部”主题。

单词的使用环境以及它们与主题的关系非常重要。这并不一定意味着关键词填充已经过时,但填充的关键词类型有所不同。 

您不应只看排名,还应看相关的想法、查询和问题是否完整。以全面、上下文相关的方式回答查询的内容更受欢迎。 

了解用户查询背后的意图比以往任何时候都更加重要。Google 先进的 NLP 技术可将内容与用户的意图相匹配,无论是信息性、导航性、交易性还是商业性。 

通过回答问题并根据需要提供指南、评论或产品页面来优化内容以满足这些意图,可以提高搜索性能。 

但也要了解您的利基市场如何 以及为何 会针对该查询意图进行排名。

寻求汽车比较的用户不太可能想要有偏见的观点,但如果您愿意谈论来自用户的信息并且做到至关重要和诚实,您就更有可能占据这个位置。 

大型语言模型 (LLM) 和检索增强生成 (RAG)

除了传统的 NLP 技术之外,数字领域现在还采用了 GPT(生成式预训练 Transformer)等大型语言模型 (LLM) 和检索增强生成 (RAG) 等创新方法。 

这些技术为机器如何理解和生成人类语言设定了新的基准。

法学硕士:超越基础理解

像 GPT 这样的LLM是在庞大的数据集上进行训练的,涵盖了广泛的互联网文本。它们的优势在于能够根据句子前面的单词所提供的上下文来预测句子中的下一个单词。这种能力使它们在生成各种主题和风格的类人文本方面非常灵活。

然而,必须记住的是,LLM 并非无所不知的先知。它们无法访问实时互联网数据,也无法理解事实。相反,它们会根据训练期间学习到的模式生成响应。
因此,虽然它们可以生成非常连贯且符合语境的文本,但它们的输出必须经过事实核查,尤其是准确性和及时性。

LLM 插图

RAG:通过检索提高准确性

这正是检索增强生成 (RAG) 发挥作用的地方。RAG 将 LLM 的生成能力与信息检索的精确度相结合。 

当 LLM 生成回复时,RAG 会通过从数据库或互联网获取相关信息来验证或补充生成的文本。此过程可确保最终输出流畅、连贯、准确且基于可靠数据。

获取搜索营销人员所依赖的新闻通讯。


SEO中的应用

理解和利用这些技术可以为内容创作和优化开辟新的途径。 

  • 通过法学硕士 (LLM),您可以生成多样化且引人入胜的内容,引起读者的共鸣并全面解答他们的疑问。 
  • RAG 可以通过确保其事实准确性并提高其对观众的可信度和价值来进一步增强这些内容。

这也是搜索生成体验(SGE) 的本质:RAG 和 LLM 的结合。这就是为什么“生成”结果往往与排名文本偏差较大,以及为什么 SGE 结果看起来很奇怪或拼凑在一起。

所有这些都会导致内容趋于平庸,并强化偏见和刻板印象。接受过互联网数据训练的法学硕士会生成该数据的中值输出,然后检索类似生成的数据。这就是他们所说的“enshittification”。

在您自己的内容中使用 NLP 技术的 4 种方法

在您自己的内容上使用 NLP 技术需要利用机器理解的力量来增强您的 SEO 策略。以下是您可以如何开始。

1. 确定内容中的关键实体

利用 NLP 工具检测内容中的命名实体。这可能包括人名、组织名称、地点名称、日期等。

了解存在的实体可以帮助您确保您的内容丰富且信息丰富,解决受众关心的话题。这可以帮助您在内容中包含丰富的上下文链接。

2.分析用户意图

使用 NLP对与您的内容相关的搜索背后的意图进行分类。 

用户是在寻找信息、想要购买还是寻求特定服务?根据这些意图定制内容可以显著提高您的 SEO 效果。

3. 提高可读性和参与度

NLP 工具可以评估内容的可读性,并建议进行优化,以使其更易于理解并吸引受众。

简单的语言、清晰的结构和有针对性的信息传递,加上 NLP 分析,可以增加您网站上的停留时间并降低跳出率。您可以使用可读性库并从 pip 安装它。

4. 语义分析,内容扩展

除了关键词密度之外,语义分析还可以揭示您可能未在原始内容中包含的相关概念和主题。

整合这些相关主题可以使您的内容更加全面,并提高其与各种搜索查询的相关性。您可以使用 TF:IDF、LDA 和 NLTK、Spacy 和 Gensim 等工具。

以下是一些入门脚本:

使用 Python 的 NLTK 进行关键字和实体提取

import nltk

from nltk.tokenize import word_tokenize

from nltk.tag import pos_tag

from nltk.chunk import ne_chunk

nltk.download('punkt')

nltk.download('averaged_perceptron_tagger')

nltk.download('maxent_ne_chunker')

nltk.download('words')

sentence = "Google's AI algorithm BERT helps understand complex search queries."

# Tokenize and part-of-speech tagging

tokens = word_tokenize(sentence)

tags = pos_tag(tokens)

# Named entity recognition

entities = ne_chunk(tags)

print(entities)

使用 spaCy 理解用户意图

import spacy

# Load English tokenizer, tagger, parser, NER, and word vectors

nlp = spacy.load("en_core_web_sm")

text = "How do I start with Python programming?"

# Process the text

doc = nlp(text)

# Entity recognition for quick topic identification

for entity in doc.ents:

    print(entity.text, entity.label_)

# Leveraging verbs and nouns to understand user intent

verbs = [token.lemma_ for token in doc if token.pos_ == "VERB"]

nouns = [token.lemma_ for token in doc if token.pos_ == "NOUN"]

print("Verbs:", verbs)

print("Nouns:", nouns)

我们邀请投稿作者为 Search Engine Land 撰写内容,并根据他们的专业知识和对搜索社区的贡献进行选择。我们的投稿者在编辑人员的监督下工作并检查投稿的质量和与读者的相关性。他们表达的观点是他们自己的。


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注