面向实体的搜索:信息检索的演变,解释

我们很少停下来思考现代信息存取的闪电般的速度。试着想象一个答案只存在于图书馆的时代–现在似乎已经过时了。

搜索工具变得如此强大,以至于他们掌握了你问题背后的含义,而不仅仅是单个单词。这种功能是从关键字到实体导向搜索的演变结果。虽然它看起来很复杂,但今天我们要打破它。

想象一下一个简化的世界,网站被书籍所取代,答案是由100万名专职员工组成的团队找到的。这个比喻将帮助我们理解实体搜索的动力系统,让你对我们今天享受的速度和准确性有一个新的欣赏。

通过这个练习,你会明白:

为什么搜索引擎开始使用实体 他们解决了什么问题?
知识图的内部工作 :搜索引擎如何填充和使用知识图中的信息?如何增加你的搜索结果?
专题权威如何进一步扩大已返回的成果?
实际的SEO战略 如何为这个新景观优化你的内容。

让我们构建一个基于实体的搜索引擎:你的库

想象一下,你要负责一个拥有成千上万本书的巨大图书馆,并能接触到一百万名勤奋工作的员工。与普通图书馆不同的是,客户想要他们的问题的答案,而不是从前到后地寻找可供阅读的书籍。

顾客不断地提出问题(询问),渴望得到答案.你的任务是尽快找到他们需要的信息。

为了让你的图书馆成功,你需要返回比其他图书馆更好的答案来节省客户的时间。

您的图书馆版本1:基于标题的返回

让我们想象一下,有人问:”最快的动物有多快?”

如果你是一个传统的图书馆,你可以先扫描标题,希望找到相似的匹配。顾客很可能会收到一堆书,他们的工作就是把书读一遍,找出答案。

这一过程可能需要几个小时。更不用说,可能有更好的书因为它们的标题太不相关而无法归还。

引入反向索引

您认为这个过程太慢,这可能是您的员工的一项任务。为了加快速度,你要招募数百万名员工来创建一个全面的指数。

他们没有把注意力集中在整本书或者像你原来的索引这样的标题上,而是把每一个页面分类。每个工人都仔细记录每一个字的页面,以及它的位置。

结果就是所谓的倒索引。结构是这样的:

现在,当一个顾客问:”什么是最快的动物?你的团队参考索引,确定”最快”和”动物”,提供一个相关页面列表和两个列表中的任何页面。

这反映了一个传统的搜索引擎–我们正在寻找关键字,但是我们还没有理解其中的深层含义。

现在,客户得到了一个可能包含答案的数百到数千页的列表。这样可以节省客户很多时间,因为他们可以跳到相关页面,希望找到他们的答案。

孤立实体:关键词以外

我们的反向索引是一个重大的飞跃,为您的团队和客户节省了时间。

你改进系统的消息传开了,很快,顾客们就在门口排队了。

然而,人们开始抱怨不相关的结果和事实错误。为了追求卓越,我们认识到需要解决这些问题。

问题

像”苹果”这样的词会带来一种压倒性的反应–食谱、科学,你称之为科学,所有这些都被返回。我们如何解决这个问题?

这是一个棘手的问题,我们将需要在几个不同的方法上培训你的员工。

第一种可能有意义的方法是培训劳动力 抓住背景 区分(消歧)一个词的多重含义。例如,如果”苹果”后面跟着的是”电脑”或”iPhone”,它意味着一个不同的实体,而不是在”派”或”树”附近。”

虽然使用上下文线索是一种强有力的方法,但它看起来很困难。你的员工需要学习如何识别那些微妙的暗示,这些暗示揭示了一个实体在周围的文本中的真正意义。这是一个挑战,需要对语言和主题的专门知识有微妙的理解,机器可能需要数年的时间来复制。

为了有效地利用上下文来区分单词的含义,我们必须首先构建一个强有力的基础,使我们的员工能够重组索引。

以下是我们将采取的三个步骤,并将讨论如下:

图书馆员指南: 我们需要一个清晰的系统来帮助你的员工理解环境。他们必须能够识别同一单词的不同含义,并相应地通过查看周围的单词。这意味着我们需要一个详细的目录,其中周围的单词说明哪些实体。为了实现这一点,我们需要开始写下周围的单词和我们认为相关的实体,然后将其与我们下一个构建的知识图进行比较。
为收藏品打电话: 这些实体及其关系的视觉地图将是非常宝贵的。你的工作人员将利用这张图表来建立联系,提高他们向读者推荐的书籍的质量。通过识别一个实体并浏览它的属性,我们可以稍后使用这些信息来增强我们的整个过程。
重组货架: 最后,一旦我们有了一个知识图,一个详细的地图,周围的单词给一个实体的身份线索,我们将需要改进您的库和索引。我们将不再仅仅依靠传统术语,而是按”实体”(他们讨论的关键人物、地点、事物和想法)对书籍进行分组。

步骤1:制作指南

你的员工将接受以下三个步骤的培训,以帮助建立文本中使用哪个实体的线索:

周围词语: 就像搜索引擎分析附近的单词一样,你的工作人员会看到围绕”苹果”的句子。它是类似于”馅饼”,”烘烤”,还是”食谱”?这意味着苹果的烹饪风格。
书籍类型: 这本书的总体分类提供了有力的线索。如果这是一本历史教科书,那么”苹果”可能指的是一个历史人物(比如艾萨克·牛顿和他的苹果发明)。在科幻小说中,它甚至可能是一个未来主义的星球!
判决结构: 员工将学会注意如何使用”苹果”。这是一个名词吗?或形容词(“她的脸颊是苹果红的。””?这有助于他们区分水果和其他含义。

随着时间的推移,这些观察构成了你指南的基础。它可以包括:

一个具有多重含义的单词列表,比如”苹果”。”
表示特定含义的常用短语和上下文(例如:,”苹果派”=食物)。
链接到专业词典进行深入研究。

就像搜索引擎一样,这个系统并不完美。工作人员仍然会遇到含糊不清的问题,但该指南极大地提高了他们根据上下文识别正确实体的能力。

然后可以使用该指南确定新的实体,并将现有文本与原有实体(称为实体链接)联系起来。

步骤2:建立知识库 (提示:我们不会从头开始构建)

吸收现有知识

从零开始建立一个全面的知识基础将是一项艰巨的任务。幸运的是,百科全书等资源提供了宝贵的基础。

就像谷歌一样,我们也可以利用现有的知识资源,比如数字百科。数字百科提供了结构良好的类别和属性(把它们看作是专门的标记),这使我们在组织库的知识方面有了一个良好的开端。

关于知识图的一个关键决定是什么是本体论。我们将尝试开发与进入您库的查询类型相对应的本体。

实体联系:联系艺术

接下来,你不知疲倦的工作人员必须将原始的、非结构化的信息,如页面上的单词转换为链接的知识。他们将重新分析图书馆的书籍和输入的内容,使用上下文线索来识别和连接实体到DB维基的结构。

例子 : 让我们假设一个页面描述猎豹令人难以置信的跑速度。你的员工可以:

承认”印度豹”是一种类型的动物。”
将其链接到DB维基的印度豹入口,用它的科学名称、栖息地信息等来丰富它。
创建一个”最高速度”属性,分配页面上发现的值。

让我们快速回顾一个实体链接过程的例子:

第三步:知识图的形成

您的团队识别的每个实体和关系在您不断增长的知识图中成为一个节点和边缘–一个连接信息的可视地图!

这种结构化格式使我们能够超越简单的关键字匹配,真正理解文本背后的含义。有了知识图,我们可以用实体,而不仅仅是术语来增加我们的索引。

与纯文本不同,实体具有丰富的相关属性。这种更深的理解将使我们能够更有效地分析非结构化文本,更准确地解释用户的查询,并提供高度相关的答案。

获得通讯搜索营销依赖。

参见术语。

用实体增加搜索结果

既然你的工作人员已经建立了这个庞大的信息关系图,接下来的问题是我们如何使用这个知识图来增加你的回答过程?

这就是我们开始观察构建这个巨大图表的好处的地方。

最后,我们解决了”苹果”的难题。你的倒置索引现在可以适应”苹果”的多重含义。”我们将为每个实体分配一组别名,帮助我们识别人们在各种场合下如何称呼”苹果”。这意味着即使作者不使用确切的搜索术语,如果他们使用别名,我们仍有可能返回他们的相关内容。
使用相同的方法识别实体映射,我们可以更好地理解将要出现的问题。例如,如果有人根据背景线索搜索”苹果成立的年份”,我们就可以把”苹果”和公司联系起来。现在回复的答案只提到了”苹果”这个公司实例。”
实体浏览了解客户搜索 :当客户提出问题时,我们首先要识别其中的关键实体。然后,我们探索知识图,以确定他们感兴趣的精确实体类型。这远远不止是匹配城市名称;我们可以区分城市、历史人物或其他拥有相同名称的实体。通过了解实体类型及其相关属性,我们可以更深入地了解客户的真正意图。这使我们能够提供不仅与文字相关的结果,而且真正地回答了搜索背后的深层含义。

查询扩展: 最后,我们可以用同义词、属性和变异来增强传入的查询。以前,如果一个页面没有包含确切的搜索术语,它就不会出现在结果中–即使它是高度相关的。客户可能因为没有使用正确的词而错过了精彩的内容。查询扩展帮助我们弥合了这一差距,覆盖了更广泛的相关页面。

对SEO来说这意味着什么

这突出了在SEO中经常被误解的一个主要概念。谷歌不仅仅是寻找准确的关键词。它可以理解,即使准确的关键字不存在,你的页面也会针对一个主题。

虽然加入变化仍然是明智的,但由于实体的理解,写得好的页面可以有机地排列你没有明确针对的相关术语。

用专题权威进一步扩大搜索结果:了解书籍及其有益之处

想象一下,一个顾客问:”史蒂夫•乔布斯是在哪一年找到苹果的?你的系统擅长识别”苹果”为公司。

然而,它可能会错误地优先考虑”10个秘密黑客来发展你的业务”,仅仅因为它在第93页中简单地提到了”史蒂夫乔布斯创建苹果”。

由于我们无法对每一本书进行事实调查,我们可能担心一本关于商业黑客的书可能不是苹果的可靠信息来源。可能会损害你的名誉。

我们希望客户找到能激发他们对进一步阅读所选话题兴趣的书。为了解决这个问题,我们将开发一个系统,按主题对你的书进行分类和组织。这样,我们可以将用户的问题与主题相关的书籍匹配起来。

我们的员工将分析书的标题和目录,以确定书的重点。我们还将使用你的知识图表来验证主题是否与用户的搜索结果准确相关,以确保我们提供的结果是相关和有用的。

通过使用目录对书籍进行仔细分类,我们可以确定最适合特定搜索主题的特定类别。这使我们能够确定可靠信息来源的优先次序,从而推动具有已被证实的专业知识记录的书籍。

将其与搜索引擎连接起来,这是专题权威等概念的基础。

身份危机警报

当我们的新系统在内容表中遇到主题覆盖面过宽的书籍时,可能会出现问题。目前,我们将给这些”未分类”贴上标签,并避免在搜索结果中增加它们,以确保我们不会误导客户。

处理新信息

我们的索引团队建立了一个强大的系统,客户喜欢改进的结果。

然而,当寻找定义”上限”一词的书籍时,千禧年一代感到沮丧–你的系统不承认这种俚语用法。似乎Z一代作者正在推动这种新的语言趋势,我们需要确保您的系统与不断发展的信息保持同步。

知识在不断变化。因此,我们成立了一个团队,致力于发现真正的新信息–科学发现、开创性发明或新出现的名人。

他们的任务是双重的:

在现有知识图中添加新的实体。
根据需要定义新的关系,确保你的知识图准确地反映现实。

为作者创建结构化语言,如模式标记

我们的最后一步是实施一种新的模式,随着我们走向未来,这将有助于我们的图书馆。我们的工人很棒,但一百万的薪水是一个负担。

让我们授权作者简化程序。我们将创建一种结构化的语言,类似于模式标记,作者可以使用它来清晰地交流关键信息。

在每本书的前面,他们可以创建表格,清楚地识别书中不同类型的信息。这将使我们的员工能够节省时间,并在不深入阅读的情况下决定哪些页面可用。它还将使我们的团队能够向客户返回信息表,而不是页面。

这种从纯文本(非结构化数据)的转移将使你的索引团队的工作更加容易,释放他们来应对那些令人兴奋的新的基因Z图书的涌入。

这样可以节省我们的时间,所以我们也会奖励那些在我们发送给客户的堆栈上使用增强内容和偏好的作者。现在,我们已经完成了您的实体导向图书馆!

从你的新发现的理解

我们把一个传统的图书馆改造成一个闪电般的信息检索系统。如果我们30年前就这样做了,我们可能会成为亿万富翁。

这个简化的例子展示了我们是如何从基本的标题匹配到真正理解用户意图的系统的。我们甚至开发了一种结构化语言(就像架构标记一样)来简化信息处理。这使你的团队能够快速掌握一本书的核心内容,从而有可能改进我们对结果的排序。

虽然我们还没有触及到页面评分这个复杂的话题(我们应该将文档送回客户的顺序),但我们已经取得了显著的成就。我们现在可以确定最相关的文档,即使它们没有使用精确的搜索术语。

让我们把你新发现的知识提炼成可行的SEO方法:

关键词以外: 谷歌的知识图理解同义词和属性。用自然语言进行优化,包括你的受众实际使用的术语,但不要觉得被一个僵硬的关键字列表束缚。
背景是国王: 帮助谷歌全面掌握你的内容。提供清晰的属性–无论是通过组织良好的表还是结构化的数据,如模式标记–为理解提供最大的上下文。
架构标记 节省了像谷歌时间这样的搜索引擎。使用实体架构标记可以帮助消除页面上的字词的歧义,并澄清重要的实体,给谷歌更大的信任和可能奖励您的页面。

邀请投稿作者为搜索引擎创建内容,并因其专业知识和对搜索社区的贡献而被选中。我们的贡献者在编辑人员并检查投稿的质量和对读者的相关性。他们表达的观点是他们自己的。

谷歌账号购买

面向实体的搜索:信息检索的演变,解释