10.1 基于知识的智能体 (A Knowledge Based Agent)

想象一个充满熔岩的危险世界，唯一的喘息之机是遥远的绿洲。我们希望我们的智能体能够安全地从当前位置导航到绿洲。

在强化学习中，我们假设我们能给予的唯一指导是一个奖励函数，它将尝试将智能体推向正确的方向，就像“热或冷”的游戏一样。随着智能体探索并收集更多关于世界的观察结果，它逐渐学会将某些动作与积极的未来奖励联系起来，将其他动作与不受欢迎的、滚烫的死亡联系起来。这样，它可能会学会识别来自世界的某些线索并采取相应的行动。例如，如果它感觉空气变热，它应该转向另一边。

然而，我们可能会考虑另一种策略。相反，让我们告诉智能体一些关于世界的事实，并允许它根据手头的信息推理该做什么。如果我们告诉智能体，熔岩坑周围的空气会变得炎热和朦胧，或者水体周围的空气会变得清新和干净，那么它可以根据其对大气的读数合理地推断出景观的哪些区域是危险的或安全的。这种替代类型的智能体被称为基于知识的智能体 (knowledge-based agent)。这样的智能体维护一个知识库 (knowledge base)，它是逻辑语句 (sentences) 的集合，编码了我们告诉智能体的内容以及它观察到的内容。智能体还能够执行逻辑推理 (logical inference) 以得出新的结论。