AI 品牌推荐机制与 RAG 索引架构:Google / ChatGPT / Gemini / Perplexity 技术对照
从 GEO 决策模型(Parametric + RAG 双通道)出发,对照 Google、ChatGPT、Gemini、Perplexity 的索引与 Pipeline,并给出跨平台差异、刷新周期、检查清单与监测指标的统一框架。
GEO · RAG · AEO · 索引 · ChatGPT · Perplexity · Gemini · Google AI
摘要
GEO(Generative Engine Optimization)的优化对象不是 SERP 排名,而是 Answer 内的品牌 Mention、Citation 与枚举 Position。AI 是否推荐某品牌,可归纳为 Parametric Knowledge(训练权重) 与 Non-parametric Retrieval(RAG / Grounding) 两条通道;品牌方可干预的主要是后者。
核心结论(基于公开资料,详见正文对应章节):
| # | 结论 | 章节 |
|---|---|---|
| 1 | 各平台 AI 引用页与 Google Top 10 重叠率差异大:ChatGPT 2.1%、Google AIO 8.3%、Gemini AI Mode 15.5%、Perplexity 32% — 不宜用单一 SEO 排名推断全平台 Mention | §3.1 |
| 2 | ChatGPT Search 依赖 第三方搜索 + OAI-SearchBot 索引;robots.txt 对 OAI-SearchBot 的变更约 24h 生效 | §2.3 |
| 3 | Perplexity 自研索引 200B+ URL、10⁴ ops/s 级写入吞吐,检索粒度为 Sub-document Chunk | §2.5 |
| 4 | Google AI Overviews / Gemini 消费端 Grounding 复用 Google Search 索引,无独立 AIO 爬虫体系 | §2.2、§2.4 |
| 5 | 监测需 Prompt × Platform 二维展开;指标至少覆盖 Mention Rate、Citation Rate、SoV、Avg. List Position | §4.2 |
阅读路径: §0 术语 → §1 决策模型 → §2 分平台 Pipeline → §3 跨平台差异与刷新 → §4 落地清单与监测闭环 → 附录工具对照。
0. 术语
| 术语 | 定义 |
|---|---|
| Mention | 品牌名出现在生成答案正文中 |
| Citation | 答案附带指向品牌域名的可点击来源 |
| Position | 品牌在答案枚举列表中的序号(越靠前通常曝光越高) |
| Grounding | 生成前强制绑定检索片段,降低幻觉(Google / Gemini 用语) |
| RAG | Retrieval-Augmented Generation:Retrieve → Augment Context → Generate |
| Chunk / Passage | 页面子单元;检索与排序的一等公民(Perplexity 以 Chunk 为核心) |
| Parametric | 编码于模型权重内的知识,不可逐条更新 |
| OAI-SearchBot | OpenAI 专用于 ChatGPT Search 索引的爬虫,与 GPTBot(训练)独立 |
1. GEO 优化对象与推荐机制
1.1 从 SEO 到 GEO:目标函数变化
| 维度 | SEO | GEO |
|---|---|---|
| 优化目标 | SERP Position | |
| 竞争实体 | URL | Brand Entity + Passage |
| 失败模式 | Low CTR | Generative Zero-Click(答案内闭环,无点击) |
| 可控杠杆 | 外链、关键词、Core Web Vitals | Schema、Chunk 可抽取性、第三方 Mention 网络、Prompt 覆盖 |
1.2 双通道融合
Query q
├─► Channel A: Parametric → P(brand | q, θ) [θ = 预训练权重,短期不可调]
└─► Channel B: RAG/Ground → Retrieve(q) → {p₁…pₙ} → Generate(q, {pᵢ})
↑
GEO 主战场:索引可达性 × Passage 质量 × 引用网络
Channel A 可解释头部品牌(Shopify、Salesforce 等)在无实时检索时仍被推荐。Channel B 主导长尾、时效、垂直品类 Query 的品牌名单 — B2B 采购类 Prompt 多属此类。
1.3 推荐信号(归纳模型,非平台官方公式)
| 信号 | 机制 | 主要作用通道 | 可优化性 |
|---|---|---|---|
| Entity Resolution | 品牌是否被解析为独立 KG 节点 | A + B | Schema.org;维基 / Crunchbase 交叉验证 |
| Co-mention Graph | 训练语料与检索页中的品牌共现 | A + B | 行业媒体、B2B 目录、评测站 |
| Passage Extractability | RAG 能否无损抽取参数 / 认证 / 产能 | B | HTML Table、FAQ、JSON-LD |
| Semantic Match | Query–Passage 在 Embedding 空间的距离 | B | 与 Prompt 意图对齐的长尾内容 |
| Recency | 索引快照新鲜度 | B | 更新频率、crawl budget |
| List Position Bias | LLM 倾向优先列举高置信实体 | A + B | 多信号叠加后的复合结果(对应 Position 指标) |
2. 四大平台:索引、爬虫与 RAG Pipeline
2.1 总览对照
| 维度 | Google AI Overviews / AI Mode | ChatGPT Search | Gemini(消费端 App) | Perplexity |
|---|---|---|---|---|
| 索引来源 | Google Search Index | 第三方 Search API + Partner Feed + OAI-SearchBot | Google Search Index(Grounding) | 自研 Index(Vespa.ai,200B+ URL) |
| 爬虫 | Googlebot 家族 | OAI-SearchBot, GPTBot†, ChatGPT-User‡ | Googlebot | PerplexityBot |
| 生成模型 | Gemini | GPT-4o 系 Search 模型(公开资料) | Gemini | 多模型路由 |
| 检索粒度 | 页面级 Passage | Passage 级 | 页面级;API File Search 为 Chunk 级 | Sub-document Chunk |
| 检索模态 | Lexical + Neural Rank | 未公开(推测 Hybrid) | Lexical + Embedding | 强制 Hybrid(Lexical ∥ Semantic) |
| Citation 形态 | 内嵌来源链接 | Sources 侧栏 | Grounding metadata | 行内编号 + URL |
| Query 与检索 | 意图分类,非全 Query 触发 | 模型判断或用户手动 Search | 可自动 Grounding | 始终检索 |
† GPTBot:训练爬取,与 Search 展示解耦,可单独 Disallow。
‡ ChatGPT-User:用户触发的单次 fetch,不受 robots.txt 约束,不参与 Search 索引。
2.2 Google — AI Overviews / AI Mode
q → Google Index Retrieve → Top-k URLs
→ Passage Extract → Gemini Grounding(q, passages)
→ AI Overview + Citations
- 索引:无独立 AIO 爬虫;页面须先进入 Google Index。
- 选页:Semrush 2026-02 实测 — AIO 引用页与 Google Top 10 重叠 8.3%,存在独立于蓝链排名的 Passage 选择。
- 刷新:新闻 / 高频域 小时级;一般 B2B 站 天–周级(无官方 per-URL SLA,属行业观测)。
- GEO 杠杆:E-E-A-T、Product / FAQ / HowTo 结构化数据、清晰标题层级。
2.3 ChatGPT Search
q → [Trigger?] → Hybrid Retrieve(第三方 + OAI-SearchBot 索引)
→ Top-N Passages → Search 模型 → Answer + Sources
| Bot | 功能 | robots.txt | 品牌影响 |
|---|---|---|---|
| OAI-SearchBot | Search 索引 | 可控;Disallow ≈ 不出现在 Search 答案 | B 通道必开 |
| GPTBot | 预训练语料 | 可控;不影响 Search 展示 | 影响 Channel A |
| ChatGPT-User | 用户触发访问 | 不可控 | 不写入 Search 索引 |
| OAI-AdsBot | 广告落地页校验 | 仅广告 URL | 与 Organic GEO 无关 |
- 索引延迟:OpenAI 未公布 SLA;第三方观测 B2B 新页进索引常 数天–数周。
- 与 Google 分歧:引用页 vs Google Top 10 重叠 2.1% — 勿用 SEO 排名替代 ChatGPT Mention 预估。
- Passage:自洽段落(主谓宾完整 + 可量化参数);避免纯营销散文。
2.4 Gemini — Grounding 与 File Search
| 模式 | 索引 | 典型延迟 | 场景 |
|---|---|---|---|
| Google Search Grounding | Google Index | 同 Googlebot | Gemini App / AI Mode |
| File Search(API) | 用户上传 → Chunk + Embed | 上传后 分钟级 | 企业知识库 RAG |
| Agent Search(GCP) | 自建 Data Store | 可配置 | 企业级 Grounded Gen |
File Search 的 topK、metadataFilter、chunkSize 决定哪些 Passage 进入 Context — 属 B 通道 的企业侧可控变量,与消费端 Grounding 场景不同。
2.5 Perplexity — AI-First Search Index
基础设施(Perplexity Research, 2025-09):
| 指标 | 值 |
|---|---|
| 索引 URL | 200B+ unique |
| 索引吞吐 | 10⁴ ops/s |
| 日 Query(Search API 口径) | 2×10⁸ |
Pipeline:
(1) Hybrid Retrieve: BM25-like ∥ Dense Embedding → Candidate Set(偏 Recall)
(2) Prefilter: 剔除 stale / irrelevant
(3) Multi-stage Rank: Fast scorer → Cross-Encoder Rerank(偏 Precision)
(4) Context Assembly: Sub-doc Chunk(非整页注入)
刷新:ML 预测 URL 的索引必要性与调度时间;高权威页 小时级,长尾 天级。Query 时读 Index 快照,检索链路实时,快照本身有滞后。
3. 跨平台差异与索引刷新
3.1 能力差异矩阵
| 能力 | Google AIO | ChatGPT | Gemini | Perplexity |
|---|---|---|---|---|
| 独立 Web Index | ✓(规模最大) | 部分(Bot + 第三方) | ✓(共享 Google) | ✓(200B+ 自研) |
| Sub-doc Chunk 为一等公民 | △ 页面 Passage | △ Passage | △(API 可 Chunk) | ✓ |
| 强制 Hybrid Retrieve | ✓ | 未公开 | ✓ | ✓ |
| Cross-Encoder Rerank | ✓(内部) | 未公开 | ✓ | ✓(公开架构) |
| vs Google Top 10 重叠 | 8.3% | 2.1% | 15.5%(AI Mode) | 32% |
含义:四套索引 × 四套 Ranker → 四套 Mention 分布。内容策略与监测均需按平台拆分;§4 的 Prompt 集应按平台维度追踪。
3.2 索引刷新周期(观测汇总)
| 平台 / 页面类型 | 典型刷新窗口 | 依据 |
|---|---|---|
| Google — 新闻 / 高频 | 1–24 h | 行业观测 |
| Google — B2B 企业站 | 3–30 d | 行业观测 |
| ChatGPT — OAI-SearchBot 新页 | 3–14 d+(无官方 SLA) | 第三方观测 |
| ChatGPT — robots.txt 生效 | ~24 h | OpenAI 官方 |
| Gemini Grounding | = Google Index | — |
| Gemini File Search | 上传后 分钟级 | Google API Docs |
| Perplexity — 高权威页 | 1–24 h | Perplexity Research |
| Perplexity — 一般页 | ML 调度,1–7 d+ | Perplexity Research |
监测复测周期建议 7–28 d,与上表各平台快照更新节奏对齐(见 §4.2)。
4. 落地:检查清单与监测闭环
4.1 优化检查清单(RAG 视角)
| 优先级 | 动作 | 影响通道 | 验证方式 |
|---|---|---|---|
| P0 | robots.txt Allow: OAI-SearchBot、PerplexityBot、Googlebot | B:索引可达 | Server log / Agent Analytics |
| P0 | Organization + Product JSON-LD | A + B:Entity Resolution | Rich Results Test |
| P0 | 技术参数 HTML Table(非图片) | B:Passage Extractability | 目标 Prompt 手工复现 |
| P1 | FAQ + FAQPage Schema | B:Chunk 可独立命中 | Prompt 追踪 |
| P1 | 第三方 Mention(目录、评测、行业媒体) | A + B:Co-mention | Mention 监测 |
| P1 | hreflang / 多语言独立 URL | B:分 locale Retrieve | 分语言 Prompt 测试 |
| P2 | Sitemap + 内链至核心 Passage 页 | B:Crawl Budget | Search Console |
| P2 | 定期更新认证 / 产能等量化字段 | B:Recency | 索引时间对比 |
RAG-Friendly Passage 模板:
## {Product} — {Model}
| Spec | Value |
| Tolerance | ±0.005 mm |
| Cert | ISO 9001:2015, IATF 16949 |
| MOQ | 100 pcs |
| Lead time | 15–20 business days |
4.2 监测闭环
1. 定义 Prompt 集(Research → Compare → Evaluate)
2. 按平台追踪:Mention / Citation / Position / Sentiment
3. 与竞品对比 Gap
4. 修补内容、Schema、站外 Mention
5. 按 §3.2 窗口复测(建议 7–28 d)
| 指标 | 定义 | 与 §1 的对应 |
|---|---|---|
| Mention Rate | 指定 Prompt 下出现品牌名的比例 | Mention |
| Citation Rate | 答案含品牌域链接的比例 | Citation |
| Share of Voice | 品牌 Mention 占全部品牌的份额 | 竞争强度 |
| Avg. List Position | 品牌在枚举中的平均序号 | Position |
附录 A. GEO 监测工具能力对照
以下为公开产品信息的能力维度对照,不构成选型建议;实际采购须结合现有 SEO 栈、目标平台与 Prompt 语言覆盖自行验证。
| 维度 | Semrush | Profound | RankOne |
|---|---|---|---|
| 定位 | SEO 套件 + AI Visibility 模块 | AI-First Marketing OS | B2B / 出海 GEO 监测 |
| 平台覆盖 | ChatGPT、Google AI Mode、Perplexity 等 | 多模型(含 Claude、Grok、Copilot 等) | ChatGPT、Perplexity、Gemini、Google AIO |
| 核心指标 | AI Visibility、Mentions、Citations、SoV | Answer Engine Insights、Prompt Volumes | Visibility、Prompt Tracking、Citation |
| 差异化能力 | 与 SEO Toolkit 联动 | Agent Analytics、Marketing Agents | B2B Prompt 库、Agent Analytics |
| 典型用户 | 已有 Semrush 的 SEO 团队 | 北美 SaaS / Enterprise | 外贸、制造、B2B 出海 |
参考文献
- OpenAI — Introducing ChatGPT Search (2024-10)
- OpenAI — Overview of OpenAI Crawlers
- Perplexity — Architecting an AI-First Search API (2025-09)
- Vespa.ai — How Perplexity beat Google on AI Search (2025-10)
- Google — Gemini File Search API
- Google Cloud — Generate Grounded Answers with RAG
- Semrush — AI Visibility: What It Is and How to Grow Yours in 2026 (2026-03)
- Profound — tryprofound.com
- RankOne — airankone.com