- Wayback Machine 筛选如何工作
- Content changes(内容变更次数)
- Age(年龄)
- First snap(首次快照)
- Last snap(末次快照)
- Keywords in content(内容关键词)
- Language Filters(语言)
- Server Code Share(HTTP 状态占比)
- Hieroglyphs (CJK)(汉字/CJK)
- Redirects (30x)(重定向)
- Error 403
- Website ID's(网站 ID)
- 组合 Wayback 筛选
- 故障排除
- 提示
Wayback Machine 筛选如何工作
Wayback Machine 筛选根据 Internet Archive(Wayback Machine)的数据查找域名:历史、内容、语言、HTTP 状态码及其他存档参数。
重要: 所有筛选都依赖存档数据。若 Wayback Machine 从未抓取过某域名,这些筛选将无法匹配。
Content changes(内容变更次数)
Content changes 按存档历史中内容变更次数筛选域名。界面为 min 和 max 字段(≥ 0)。
内容变更指页面相对 Wayback Machine 中上一版存档变化超过 50%。
适合查找很少改动的域名(0–3 次)。大量变更可能表示更换过所有者。
使用方法
- 在 Wayback 区块找到 Content changes
- 在 min 和 max 中填写范围
- 可只填 min、只填 max 或两者都填
示例
示例 1: 更新活跃(≥ 50 次)— min 填 50,max 留空。
示例 2: 稳定域名(0–5 次)— min: 0,max: 5。
Age(年龄)
Age 按存档数据以年为单位筛选域名。字段 min 和 max(年,≥ 0)。
年龄从 Wayback Machine 中首个内容快照起算。
可用于查找老域名。
使用方法
- 在区块中找到 Age
- min 和 max 填写年数
- 可只填 min、只填 max 或两者都填
示例
示例 1: 老域名(10 年以上)— min 10,max 留空。
示例 2: 新域名(0–2 年)— min: 0,max: 2。
First snap(首次快照)
First snap 按存档中首次快照日期筛选。日期选择器与快捷按钮。
使用方法
- 找到 First snap
- 点击字段打开日历,选择起止日期范围
- 或使用 Older than 2 years、Older than 5 years、Older than 10 years、Last year
示例
示例 1: 首次编入超过 10 年前 — Older than 10 years。
示例 2: 某年首次快照 — 在日历中选该年范围。
Last snap(末次快照)
Last snap 按最后一次快照日期筛选。日历与快捷按钮。
使用方法
- 找到 Last snap
- 日历选择范围
- 或使用 Last 7 days、Last 30 days、Last 60 days、This month、Last year
示例
示例 1: 最近 30 天内有快照 — Last 30 days。
示例 2: 上一年有快照 — Last year 或日历。
Keywords in content(内容关键词)
Keywords in content 在已存档页面内容中搜索关键词。文本框、Elements 计数器(最多 20);超出会提示 Maximum … elements allowed。
使用方法
- 找到 Keywords in content
- 逗号 表示 与(须同时包含),竖线
|表示 或(任一即可) - 注意 Elements 计数
示例
示例 1: 多个词任选其一(或)— shop | store | buy。
示例 2: 两个词都要(与)— tech, news。
Language Filters(语言)
Language Filters 按存档内容语言筛选,可设最低占比。可搜索语言列表、百分比字段、Add;已添加语言显示为带 × 的标签,Clear All 清空。满足任意一条所列语言条件即可。
使用方法
- 找到 Language Filters
- 选择语言;可选最低占比(0–100%)
- Add;标签上 × 删除;Clear All
示例
示例 1: 英文内容无阈值 — English (en),Add。
示例 2: 至少 50% 俄语 — Russian (ru),50%,Add。
示例 3: 多国 — 如 English 30%+、German 20%+、French 不设百分比。
Server Code Share(HTTP 状态占比)
Server Code Share 按 Wayback 历史中特定 HTTP 状态码的占比筛选。
若设 100% 为 «200»,可突出历史中无服务器错误、重定向或拒绝访问的域名。
使用方法
- 找到 Server Code Share
- min %(0–100)
- max %(0–100)
- Select Code — 选择 HTTP 码(填写百分比后可用)
- 从列表选择
- Clear 清除所选码
可用 HTTP 码
- 200 — OK
- 301 — Moved Permanently
- 302 — Found
- 307 — Temporary Redirect
- 308 — Permanent Redirect
- 400 — Bad Request
- 401 — Unauthorized
- 403 — Forbidden
- 404 — Not Found
- 500 — Internal Server Error
- 502 — Bad Gateway
- 503 — Service Unavailable
填写 min % 或 max % 后 Select Code 才可用。Clear 清空码。
示例
示例 1: 至少 80% «200 OK» — min % 80,Select Code 选 200。
示例 2: 50–100% 为 «404» — min % 50,max % 100,码 404。
示例 3: 任意占比的 301 — 选 301,百分比可留空。
Hieroglyphs (CJK)(汉字/CJK)
Hieroglyphs (CJK) — 有或无中日韩(CJK)表意文字的域名。
若目标不是亚洲语言站点,排除此类内容通常有帮助 — 历史上常与激进推广相关。
使用方法
- 找到 Hieroglyphs (CJK)
- 三种状态:
- Unknown(禁止图标)— 不应用此筛选
- Yes(勾选)— 仅含 CJK 内容
- No(叉号)— 仅不含 CJK 内容
说明
- 检测内容中的 CJK 字符
- 基于 Wayback 数据模式
示例
示例 1: 含 CJK — Yes。
示例 2: 不含 CJK — No。
Redirects (30x)(重定向)
Redirects (30x) — Wayback 历史中指向其他域名的重定向(301、302、307、308)。同域内重定向(如 http→https)不计入。
跨域重定向可能表示黑帽 SEO、换主、迁移或托管问题。
使用方法
- 找到 Redirects (30x)
- Unknown、Yes(仅有跨域重定向)、No(无跨域重定向)
说明
- 检查历史中的 301、302、307、308
- 仅不同域名之间
示例
示例 1: 有重定向 — Yes。
示例 2: 无 — No。
Error 403
Error 403 — Wayback 历史中是否出现过 HTTP 403(Forbidden)。
403 常表示站长禁止 Wayback 抓取 — 有时是可疑 SEO 的迹象。
使用方法
- 找到 Error 403
- Unknown、Yes(仅有 403)、No(无 403)
说明
- 检测历史中的 HTTP 403
示例
示例 1: 有 403 — Yes。
示例 2: 无 403 — No。
Website ID's(网站 ID)
Website ID's 按存档内容中的分析/小工具 ID(如 Google Analytics、Yandex Metrica)查找 — 有助于发现可能同一所有者。
使用方法
- 找到 Website ID's
- 输入 ID(如
UA-123456789、GTM-XXXXX) - Add 或 Enter/空格
- 标签;× 删除单项;Clear All
字段名旁有帮助图标。匹配任意一个已添加 ID;大小写不敏感。
说明
- 存档内容中的 ID
- 多个 ID = 域名含至少一个即可
示例
示例 1: 特定 GA ID — UA-123456789。
示例 2: 多个任选 — UA-123456789、GTM-XXXXX、12345678。
示例 3: 同一所有者 — 从一个域名复制 ID,查找其他使用相同 ID 的域名。
组合 Wayback 筛选
所有筛选可与其他筛选组合使用。多项同时生效时为 与 — 全部条件须满足。组合可保存以便复用。
组合示例
目标: 老域名(10 年以上)、至少 50% 英文内容、无跨域重定向、最近 30 天内有末次快照。
界面: Age min 10;Language Filters — English (en) 50%;Redirects (30x) — No;Last snap — Last 30 days。
故障排除
「Maximum … elements allowed」
原因: Keywords in content 中元素超过 20;红色提示。
处理: 删减至计数 ≤ 20。
无结果
原因: 条件过严或存档中无匹配域名。
处理: 逐步放宽或关闭筛选。
First snap / Last snap
处理: 用日历或快捷按钮 — 格式自动设置。
Select Code 不可用
原因: Server Code Share 中未填 min % 与 max %。
处理: 至少填一个百分比,再点 Select Code。
提示
-
First snap / Last snap: 快捷按钮(Older than 2/5/10 years、Last 7/30/60 days、This month、Last year)很方便。
-
组合筛选: 年龄、语言、状态码、重定向等一起用。
-
Keywords in content: 逗号 = 与,
|= 或。Elements 上限 20。 -
Language Filters: 设最低占比可更精确锁定语言。
-
Website ID's: 用已知分析 ID 找其他使用相同 ID 的域名。