网站存档服务,例如互联网档案馆:时光机当您需要查看网站的旧版本时非常有用 - 或者为了怀旧或者因为您正在寻找已被覆盖或删除的特定信息(例如,您为前雇主撰写的故事)。
然而,这些服务并不完美。 有时,存档站点可能不会创建站点快照——通常是在您最需要该快照的时候。 或者也许有人配置了其网站的 robots.txt 文件阻止存档服务从执行自动抓取。 不好玩。
谢谢主板的新工具,您现在可以尝试同时跨三个不同的存档服务存档站点的当前版本:The Wayback Machine、Archive.is 和 Perma.cc(如果您已向它们设置了免费帐户)。
安装主板的存档实用程序需要一些跑腿工作,但并不是太棘手。 你首先需要安装Python要求,json, 和档案模块,这些都是主板的 Mass_archive 工具工作所必需的。 (唉,这不仅仅是一些可以运行的简单可执行文件或实用程序。)安装 requests 和 json 的最佳方法是安装点首先,然后用它来下载模块。 你会发现档案这里,您也可以使用 pip 安装它。
您还需要从以下位置获取mass_archive.py 脚本前面提到的 GitHub 项目。 准备好后,在 macOS 或 Linux 中打开终端并输入以下内容(显然,将 example.com 替换为您要存档的网站):
python mass_archive.py example.com
如果您通过以下方式使用 Python, 你可以省略开头的“python”从该代码。