保存网页信息构建自己的离线「知识库」。介绍一款可「原汁原味」保存、批注并离线浏览网页的利器 #猜猜是谁

保存网页的那些事

我们的很多知识来自于网页浏览,有不少网页信息对我们将来或有重大的参考意义。

许多人喜欢收藏保存网页,但我们知道一般的浏览器书签只保存了URL链接,并没有保证内容的可持续存在。网页一旦下架、改版,哪怕是一个简单的报道,都可能在几个月后就无法打开了。还有时候,比方说我会收藏一些产品网站的官网做研究,官网一直在更新,可能每个月都有不同。这些场景下,一个离线保存网页「原样」的工具就很有必要了。

有人会选择浏览器的「另存为」网页(HTML),但这通常会生成一个 HTML 文件和一堆依赖文件夹,移动管理起来非常麻烦,文件之间的关系也容易丢失。如果使用另存为 MHTML,也会有信息失真的问题。如果是 Safari 的 WEBARCHIVE 格式保存,则仅限于苹果的Safari 生态。另外,也有人用截图保存,但图片既不可检索,又失去了网页本来的交互与结构。

我几年前介绍过用 「PDF 打印」是那个时候常见的网页保存方法,但对某些网页,内嵌元素和样式的保真度并不理想,会出现一些排版上的问题从而影响可读性。

如果我们想把网页内容「原汁原味」地打包成「一个文件」,并且能够随时在离线环境中打开浏览,那我们就需要一款更专业的工具。 「一个文件」意味着,我们可以方便的管理,迁移,同步信息;从而更容易形成一个基于文件的「知识库」结构。

这时候,就轮到我今天要介绍的这款工具登场了—— SingleFile。

SingleFile 登场

SingleFile 是一个 免费开源的 Chrome 插件,它能将网页完整地打包成一个单一的 HTML 文件,保留排版、图片、样式,甚至字体与脚本。对我这种喜欢「把网络信息收集到本地知识库」的用户来说,简直是浏览器插件的标配。

很多熟悉此类工具的小伙伴也许会说, 离线网页保存有什么大不了的,很多某某工具都可以。

但实际上,SingleFile 做的更彻底,虽然我不敢说它 100%兼容 所有网页,但是目前收藏下来的离线网页来看,和原始的网页几乎「一模一样」。 有些网页会延时加载,传统的收藏工具只会得到「加载中」的空网页,SingleFile 则能很好的克服这点。

下面是 Notion官网的某个子页面在 SingleFile 保存后的样子。 SingleFile 不仅很好的保存了图片、样式、排版;甚至还保留了 网页缩放时的「自适应」特性。作为一个 5MB 左右的「单文件」HTML,我个人觉得是非常满意的。任何时候只要双击打开这个本地文件,就能看到原样的效果。

除了保存当前标签页;如需批量保存,可以通过插件的菜单选择「保存所有标签」「保存未固定选中标签」进行一次性多页的保存处理。在日常整理资料时,这显著提升了效率,开多个新闻页、一组搜索结果的参考文章,都能一次性地归档。

SingleFile 的加强特性

一个被我一开始忽略的地方是, SingleFile 实际上不是单纯的粗暴保存,可以针对 网页进行 批注之后再保存。 而且,如果嫌原来的网页太长或无关内容过多,还可以对部分内容进行裁剪后再保存,就像一些「剪藏」插件一样。通过批注编辑,这就使得构建一个自定义「知识库」成为了可能。

另外,SingleFile 还支持 GoogleDrive,WebDAV,CLI(命令行接口)…… 甚至和 Anybox(一个书签收藏工具)也可以对接。

难能可贵的是,除了 Google Chrome 浏览器,SingleFile 也支持 Edge 、FireFox、Safari, 各种主流浏览器通吃。

最后

如果投入使用 SingleFile 一段时间, 我相信有些用户也会发现一些它的「短板」,最明显的是:

  • 保存时间比较长 (比如:10秒)
  • 保存后的单文件比较大 (有时可能达到 几十MB)

这可能和网页离线保存延时获取内容以及所有资源信息都要保留在单文件有关。从一个严肃的网页收藏工具角度来说,我觉得这些都是必要的开销。 如果我们不想完整保存网页的话,完全可以 「全选+ 复制」, 然后粘贴到自己的笔记 App 里面,有些笔记工具的配套插件(像 Obsidian)甚至可以把这个过程缩短到一瞬间,而且存储空间开销也很小,但同样也损失了很多网页元素。所以,如何保存网页信息,这是一个取舍的问题。

实际上,SingleFile 比较打动我的地方是, 它是一个「单纯」的工具。其它的某些工具做到一个功能后,立刻开始发散到其它无关功能,比如从网页收藏开始,做到 ALL-IN-ONE 集成知识库,接管所有的笔记,整活批注双链,加上知识图谱,配备 RAG 搜索,接入AI问答,顺便获取用户剪贴板、语音录音、访问文件的权限,打通账户登录,对接绑卡支付,引导用户一不小心「按年连续」订阅,要是没有得逞,可能会收集用户信息打广告,尤其是DAI款保险之类的广告。

而 SingleFile 不一样,它开源免费,只是做好做深网页离线收藏这一件事。

One Reply to “”

  1. 还推荐个chrome扩展,just-one-page-pdf,和博主推荐的有点类似,也是离线保存网页,它可以框选内容保存为pdf,保存的文章干干净净的,挺好用的。

grayash 发表评论 取消回复