迫于世界变化太快, 有哪些好的保存和整理分类网页内容的方案?
最近整理浏览器收藏夹, 发现很多以前收藏的技术 /人文社科的文章消失了, 或是随着个人博客的关闭而消失, 或是随着平台倒闭而消失, 或是其他众所周知的原因. 偶尔想看的时候发现没有了亦觉得很是可惜.
其实从很早开始个人就不再信任他人的服务器, 尤其是在自己没有为其付费只是简单地点击一下收藏, 就指望他人能够很好地保存自己想要的信息, 是不切实际的. 获取并保存有价值的信息, 终究是有代价的, 或是金钱, 或是自己的时间. 也因此养成了对于自己觉得有价值的信息, 随手保存一份的习惯.
最开始的方案很简单也很笨(可能现在也依然如此), 就是浏览器保存网页, 并用文件夹分类, 好处是最大程度保留了所有信息, 比如内容中的链接, 也方便需要的时候进行复制. 但是缺点也很多, 硬盘上大量小文件, 一个页面一个目录, 搜索起来也麻烦, 并且有些 js, css 等资源无法加载导致排版错乱.
目前的方案是导出 PDF, 也能比较好地保留内容中的链接, 也比较方便复制文字, 并且没有太多小文件. 缺点是排版也可能有小幅错乱, 不过总体可以接受. 另外就是也不太方便搜索文本.
对于不带链接的内容, 偶尔也会直接网页截图, 占用空间比较小, 但是无法复制搜索里面内容了.
关于为什么不用 XX 笔记之类的方案, 如前所述不够信任, 另一方面有些是私有格式万一以后需要迁移也会比较麻烦.
扯这么多, 主要是两个问题
- 有没有更好的保存网页内容的方案?
- 另外就是如何整理分类这些保存下来的内容了, 目前只能通过目录的形式分类, 但是这是树状的, 个人更希望是基于 Tag 的方式进行分类