貌似有两种方法,一种是像互联网档案馆那样整个网页都下载下来
还有就是用爬虫采集想要部分
有哪些开源的软件可以做到一或二呢,例如我可能觉得一篇文章不错,直接备份整个网页感觉不利于本地分类保存,仅保存内容的话有些图片代码视频等处理会麻烦点
现代网页越来越大,纯HTML都得几百kb,太吃存储空间。
你可以解析网页的HTML,将文章的html标记转成markdown存储。
举个例子,这是品葱备份计划中的一篇文章,markdown格式:
--- title: 把你放到1978年,你能预测出苏联的未来吗? date: '2018-06-23T07:55:43.672Z' user_id: 5855 user_name: 冲田桑大胜利 user_avatar: >- /static/upload/thumb/small50-u-thumb-585599f0169c205816e5dedbb08ac178bd6a17477b33.png tags: - 历史 - 社会 - 政治 upvote: 7 downvote: 0 comments: - '' - '' - '' - '' - '' --- 我今天看到一个专栏,其观点是是未来30年中国几乎不可能民主。里面的论点讲的是挺不错,但大家都忽视了一点:把你放到1978年,你能预测出苏联的未来吗?...........