需求:寻找一个能将飞书文章页面保存为离线的图文版 HTML 的方案
详情:这个问题已经困扰我很久了,因为工作原因,很多资料都在飞书上,但是不是我写的,有些写的好的想备份一份放 obsidian ,但是飞书好像做了反爬或者其他的一些工作,无法保存完整页面,我不是做前端的,没有深入分析过
已测试 SingleFile 及 savePageWe 扩展,只能保存到首屏的内容,GoFullPage 扩展可以截图全屏,但我不想要图片和 PDF 版本的,想要 HTML 版本的
截止时间:2023 年 10 月 1 日前有效,采纳此贴中回复的第一个有效方案,需免费方案
测试链接: https://uwdpzjnryu8.feishu.cn/docx/JGUpdkP0XoOwR0xvp9Xc2ME5ndh
1
codeself 2023-09-10 12:01:56 +08:00 via iPhone
在浏览器里手动 ctrl+p 导出为 pdf 试试?
|
2
zyy4548 2023-09-10 12:18:10 +08:00
|
3
Vimal 2023-09-10 12:37:57 +08:00
测试链接可正常复制。全文粘贴到 obsidian ,图片还自带飞书图床链接,不占空间。
若一定要 html 格式,ob 第三方插件 pandoc 可导出为 html ,或 typora 打开导出 html 格式 若主要是解决飞书文档无法复制粘贴到 obsidian ,那还有其他方案。不确定最终需求。 |
4
Vimal 2023-09-10 12:41:50 +08:00 1
解除飞书复制和右键限制。
先安装油猴 Tampermonkey ,再安装这个脚本: https://greasyfork.org/zh-CN/scripts/473784-%E6%94%B9%E8%BF%9B%E9%A3%9E%E4%B9%A6%E4%BD%93%E9%AA%8C |
5
Myprajna 2023-09-10 13:02:20 +08:00
设计师常用的图片采集工具,Ealge ( 128 元终生 1 人),Billfish (免费)。
都提供了免费的整个网页的滚动截图工具。 可以看他们的文档,装个插件试一下。 https://eagle.cool/extensions https://www.billfish.cn/help/chajiancaiji |
6
Myprajna 2023-09-10 13:03:55 +08:00
再用 ABBYY OCR 识别,最准确的 OCR 识别软件了。
|
7
bjzhush OP @Myprajna 大哥,请审题,截图我自己就搞定了。截图比起 HTML 有几个问题,第一不方便索引搜索,第二文件过大,第三链接没法点击
|
8
bjzhush OP @Vimal 我试了确实可以复制,但 HTML 的格式并不能比较兼容的转为 MD ,而且很多链接实际上有二三十页,这样复制、粘贴、再导出 HTML 、再导入笔记,效率太低了,几乎不现实
|
9
bjzhush OP @zyy4548
官方文档:因为它的下载方式是把选择的全部文档打包成压缩包后才会在浏览器返回给你,如果这个等待的过程中途断网或者电脑卡顿要重启,那你就白等那么长时间了。 第一这个导出的应该是自己写的,第二每次都打包所有文档,也不太现实。。 |
10
Lhcfl 2023-09-10 14:38:31 +08:00
试试保存为 mhtml
|
11
ivan_wl 2023-09-10 14:45:07 +08:00
飞书文档不是自带导出为 word 格式么,再用 word 另存为 html 啊
|
14
vvhy 2023-09-10 14:58:25 +08:00
浏览器地址栏输入 javascript:innerHeight=9e9 回车,再划到最后让它加载完,然后用 SingleFile 保存
|
15
ivan_wl 2023-09-10 15:00:34 +08:00
@bjzhush #12 https://cowtransfer.com/s/c682266198be4d 你那个文档
|
16
bjzhush OP @ivan_wl 谢谢你,这个文档我自己也可以存,但是很多文档设置了权限不让保存,所以还是需要插件之类的工具来自己离线保存
|
18
Vimal 2023-09-10 22:15:45 +08:00
@bjzhush #8 用 ob 的话,油猴插件能不限篇幅复制粘贴过去,且带 md 格式+图片过去已经很优秀了。飞书团队也不是吃干饭的,防复制、右键、打印、保存各种防。找了对比多种方法,暂时没见过无权限还能直接保存的,复制已经是上优解。
甚至其他收费下载工具也了解过,也是只支持复制文字(图片单独复制),粘贴到自己新开的飞书文档,按需导出格式。不说了 |
19
t1cb2v754F32JdOs 2023-09-10 22:17:33 +08:00
@bjzhush 我刚测试了我离职时候的方法,evernote web cliper ,记住不是 印象笔记 的 web cliper ,这样能够截取整个页面,也不会触发公司的安全策略。
这个方法比截图好多了 |
20
a90120411 2023-09-10 22:41:00 +08:00
简单看了下代码,这个页面在普通模式下是懒加载,而且有视口剔除,一般方法肯定是不好使的。有两个方法可以试一下:
1 、HTML 页面里面有个很大的 JS 对象,里面是所有的文本和图片数据,规则很好理解,自己解析一下可以拼出文档。但我没在这个数据结构里面,看到文本样式的声明,可能拼出来会丢失样式。 2 、(推荐)进这个文档的演示模式,然后再开幻灯片模式,可以直接拿到所有的 DOM 结构,我试了一下可以提取全文和图片。部分样式保留了,但丢失了一些特殊样式,需要从原始文档里面提取一下 css 文件挂上。 |
21
bjzhush OP @a90120411 抱歉,我不是前端,虽然用了很多年 chrome debugger ,但是仅限于基本都网络和 js 片段,让我自己解析拼接文档实在是高看我了。。。
@TheSpecialOne 我去搜了这俩 chrome 扩展,发现我一直用的是 evernote web cliper ,但是我一直是用印象笔记的,但是我试了 clip 整个页面也只捕获到了首屏,且左侧栏直接大片错乱。 然后我试了用 evernote+Evernote web clip ,也是差不多的效果。 @Vimal 有一些稍微负责的格式 MD 会转换错误的,比如表格,所以 HTML 还是得 HTML 来接 |
22
a90120411 2023-09-11 00:42:42 +08:00
@bjzhush #21 试试方法 2 吧,简单点一些,但想完美输出,还是要 Coding 的。
飞书这种页面除非是找到有针对性的工具,不然其他网友介绍的通用工具大概率都不可用。 |
23
Maxvell 2023-09-11 02:21:19 +08:00
|
24
Maxvell 2023-09-11 02:23:33 +08:00
|
27
Mickeyy 2023-09-19 21:17:04 +08:00
同求方案,虽然我不是飞书的网页但是也是类似的需求。
|
28
chenjunqiang 257 天前
@Vimal 你好,老哥,方便问下,你这个全文复制到 obsidian 的这个方法,我上个月还可以用,但是现在也不行了,你那边也是吗?
就是可以复制的出来,但是图片带不出来了。图片复制到 obsidian 的时候,变成链接了。不是图片。 然后我测试复制到 evernote 也不行。 |
29
hongyexiaoqing 67 天前
飞书文档页面,数据都在 html 里的 JavaScript 层,只要自己手动渲染就行。
这个扩展可以将文档转成 markdown https://github.com/lujunji4113/cloud-document-converter |