未分類 19 2 月 2021 用 Python 把 pdf 文件转到 markdown,有什么好的库或者方案吗? 用 Python 把 pdf 文件转到 markdown,有什么好的库或者方案吗? 資深大佬 : lixuda 2 pdf 文件是文本可编辑类型。网上搜索了下,没有找到很好的解决办法,问问大佬,有办法吗?或者转 html,谢谢了。 大佬有話說 (10) 資深大佬 : MicroBotter pdf 的文本只有 pdf/a 才是可以编辑的。你是不可能对任意 pdf 转化成合理的文本。 資深大佬 : MicroBotter 转换任意 pdf 成文本的难度和写一个识别物体的人工智能难度差不多。 資深大佬 : Latin 可以转换,但是样式基本就是纯文本 資深大佬 : Latin PDF to docx ==> html 資深大佬 : Merlini pdf 转文本的话,推荐 PyMuPdf 。改成 markdown 的话可能你得自己识别里面的字体大小了。 資深大佬 : jdhao 看看 pandoc 行不行 資深大佬 : SenLief 如果是纯文本有可能转换,要不然效率太低。 資深大佬 : encro 可以的。首先转 html,然后语义化,转换为 h1,h2,…p 这样的,然后换 markdown,很多格式肯定丢掉。 另外:markdown 一些解释器支持 html 好像。 資深大佬 : inframe 那不如先用 office 转换到 word,然后再转换 資深大佬 : omph linux 倒是有 Poppler-utils,可以用其中的命令 pdftohtml,转成 html,字体大小倒是可以保留