跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 用 Python 把 pdf 文件转到 markdown,有什么好的库或者方案吗?
未分類
19 2 月 2021

用 Python 把 pdf 文件转到 markdown,有什么好的库或者方案吗?

用 Python 把 pdf 文件转到 markdown,有什么好的库或者方案吗?

資深大佬 : lixuda 2

pdf 文件是文本可编辑类型。网上搜索了下,没有找到很好的解决办法,问问大佬,有办法吗?或者转 html,谢谢了。

大佬有話說 (10)

  • 資深大佬 : MicroBotter

    pdf 的文本只有 pdf/a 才是可以编辑的。你是不可能对任意 pdf 转化成合理的文本。

  • 資深大佬 : MicroBotter

    转换任意 pdf 成文本的难度和写一个识别物体的人工智能难度差不多。

  • 資深大佬 : Latin

    可以转换,但是样式基本就是纯文本

  • 資深大佬 : Latin

    PDF to docx ==> html

  • 資深大佬 : Merlini

    pdf 转文本的话,推荐 PyMuPdf 。
    改成 markdown 的话可能你得自己识别里面的字体大小了。

  • 資深大佬 : jdhao

    看看 pandoc 行不行

  • 資深大佬 : SenLief

    如果是纯文本有可能转换,要不然效率太低。

  • 資深大佬 : encro

    可以的。
    首先转 html,
    然后语义化,
    转换为 h1,h2,…p 这样的,
    然后换 markdown,很多格式肯定丢掉。

    另外:markdown 一些解释器支持 html 好像。

  • 資深大佬 : inframe

    那不如先用 office 转换到 word,然后再转换

  • 資深大佬 : omph

    linux 倒是有 Poppler-utils,可以用其中的命令 pdftohtml,转成 html,字体大小倒是可以保留

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具