跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • [求助] Python 读取电子发票 PDF 文件数据缺失
未分類
2 4 月 2020

[求助] Python 读取电子发票 PDF 文件数据缺失

[求助] Python 读取电子发票 PDF 文件数据缺失

資深大佬 : BryceBu 53

我用 pdfplumber 之类的库读取文件,仅能读到一点点数据

用 pdf2image 转化成图片就是下面这样

大佬有話說 (6)

  • 資深大佬 : xiri

    pdf 对信息自动化处理来说简直是噩梦

  • 資深大佬 : EricInBj

    应该有错误输出的,大概率是字体缺失?

  • 主 資深大佬 : BryceBu

    @EricInBj 感谢 我发现没解析出来的字体都是 STSong-Light

    我在网上下载了这个字体然后安装,结果都是华文宋体???

    然后再读取 PDF 结果还是缺失的

  • 資深大佬 : PopRain

    我觉得是类库不支持嵌入字体

  • 資深大佬 : Rorysky

    pymupdf 试试

  • 主 資深大佬 : BryceBu

    刚刚在 Ubuntu 上试了一下,可以识别了

    我下载的 STSong-light 字体文件都不能安装

    看来原因还是 Windows 不支持这个字体?

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具