pdf文件的读取,基于深度学习的方法

[复制链接]
发表于 2025-10-30 23:13:56 | 显示全部楼层 |阅读模式
须要安装一些依赖剖析 PDF 文件的详细指南_unstructured.partition.pdf-CSDN博客文章欣赏阅读1.3k次,点赞13次,收藏9次。通过 unstructured.partition.pdf 函数,可以方便地剖析 PDF 文件并提取此中的文本和表格内容。只管在利用过程中大概会遇到一些错误,但通过精确的安装和设置依赖项,以及实验其他 PDF 剖析库,可以有用地办理这些标题。本文将先容怎样利用 unstructured.partition.pdf 函数来剖析 PDF 文件,并提取此中的文本和表格内容。这个错误通常表现你的 PDF 文件在解压缩过程中出现了标题,大概是由于文件破坏、格式不兼容或不支持的压缩方法等缘故原由。_unstructured.partition.pdf
https://blog.csdn.net/qq_28704101/article/details/140464343

剖析 PDF 文档的挑衅在于精确提取整个页面的结构并将内容(包罗表格、标题、段落和图像)转换为文档的文本表现情势。该过程涉及处理处罚文本提取、图像辨认中的不精确以及表格中行列关系的杂乱。
挑衅1:怎样从表格和图像中提取数据
检测到的表数据可以直接导出为HTML,导出来的表格数据可以直接被辨认
挑衅2:怎样重新分列检测到的块?特殊是对于双列PDF

在确定结构后,unstructured[3]框架会将每个页面分别为几个矩形块,如图8所示:


主流剖析 PDF 的方法有以下三种:

      
  • 基于规则的方法:每个部分的风格和内容根据文档的构造特性确定。然而,这种方法的通用性不是很强,由于 PDF 的范例和结构多种多样,不大概用预界说的规则涵盖全部范例和结构。
      
  • 基于深度学习模子的方法:比方当前盛行的团结目标检测(yolox)和OCR模子的办理方案。
      
  • 基于多模态大型模子通报复杂结构或提取 PDF 中的关键信息。

最具代表性的工具之一是pypdf,它是一种广泛利用的基于规则的剖析器。它是LangChain和LlamaIndex中用于剖析PDF文件的尺度方法。利用起来非常简朴
  1. # 确保已安装PyPDF2模块
  2. try:
  3.     import PyPDF2
  4. except ImportError:
  5.     import sys
  6.     sys.exit("Please install the PyPDF2 module first, using: pip install PyPDF2")
  7. def extract_text_from_pdf(filename, page_num):
  8.     try:
  9.         with open(filename, 'rb') as pdf_file:
  10.             reader = PyPDF2.PdfReader(pdf_file)
  11.             if page_num < len(reader.pages):
  12.                 page = reader.pages[page_num]
  13.                 text = page.extract_text()
  14.                 if text:
  15.                     return text
  16.                 else:
  17.                     return "No text found on this page."
  18.             else:
  19.                 return f"Page number {page_num} is out of range. This document has {len(reader.pages)} pages."
  20.     except Exception as e:
  21.         return f"An error occurred: {str(e)}"
  22. if __name__ == '__main__':
  23.     # 示例用法
  24.     filename = "/home/00_rag/fufan-ch
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表