博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
单个pdf提取测试
阅读量:4650 次
发布时间:2019-06-09

本文共 851 字,大约阅读时间需要 2 分钟。

 

 

 

# -*- coding: utf-8 -*-"""Created on Wed Feb  3 09:32:22 2016pdf单个文件提取测试@author: Administrator"""import PyPDF2,os,openpyxl,sys,time,threadingfrom openpyxl.cell import get_column_letter,column_index_from_string#测试的pdf提取文档pdf_test="20160607_2.pdf"       def single_Pdf_extract(filename):        pdfFileObj=open(filename,'rb')    pdfReader=PyPDF2.PdfFileReader(pdfFileObj)    pages=pdfReader.numPages #显示页数 在第4100行时读取pdfReader也会出错    if pages>30:        pages=30       #pageObj=pdfReader.getPage(0) #读取第一页的字符,第一页可读取    #content=pageObj.extractText() #输出第一页字符      #页面写入    content=""    for page in range(pages):                   pageObj=pdfReader.getPage(page) #读取第一页的字符,第一页可读取        content+=pageObj.extractText() #输出第一页字符    pdfFileObj.close()    return contentcontent=single_Pdf_extract(pdf_test)

 

转载于:https://www.cnblogs.com/webRobot/p/5883914.html

你可能感兴趣的文章