单个pdf提取测试-白红宇

单个pdf提取测试

阅读量：4650 次

发布时间：2019-06-09

本文共 851 字，大约阅读时间需要 2 分钟。

# -*- coding: utf-8 -*-"""Created on Wed Feb  3 09:32:22 2016pdf单个文件提取测试@author: Administrator"""import PyPDF2,os,openpyxl,sys,time,threadingfrom openpyxl.cell import get_column_letter,column_index_from_string#测试的pdf提取文档pdf_test="20160607_2.pdf"       def single_Pdf_extract(filename):        pdfFileObj=open(filename,'rb')    pdfReader=PyPDF2.PdfFileReader(pdfFileObj)    pages=pdfReader.numPages #显示页数 在第4100行时读取pdfReader也会出错    if pages>30:        pages=30       #pageObj=pdfReader.getPage(0) #读取第一页的字符,第一页可读取    #content=pageObj.extractText() #输出第一页字符      #页面写入    content=""    for page in range(pages):                   pageObj=pdfReader.getPage(page) #读取第一页的字符,第一页可读取        content+=pageObj.extractText() #输出第一页字符    pdfFileObj.close()    return contentcontent=single_Pdf_extract(pdf_test)

转载于:https://www.cnblogs.com/webRobot/p/5883914.html

你可能感兴趣的文章