# -*- coding: utf-8 -*-"""Created on Wed Feb 3 09:32:22 2016pdf单个文件提取测试@author: Administrator"""import PyPDF2,os,openpyxl,sys,time,threadingfrom openpyxl.cell import get_column_letter,column_index_from_string#测试的pdf提取文档pdf_test="20160607_2.pdf" def single_Pdf_extract(filename): pdfFileObj=open(filename,'rb') pdfReader=PyPDF2.PdfFileReader(pdfFileObj) pages=pdfReader.numPages #显示页数 在第4100行时读取pdfReader也会出错 if pages>30: pages=30 #pageObj=pdfReader.getPage(0) #读取第一页的字符,第一页可读取 #content=pageObj.extractText() #输出第一页字符 #页面写入 content="" for page in range(pages): pageObj=pdfReader.getPage(page) #读取第一页的字符,第一页可读取 content+=pageObj.extractText() #输出第一页字符 pdfFileObj.close() return contentcontent=single_Pdf_extract(pdf_test)