打开输入文件

Python自动化办公：Excel/PDF处理从入门到精通

随着科技的进步，办公自动化已成为提升工作效率、优化工作流程的重要手段，在众多自动化办公工具中，Python以其强大的数据处理能力和丰富的库支持，逐渐成为自动化办公的首选语言之一，特别是在Excel和PDF的处理方面,Python展现出了出色的优势。

Python在Excel处理中的应用

Excel作为一款功能强大的电子表格软件，在数据处理、分析和可视化等方面有着广泛的应用，Python通过一系列库，如openpyxl、pandas等,实现了对Excel的自动化处理。

数据读取与写入

使用openpyxl库，可以轻松地读取和写入Excel文件，以下是一个简单的示例，展示如何读取一个包含数据的Excel文件，并对其进行基本处理,然后将处理后的数据写入另一个Excel文件：

import openpyxl
input_file = openpyxl.load_workbook('input.xlsx')
# 选择工作表
sheet = input_file.active
# 读取数据
data = sheet['A1:B10'].value
# 处理数据（这里简单地进行了一个转置操作）
processed_data = [[row[i] for row in data] for i in range(len(data[0]))]
# 创建输出文件
output_file = openpyxl.Workbook()
output_sheet = output_file.active
for i, row in enumerate(processed_data):
    for j, cell_value in enumerate(row):
        output_sheet.cell(row=i+1, column=j+1, value=cell_value)
# 保存输出文件
output_file.save('output.xlsx')

数据分析与处理

pandas库则提供了更为高级的数据处理功能，以下是一个使用pandas对Excel文件中的数据进行排序、统计分析的示例：

import pandas as pd
# 读取Excel文件
df = pd.read_excel('input.xlsx', sheet_name='Sheet1')
# 数据处理（排序和统计）
sorted_df = df.sort_values(by='B列名')
stat_df = df.describe()
# 保存处理后的数据到新的Excel文件
sorted_df.to_excel('sorted_output.xlsx', index=False)
stat_df.to_excel('stat_output.xlsx', index=True)

Python在PDF处理中的应用

PDF作为一种广泛使用的文档格式，在报告生成、文档转换等方面具有重要地位，Python通过PyPDF2、pdfplumber等库实现了对PDF文件的自动化处理。

PDF文件读取

使用PyPDF2库可以轻松地读取PDF文件的内容,并将其转换为可处理的数据结构：

import PyPDF2
# 打开PDF文件
with open('input.pdf', 'rb') as file:
    pdf_reader = PyPDF2.PdfFileReader(file)
    # 读取PDF文件的所有页面
    num_pages = pdf_reader.numPages
    pages = []
    for page_num in range(num_pages):
        page = pdf_reader.getPage(page_num)
        pages.append(page.extractText())
# 处理页面内容（这里简单地进行了分页统计）
page_counts = {}
for page in pages:
    lines = page.split('\n')
    for line in lines:
        if line not in page_counts:
            page_counts[line] = 0
        page_counts[line] += 1

PDF文件生成与转换

使用pdfplumber库可以实现PDF文件的提取、合并、转换等功能：

import pdfplumber
# 提取PDF文件中的文本
with pdfplumber.open('input.pdf') as pdf:
    first_page = pdf.pages[0]
    text = first_page.extract_text()
    print(text)
# 合并多个PDF文件
with pdfplumber.open('input1.pdf', 'input2.pdf') as pdfs:
    merged_pdf = pdfs.pages[0]
    for page in pdfs.pages[1:]:
        merged_pdf.append_page(page)
# 将PDF文件转换为图片
with pdfplumber.open('input.pdf') as pdf:
    for page in pdf.pages:
        page.to_image().save('output.png')