Python實現(xiàn)將PDF文件拆分任意頁數(shù)

更新時間：2025年02月12日 09:49:03 作者：py小王子

PyMuPDF,簡稱fitz,是一個輕量級的Python庫,它簡化和封裝了PyMuPDF的功能,使得在Python中處理PDF文件更加簡單,下面我們來看看如何使用他將PDF拆分任意頁數(shù)

一、簡介

PyMuPDF，簡稱fitz，是一個輕量級的Python庫，它基于MuPDF的C++庫，提供了豐富的功能，包括但不限于PDF的讀取、編輯、轉(zhuǎn)換和渲染。Fitz作為PyMuPDF的子模塊，簡化和封裝了PyMuPDF的功能，使得在Python中處理PDF文件更加簡單。

二、安裝

PyMuPDF（包含fitz模塊）可以通過Python的包管理器pip來安裝。

在命令行工具中輸入以下命令：

pip install PyMuPDF

這將從Python包索引下載并安裝PyMuPDF及其依賴項。

或者

三、基本功能

1、打開PDF文件：

使用fitz.open()函數(shù)可以打開一個PDF文件，并返回一個表示該文件的對象。例如：

import fitz 
doc = fitz.open("example.pdf")

2、獲取頁面數(shù)量：

通過page_count屬性可以獲取PDF文件的總頁數(shù)。例如：

page_count = doc.page_count  
print("Number of pages:", page_count)

3、提取文本：

使用get_text()方法可以提取當(dāng)前頁面的所有文本。例如：

text = page.get_text()  
print("Extracted text:", text)

此外，還可以遍歷文檔中的每一頁，提取每一頁的文本。

4、保存修改后的PDF：

使用save()方法可以保存對PDF文件所做的更改。例如：

doc.save("modified_example.pdf")

其他功能：

插入新的頁面：使用fitz.new_page()創(chuàng)建新頁面，然后使用insert_pdf()方法將新頁面插入到指定位置。
合并多個PDF文件：創(chuàng)建一個空的PDF文檔對象，然后遍歷要合并的PDF文件，將它們的頁面插入到新的文檔對象中，最后保存合并后的PDF。
提取PDF中的圖片：遍歷PDF的每一頁，使用get_images()方法獲取頁面上的所有圖像，并保存它們。
提取PDF中的表格：使用find_tables()方法獲取頁面上的表格，然后可以將表格數(shù)據(jù)保存為CSV格式文件。四、應(yīng)用場景

四、應(yīng)用場景

PyMuPDF（fitz）適用于需要處理PDF文件的各種場景，如文本提取、頁面操作、PDF合并與分割等。它以其快速、高效和易于使用而著稱，是處理PDF文件的理想選擇。

例如：PDF文件拆分任意頁數(shù).py

import fitz
import os
 
 
def split_pdf(pdf_path):
    # 檢查輸入的PDF文件是否存在
    if not os.path.exists(pdf_path):
        print("您輸入的路徑無pdf文件！")
        return
 
        # 打開pdf文件
    doc = fitz.open(pdf_path)
    page_count = len(doc)
    print(f"該pdf文件頁數(shù)為：{page_count}")
 
    while True:
        # 獲取起始頁碼（0基索引）
        page_num1 = None
        while True:
            try:
                user_input = input("請輸入您拆分的起始頁碼（輸入q/Q退出）：")
                if user_input.lower() == 'q':
                    doc.close()
                    return
                page_num1 = int(user_input) - 1
                if page_num1 < 0 or page_num1 >= page_count:
                    print("起始頁碼無效，請重新輸入。")
                else:
                    break
            except ValueError:
                print("請輸入有效的起始頁碼或q/Q退出。")
 
        # 獲取結(jié)束頁碼（0基索引）
        page_num2 = None
        while True:
            try:
                user_input = input("請輸入您拆分的截止頁碼（輸入q/Q退出）：")
                if user_input.lower() == 'q':
                    doc.close()
                    return
                page_num2 = int(user_input) - 1
                if page_num2 < 0 or page_num2 >= page_count:
                    print("截止頁碼無效，請重新輸入。")
                else:
                    break
            except ValueError:
                print("請輸入有效的截止頁碼或q/Q退出。")
 
        # 創(chuàng)建一個新的PDF文檔并插入指定的頁面范圍
        new_doc = fitz.open()
        new_doc.insert_pdf(doc, from_page=page_num1, to_page=page_num2)
 
        # 獲取用戶輸入的PDF基礎(chǔ)名字和保存目錄
        pdf_base_name = input("請輸入您的PDF基礎(chǔ)名字：")
        if not pdf_base_name.lower().endswith('.pdf'):
            pdf_name = f"{pdf_base_name}_{page_num1 + 1}-{page_num2 + 1}.pdf"
        else:
            pdf_name = f"{pdf_base_name[:-4]}_{page_num1 + 1}-{page_num2 + 1}.pdf"
 
        save_dir = input("請輸入您想要保存PDF的目錄（例如：C:/Users/YourName/Documents/）：")
        # 確保目錄末尾有斜杠，并檢查目錄是否存在
        if not save_dir.endswith(os.sep) and save_dir != "":
            save_dir += os.sep
        os.makedirs(save_dir, exist_ok=True)
 
        output_path = os.path.join(save_dir, pdf_name)
        new_doc.save(output_path)
        new_doc.close()
        print(f"Saved: {output_path}")
 
        # 檢查是否繼續(xù)拆分或退出
        is_continue = input("是否繼續(xù)拆分其他頁面范圍（q/Q退出）？").strip().lower()
        if is_continue == 'q':
            doc.close()
            break
 
 
# 調(diào)用函數(shù)進行PDF拆分
 
pdf_path = input("請輸入您需要拆分的PDF路徑：")
split_pdf(pdf_path)