Python實現(xiàn)將PDF轉(zhuǎn)DOCX的超簡單教程(附源碼)
在日常工作中,我們經(jīng)常需要將 PDF 文件轉(zhuǎn)換為 Word(.docx) 方便編輯。今天分享一個非常簡單、實用的 Python 工具 —— pdf2docx,僅需幾行代碼就能完成轉(zhuǎn)換!
一、環(huán)境準(zhǔn)備
使用 pdf2docx 庫前,需要安裝它:
pip install pdf2docx
如果你使用的是國內(nèi)源(推薦):
pip install pdf2docx -i https://pypi.tuna.tsinghua.edu.cn/simple
安裝完成后即可使用。
二、PDF 轉(zhuǎn) DOCX 完整示例代碼
下面是一段直接可運行的示例代碼,僅需三步即可完成 PDF → Word:
from pdf2docx import Converter
pdf_file = "1.pdf"
docx_file = "2.docx"
# 創(chuàng)建轉(zhuǎn)換器對象
cv = Converter(pdf_file)
# 執(zhí)行轉(zhuǎn)換
cv.convert(docx_file, start=0, end=None)
# 關(guān)閉轉(zhuǎn)換器
cv.close()
print("轉(zhuǎn)換完成!")
代碼說明
pdf_file:要轉(zhuǎn)換的 PDF 文件路徑
docx_file:需要輸出的 Word 文件路徑
cv.convert():
start=0表示從第一頁開始end=None表示轉(zhuǎn)換到最后一頁
轉(zhuǎn)換完成后需要執(zhí)行 cv.close() 釋放資源
三、運行效果
運行后將在當(dāng)前目錄生成一個 2.docx 文件,格式盡可能保持與原 PDF 一致,非常適合文字類文檔。
四、常見問題
PDF 轉(zhuǎn)換后格式不完美
這是 PDF → Word 轉(zhuǎn)換的常見問題,尤其是復(fù)雜排版或掃描件。
你可以嘗試:
- 使用
ocrmypdf處理掃描件 - 提升 PDF 清晰度
- 使用 Adobe Acrobat 或 WPS 的轉(zhuǎn)換功能對比效果
五、方法補充
Python使用pdf2docx和os模塊實現(xiàn)批量將PDF轉(zhuǎn)Word文檔
注意事項:
1、PDF文檔的后綴務(wù)必是“.pdf”,否則轉(zhuǎn)換不成功
2、大部分的PDF文檔都可用這個程序來轉(zhuǎn)換,如果是圖片生成的Pdf文檔,則轉(zhuǎn)換不成功,原因是要將圖片里的文字轉(zhuǎn)換成文檔涉及到人工智能的知識,它已超出這個程序的能力范圍。但也不用慌,遇到此情況,可以用QQ的文件助手來幫忙,此處不贅述。
完整代碼:
import os
from pdf2docx import Converter
def pdf_docx():
# 獲取當(dāng)前工作目錄
file_path = r'C:\Users\test'
# 遍歷所有文件
for file in os.listdir(file_path):
# 獲取文件后綴
suff_name = os.path.splitext(file)[1]
# 過濾非pdf格式文件
if suff_name != '.pdf':
continue
# 獲取文件名稱
file_name = os.path.splitext(file)[0]
# pdf文件名稱
pdf_name = file_path + '\\' + file
# 要轉(zhuǎn)換的docx文件名稱
docx_name = file_path + '\\' + file_name + '.docx'
# 加載pdf文檔
cv = Converter(pdf_name)
cv.convert(docx_name)
cv.close()
if __name__ == '__main__':
pdf_docx()
Python使用pdf2docx模塊實現(xiàn)PDF到Word的批量轉(zhuǎn)換
以下是一個可以批量將 PDF 文件轉(zhuǎn)換為 Word 文檔的 Python 代碼示例,代碼實現(xiàn)了遍歷指定文件夾下的所有 PDF 文件,并逐個進(jìn)行轉(zhuǎn)換的功能:
import os
from pdf2docx import Converter
def pdf_to_docx(pdf_folder, docx_folder):
"""
將指定文件夾下的PDF文件批量轉(zhuǎn)換為Word文檔
:param pdf_folder: PDF文件所在文件夾路徑
:param docx_folder: 轉(zhuǎn)換后Word文檔存放的文件夾路徑
"""
# 檢查目標(biāo)文件夾是否存在,不存在則創(chuàng)建
if not os.path.exists(docx_folder):
os.makedirs(docx_folder)
# 遍歷PDF文件夾下的所有文件
for file in os.listdir(pdf_folder):
if file.endswith('.pdf'):
pdf_file_path = os.path.join(pdf_folder, file)
docx_file_path = os.path.join(docx_folder, os.path.splitext(file)[0] + '.docx')
try:
# 創(chuàng)建Converter對象開始轉(zhuǎn)換
cv = Converter(pdf_file_path)
cv.convert(docx_file_path)
cv.close()
print(f"{pdf_file_path} 已成功轉(zhuǎn)換為 {docx_file_path}")
except Exception as e:
print(f"轉(zhuǎn)換 {pdf_file_path} 時出現(xiàn)錯誤: {e}")
if __name__ == "__main__":
# 指定PDF文件所在文件夾路徑
pdf_folder_path = r'C:\Users\example\pdfs'
# 指定轉(zhuǎn)換后Word文檔存放的文件夾路徑
docx_folder_path = r'C:\Users\example\docxs'
pdf_to_docx(pdf_folder_path, docx_folder_path)代碼解析
函數(shù)定義部分:定義了pdf_to_docx函數(shù),它接受兩個參數(shù),pdf_folder表示存放 PDF 文件的文件夾路徑,docx_folder表示轉(zhuǎn)換后要存放 Word 文檔的文件夾路徑。在函數(shù)內(nèi)部,首先檢查docx_folder是否存在,如果不存在就創(chuàng)建該文件夾,用于確保后續(xù)能正常存放轉(zhuǎn)換后的文件。
文件遍歷與轉(zhuǎn)換部分:通過os.listdir函數(shù)遍歷pdf_folder下的所有文件,對于以.pdf結(jié)尾的文件,先拼接出其完整路徑(pdf_file_path),再根據(jù)文件名(去除.pdf后綴后)拼接出轉(zhuǎn)換后 Word 文檔的路徑(docx_file_path)。接著使用Converter類創(chuàng)建對象并調(diào)用convert方法進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換完成后關(guān)閉對象。如果在轉(zhuǎn)換過程中出現(xiàn)任何異常,會通過try-except語句捕獲并打印出錯誤信息。
主程序部分:在if __name__ == "__main__"語句塊中,指定了實際的pdf_folder_path(存放 PDF 文件的文件夾路徑)和docx_folder_path(存放 Word 文檔的文件夾路徑),然后調(diào)用pdf_to_docx函數(shù)開始批量轉(zhuǎn)換操作。
六、總結(jié)
只需十幾行代碼,就可以實現(xiàn) PDF 文件轉(zhuǎn) Word,適合批量處理、自動化任務(wù)等場景。
如果你想繼續(xù)學(xué)習(xí) PDF 操作 / Word 處理 / Python 文檔自動化 也歡迎繼續(xù)關(guān)注!
到此這篇關(guān)于Python實現(xiàn)將PDF轉(zhuǎn)DOCX的超簡單教程(附源碼)的文章就介紹到這了,更多相關(guān)Python PDF轉(zhuǎn)DOCX內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python中字典的基礎(chǔ)介紹及常用操作總結(jié)
字典也是python的數(shù)據(jù)類型中的一種,它由許多鍵值對組成,它是一種可變?nèi)萜髂P?一般情況下鍵是唯一的,字典支持嵌套,下面這篇文章主要給大家介紹了關(guān)于Python中字典的基礎(chǔ)介紹及常用操作,需要的朋友可以參考下2021-09-09
Python中decimal.Decimal類型和float類型的比較
這篇文章主要介紹了Python中decimal.Decimal類型和float類型的比較,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-11-11
pyqt5教程QGraphicsScene及QGraphicsView使用基礎(chǔ)
這篇文章主要為大家介紹了pyqt5教程中QGraphicsScene及QGraphicsView使用基礎(chǔ),有序要的朋友可以借鑒參考下,希望能夠有所幫助2021-10-10
python?dowhy數(shù)據(jù)估計因果分析功能探索
這篇文章主要為大家介紹了python?dowhy數(shù)據(jù)估計因果分析功能實例探索,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2024-02-02

