そこで思いついたのが、以前紹介したwin32comを使用する方法です。win32comを使うことで、Microsoft Officeを操作できるため、Pythonから下記の動作を実行することができます。
- PDFファイルをWordで開く
- 表を選択してコピー
- Excelに貼り付け、名前をつけて保存
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
注意 : 使用できる環境等に条件があります。
- win32comを使用するため、WindowsにMicrosoft Officeがインストールされている環境であること
- PDFファイルの「セキュリティ設定」でコピーが禁止されていないこと
PDFファイルにしかない表をExcelに読み込んで再活用する
PDF文書に含まれる表を活用したい場合、単純にコピーして、Microsoft Excelに貼り付けると、表の構造が崩れたり、書式が失われたりする。これを元の表のように整え直すのは結構手間のかかる作業となる。実は、簡単に表の構造や書式を維持してコピーできる方法がある。