PDFファイルの表をExcelに取り込む方法

固定ページ
Pocket

CSVなどテキストデータで受取れるのが一番良いのですが、厚生労働省などが公表するデータは、表(Table)になったデータをPDFファイルで手に入れることもあります。

表のPDFファイルは、Excelに直接取り込むことができます。

Wordでしたらファイルを開くときにPDFファイルを指定するだけで、表のデータを取り込みます。

表形式だがPDFファイルでしかダウンロードできないデータ(厚生労働省)

PDFファイルの表をExelにデータ取得する

労働基準関係法令違反に係る公表事案(2021年8月1日~2022年7月29日公表分) を集約したものがPDFファイルで作成されて厚生労働省のホームペーで公表されています。(2022年8月31日(水)から)

集約したデータは各労働局ごとに分かれた表になって1つのPDFファイルでダウンロードできます。

厚生労働省労働基準局監督課 掲載日:令和4年8月31日
労働基準関係法令違反に係る公表事案(令和3年8月1日~令和4年7月29日公表分)

残念ながらExcelデータ(またはCSVなどのテキストデータ)は見当たりませんでしたので、このPDFファイルから表をExcelに取り込んでみました。

労働基準関係法令違反に係る公表事案(2021年8月1日~2022年7月29日公表分) を集約したPDFファイルは、各労働局ごとに1つの表にまとめられています。

PDFファイルのなかの表1つごとに、1つのExcelファイルのなかにSheetごと取り込むことができます。

以下の操作は、Microsoft Office365 Excel(バージョン2208)でのものです。

リボン(Alt)の[データ](A)タブから[データの取得](PN)を開き、
[ファイルから](F)の[PDFから](P)を選びます。

PDFからデータの取得

「データの取り込み」ダイアログが開きます。

データの取り込み

Excelに取り込みたい表が入っているPDFファイルを選択して[インポート](M)します。

「ナビゲーター」ウィンドウが開きます。

ナビゲーター

「複数のアイテムの選択」にチェック(レ点)します。

TableとPageの2種類が表示されます。

「Table」は、PDFファイルのなかに入っている表の一覧です。
「Page」は、PDFファイルのページごとの一覧です。

1つの表(Table)が複数ページ(Page)にまたがっていることがありますし、1ページ(Page)に複数の表(Table)が入っていることもあります。

「Table」と「Page」の数は同じ場合も異なる場合もあります。

Tableは表題とデータで構成されていますので、ここではTableだけを選択の対象としてチェック(レ点)します。

Tableにチェックを入れたら、[データの変換]をクリックします。

Power Queryが開いたら、[ホーム]タブから、「閉じて読み込む」をクリックして、「閉じて次に読み込む…」を選択します。

閉じて読み込む

閉じて次に読み込む

「データのインポート」ダイアログで[テーブル](T)と「新規ワークシート」(N)をチェックして[OK]をクリックします。

データのインポート

TableごとにSheetが分かれて、表がPDFからExcelに取り込まれました。

取り込み完了

知ってしまえば、とても簡単な操作で、PDFファイルから表をExcelファイルに取り込むことができます。

試してみましょう。

Excelの複数Sheetに分かれた表を1つのSheetにまとめる

各労働局ごとに1つの表にまとめられた労働基準関係法令違反に係る公表事案(2021年8月1日~2022年7月29日公表分)を集約したPDFファイルは、それぞれの表ごとに1つのExcelファイルのなかに別々のSheetで取り込まれました。

PDFファイルのなかの表1つごとに、1つのExcelファイルのなかにSheetごと取り込まれまれています。

各労働局ごとではなく、日本全国の集約を見るには全データが1つのSheetにまとまっている方が見やすいです。

たとえば、労働基準関係法令違反に係る公表事案のなかからフィルターでしぼりこんで日本全国で最低賃金法違反だけを見たいという場合にも、すべてのデータが1つのSheetに集約されていると便利です。

Excelファイルで別々のSheetに分けられたデータは、データの作り(並び)が同じでしたら、1つのSheetにまとめることもできます。

PDFファイルのなかの表をExcelファイルに取り込むときと、操作が似ています。

リボン(Alt)の[データ](A)タブから[データの取得](PN)を開き、
[ファイルから](F)の[Excelブックから](W)を選びます。

Excelブックから

「データの取り込み」ダイアログが現れたら、複数のSheetに同じ作りのデータが分かれているExcelファイルを選択し、[インポート](M)をクリックします。

Excelデータの取り込み

個々のテーブルではなく、一番上に表示されているファイル名を選択して、[データの変換]をクリックします。

選択

Power Queryが開いたら、[展開]にチェックを入れて、取り込む列(Column)にチェック(レ点)してから、[OK]をクリックします。

[展開]をするには、左右の矢印のアイコンをクリックします。

展開A

展開

フィルターを利用して取り込む必要がないものはチェック(レ点)を外します。
取り込む必要があるものだけにチェック(レ点)ができていることを確認したら[OK]をクリックします。

展開OK

[ホーム]タブから、「閉じて読み込む」をクリックして、「閉じて次に読み込む…」を選択します。

閉じて読み込む2

閉じて次に読み込む3

データのインポート2

「データのインポート」ダイアログで[テーブル](T)と[新規ワークシート]をチェックして[OK]をクリックします。

複数のSheetにまたがって存在していた表のデータが1つにSheetにまとめられました。

完成

PDFファイルの表をWordで開く

PDFファイルの表は、Wordで読み込むことができます。

Wordからファイルを開く(ctrl+o)で、PDFファイルを選んで[開く](o)だけです。

WordでPDF開く

PDFファイルからWordに表を読み込む

Wordで取り込んだ表をコピーして、Excelに貼り付けることができます。

しかし試してみたところ、セルの結合が行われているデータも一部みられました。

2行に分かれたデータ

結合されたセルがあると、フィルターなどで操作したときに正しくデータが抽出されませんから、データの修正作業が必要になります。

Wordを間に入れずに、Excelで直接PDFファイルから表を取り込んだ方が手間もかからず良いようです。

【編集後記】

ExcelにPDFファイルの表を直接取り込めることを知ったのは最近で、それまではPDFファイルから範囲指定しながらテキスト部分をコピーしていました。

今回の厚生労働省のPDFファイルは全部で66ページもあります。
テキスト部分を選択してコピーするのは大変な作業です。

うまくコピーできない部分があるとさらに大変です。
そんなときには「Sensible Paster」(Macアプリ)でOCRでテキスト化しています。

MacスクショOCRアプリ【Sensible Paster】は便利[control+command+6]で範囲指定するだけ

しかし、ExcelにPDFファイルから表を直接取り込むのが一番です。

試してみましょう。

The following two tabs change content below.

小倉健二(労働者のための社労士・労働者側の社労士)Office新宿(東京都)

小倉健二(おぐらけんじ) 労働者のための社労士・労働者側の社労士 労働相談、労働局・労働委員会でのあっせん代理 労災保険給付・障害年金の相談、請求代理 相談・依頼ともに労働者の方に限らせていただいています。  <直接お会いしての相談は現在受付中止> ・mail・zoomオンライン対面での相談をお受けしています。 1965年生まれ57歳。連れ合い(妻)と子ども2人。  労働者の立場で労働問題に関わって30年。  2005年(平成17年)12月から社会保険労務士(社労士)として活動開始。 2007年(平成19年)4月1日特定社会保険労務士付記。 2011年(平成24年)1月30日行政書士試験合格