にしし ふぁくとりー:西村文宏 個人サイト

Presented by Nishishi via Movable Type. Last Updated: 2021/03/31. 15:43:32.

Sakura Scope (2020年12月)

ちょっと倒錯気味な、ただの日記です。(^^;)
これはやばいと思われた場合は、お早めに閲覧を中止されることをお勧め致します。

PDFをWord形式に変換する最も簡単な方法は、WordでPDFを直接読み込むこと

今のMicrosoft Wordは、PDFを直接読み込める

PDFをWord形式のファイルに変換したいがどうすれば良いかという質問を時々受けます。
Word文書をPDF化するのではなくて(それは昔から簡単ですね)、PDFとして受け取った書類を編集するためにWordファイルに変換したいという相談です。

この種の相談を時々受けるのであまり知られていないのだと思いますが、Microsoft Word 2013以降ならPDF形式のファイルも直接読み込めるので、そもそも変換など不要なのです。
PDFをWordで編集するためにdocx形式のファイルに変換したいなら、Microsoft WordでそのままPDFを読み込めば良いだけです。

とはいえ、PDFをダブルクリックしても(たいていの環境では)Adobe Acrobat ReaderのようなPDFビューアが開くだけですから、Wordでは開けません。なので、PDFファイルをMicrosoft Wordで開く方法などを以下に解説しておきます。

なお、お使いのMicrosoft WordがVer.2013より古い場合にはPDFを直接読むことはできません。また、PDFをMicrosoft Wordで読み込んでも、全体が画像として読み込まれてしまって編集ができない場合もあります。そのときの対策などもついでに記しておきます。

目次:

Microsoft Wordで直接PDFを読み込む操作手順

以下の方法でPDFをMicrosoft Wordに読み込ませることができます。

  • 方法1:PDFをWordのアイコンにドロップする
  • 方法2:PDFを右クリックして「プログラムから開く」でMicrosoft Wordへ送る
  • 方法3:Wordの「開く」メニューからPDFを選択する

1は簡単なので説明の必要はないでしょう。
とはいえ、デスクトップにMicrosoft Wordのアイコンがない場合は1の方法は使えません。(頻繁にPDFをWordで読みたい場合があるなら、デスクトップにアイコンを出しておくと楽で良いと思いますが。)
その際は、2の方法が楽です。
ただ、「プログラムから開く」のリストにMicrosoft Wordがないなら、3の方法を使う必要があります。

以下に、2と3の方法について画面イメージ付きで説明しておきます。

▼PDFを右クリックして「プログラムから開く」でMicrosoft Wordへ送る

PDFファイルを右クリックすると、下図のようにコンテキストメニューが出てきます。メニュー項目はお使いの環境によって微妙に異なりますから下図の通りではないと思いますが、メニュー内をよく見ると「プログラムから開く」という項目があるはずです。

その「プログラムから開く」をポイントしてから「Word」をクリックすると、そのPDFファイルをMicrosoft Wordで読み込むことができます。

PDFを右クリックして「プログラムから開く」でMicrosoft Wordへ送る

操作はこれだけです。簡単です。
(もしリストに「Word」がない場合は「別のプログラムを選択」項目をクリックしてから探すとWordが見つかるかもしれません。)

▼Wordの「開く」メニューからPDFを選択する

お使いのMicrosoft Wordのバージョンが2013以降なら、下図のようにMicrosoft Wordのメニューを「ファイル」→「開く」とたどってから目的のPDFファイルを選択する方法でも、PDFを直接読み込めます。

Microsoft Wordの「開く」メニューからPDFを選択して直接開く

※このファイルを開く画面で拡張子.pdfのファイルが出てこない場合は、ファイル形式の選択肢(上図の黄色矢印の先)を「すべてのファイル」に変更してみて下さい。

Microsoft Word自身が.pdfファイルを.docx形式に変換してくれる

上記の操作でPDFを開くと、以下のような注意が表示された後にWord側がPDFをWord形式に変換してから読み込んでくれます。

PDFから編集可能なWord文書に変換をします。

その後、「名前を付けて保存」メニューを使ってWord形式(.docx形式や.doc形式)で保存すれば、Wordファイルになります。

※この方法でWord形式に変換した際に、単に「大きな画像が張り付いているだけ」のWordファイルになるケースがある話は後述。

PDFをExcelで読める.xlsx形式に変換する方法

見積書のような表を含むPDFをExcelファイルに変換したいという需要もよくあります。が、残念ながらExcelではWordのようにPDFファイルを直接読むことはできません。
しかし、以下のように操作すると簡単です。

  1. 一旦そのPDFをMicrosoft Wordで読み込んでから、
  2. 文書全体を範囲選択してコピーして、
  3. 白紙のExcelシートに貼り付ける。

上記のように操作すると、上手い具合に表構成を維持したままExcelシートに貼り付けられるので便利です。
あとは、適当な名称で保存すれば、.xslxファイルになります。
外部の変換サービスを駆使しなくても、実は簡単です。

人力でWordからExcelにコピー&ペーストする手間は発生してしまいますけども。
PDFをExcelファイルに直接変換するWebサービスもありますが、私がちょっと試したところでは表の中身がバラバラのシートに分解される問題などがあって、あまり使い勝手が良いとは言いがたいように思いました。
変換結果を自力で整形し直す手間を考えれば、一旦Microsoft WordでPDFを読み込んでから、Wordの内部機能でPDFを変換させた結果をコピーしてExcelにペーストする方が、よほど簡単なように感じます。

PDFをWordで読み込むと、全部が画像になってしまっている場合に、テキストを得る方法

例えば、以下のようなPDFだと、Wordで読み込んでも全体が画像として取り込まれるだけになります。

  • 「紙書類をスキャンしてPDFにした」など、元データがデジタルデータではない場合
  • 何らかの目的で、文字(テキストデータ)を抽出できないよう加工されている場合

このような場合は、OCR(Optical Character Reader)と呼ばれる文字認識機能を使って、「画像に描かれている文字」を文字として認識して変換させる方法を使う方法があります。
OCRを利用するには、例えば、以下のような方法があるでしょう。

▼1. OCRソフトを買って使う

OCRソフトはいろいろありますから、機能を比較して選べば良いと思います。
例えば「読取革命」というソフトウェアなら、PDFを読み取ってWordやExcelファイルに変換する機能があります。
昔はPanasonic製品だったのですけども、今はソースネクストが販売しているようですね。
費用は掛かりますが、件数が多いならこのようにOCRソフトを購入して使うのが楽でしょう。

もうちょっと安い製品では、例えば「JUST PDF4 データ変換」というツールもあります。これは別途ブログ記事(任意の画像ファイルからOCRでテキスト化もできる「JUST PDF4 データ変換」)で紹介しましたが、PDFや画像を読み込んでWord等のファイルに変換する機能があります。全自動で処理すると、元のPDFによっては文字部分もそのまま画像として取り込まれてしまうケースがあるのですが、文字認識範囲を手動で調整する機能がありますので(先の記事内で画面イメージ付きで紹介しています)、その機能を使って微調整しつつ変換すれば、OCRでテキスト化ができるでしょう。認識結果の文字の修正もその場でできるので、使い慣れれば便利な気はします。

▼2. OCR機能付きの『PDF→Word変換』サービスを使う

Web上で、PDFファイルをアップロードするとdocx形式のファイルに変換してダウンロードできるWebサービスがいろいろあります。「PDF Word 変換」などの検索語でググるといろいろヒットします。(特にお勧めするサービスがあるわけではないので、個別にリンクはしません。)

その手のサービスは、「基本は無料でOCR機能付きだと有料」みたいな感じで運営されているところが多そうな気がします。なので、その有料サービスを利用すればOCR機能を使って変換できるでしょう。
たいていは最初に無料のお試し期間があるでしょうから、試してみると良いかもしれません。
インストール作業等が不要で、ブラウザだけで利用できるので楽と言えば楽でしょうね。

ただ、そのPDFが機密の含まれるデータなら、他社のWebにアップロードして使うのは(安全のためには)避けた方が良いと思いますが。

▼精度の問題がある点に注意

いずれにしても「OCRによる文字認識」は100%の精度にはあまりなりません。取りこぼしや誤認識は必ずあると思った方が良いでしょう。

英数字だけで構成されていて標準的なフォントだけが使われている場合には99%以上の精度はあるのではないかと思いますけども、文字のすぐ傍に罫線が含まれていたり、特殊な記号が含まれていたり、珍しいフォントで書かれていたりすると、誤認識の可能性が高まります。

なので、必ずしも使い物になるデータに変換できるとは限りませんから注意して下さい。
(とはいえ、1から人力でテキスト化するよりは遙かに楽なことは間違いないと思いますが。)

というわけで、PDFをWordに変換する方法の話でした。

独自ドメイン20周年。もうそんなに経ったのか

ドメイン取得20年

私のメインサイト(このブログのあるサイト)で使っている独自ドメイン nishishi.com を取得したのは、どうやら2000年11月15日(水)だったようです。平成12年。なんと20年も経ってしまっていました。
いつの間に……。

当時は年間のドメイン維持費が2万円とかだったような気がします(うろ覚えなので違うかも知れませんが今より遙かに高かったのは間違いありません)。今は.comドメインだと年間1,800円前後くらいでしょうかね。会社によって様々ですし、特にアメリカの会社だと半額くらいで済むこともあるようですけども。いくらだろうと契約し続けないわけにはいきませんから年間の維持費は正確には把握していません。
当時の年額2万円という価格は、日本語だけの手続きでドメインを取得させてくれる会社がとても少なかったので、競争がほとんどないための高価格だったのでしょうねえ。

そういえば、このドメインを取得するために三井住友VISAでクレジットカードを作ったのだったような気がします。
思い立ったが吉日とばかりにクレジットカードを作って、自宅にカードが配送されてくるのを待てなかったので、三井住友VISAのどこかの窓口まで受け取りに行ったのでした。
あれはどこだったかな……。
たぶん梅田のどこかのビルだったと思うのですけども。
窓口で受け取る場合には、申請から3日で受け取れるという話だった気がします。
当時は学生でしたし、ほんの数日でも待てずに一刻も早く受け取りたかったのでした。(笑)
まあ、ドメイン名は早い者勝ちですしね。

当時は.comドメイン名でもずいぶん余っていたので、選択肢は多数ありました。nishishi.com以外にも、例えば244.comにしようかな、とも思ったのですが。実際にそれを取得可能でしたから、もしそれを取得していたら「3文字の.comドメイン」が手に入っていたわけですけども。今思うと惜しいことをしました。(^_^;)
今のようにドメイン維持費が安ければそれらも取得していた可能性はあるのですが、当時は安くなかったので、どれか1つだけを選ぶしかなかったのです。(私に先見の明があれば、高くても取得していたと思うのですけども、残念ながらなかったようです。orz)

そんなわけで、このnishishi.comは20周年なのでした。

ウェブサイトは23周年くらい

ドメインの取得から20年が経ったなら、ウェブサイトも20周年なのかというと、そうではありません。
だいたい23年くらいです。

私がウェブサイトを最初に開設したのは、たぶん1997年の7月頃でした。具体的な日付はさっぱり覚えていませんが、そういう記録があったので、たぶんそうなのでしょう。1997年10月15日(水)という日付が掲載された画面キャプチャ記録もあったのですが、これはたぶん「開設日」ではなく「アクセスカウンタを設置した日」に過ぎない気がします。
独自ドメインに移すまでの3年間は、プロバイダのBIGLOBEが提供していた個人用スペースで運営していました。そのURLは既に消滅していて存在しません。そもそも、そのBIGLOBEの個人向け無料ウェブスペースのサービス自体が今は残っていなかった気がします。

独自ドメインを取得した直後にウェブサイトをここに移転したわけではないので、いつが始まりなのかハッキリとは思い出せなかったのですが、これも過去の記録を探してみたところ、(ウェブサイトをこの nishishi.com に移行した日は)2000年12月06日(水)だったようです。
意外と記録って残しているものですね。
まあ、「ブログ」という名称が一般的になる遙かに前からほぼ毎日のようにWeb日記を書いていたわけですからね……。(^_^;)

▼名称変更から20年……というわけでもない

サイト名を「にししふぁくとりー」に変更してからが20年なのかな……
……と思ったのですけども、そうではありませんでした。
少なくとも2002年3月の時点では「にししのPCわーるど」という名称だった記録(キャプチャ画像)を発見しました。
2002年3月14日(木)時点のキャプチャ画像
レイアウトは違っても、配色は昔から同じですね。(笑)
(1997年の解説時点からこのレイアウトだったわけではありませんが。最初はこんな段組レイアウトは作っていませんでした。ブラウザ側にそんなリッチな表示能力もなかった気がしますし。上記ではボックスの角が丸くなっていますが、これはCSSではなく画像を駆使して作っていたハズです。当時のCSSにborder-radiusプロパティとか存在しませんでしたから。)

サイト名を「にししふぁくとりー」に変更してからは何年でしょうかね……?
2004年6月の時点では「にししふぁくとりー」になっていた記録(キャプチャ画像)はありました。
2004年6月13日(日)時点のキャプチャ画像
下部にバナーエクスチェンジサービスの掲載があるのが懐かしいですね。そういえばそんなサービスもありました。

このドメインに移して以後の変遷は、Internet Archiveで提供されているWayback Machineを見れば遡れるので、簡単に調べられそうな気はします。(面倒なのでそこまでは調べていませんが。^^;)

2000年代にはアクセスカウンタのキリ番報告を何度かWebに掲載した記憶があるので、Webサーバの中を探せば画像が出てきそうな気はします。
この20年間、ほとんどのファイルは削除していないので、どこかにはあるハズです。(笑)

▼All Aboutもほぼ20年

ちなみに、情報サイトAll Aboutで記事を書き始めたのは2001年からなので、来年で20年になります。
ずいぶん続いたものです。
20年前は、たまたま『日本に「All About Japan」という情報サイトを立ち上げるために記事を書く人間を探している』というタイミングだったので、All Aboutサイトの開設当初(当時は本家「About.com」というアメリカのサービスの日本版という形で「All About Japan」という名称)から参画できたのでした。

もっとも、最近は原稿依頼が来ないので、新規記事の追加は1年以上ないのですけども。
ウェブ製作に関連する記事は、もはやネット上にあふれているので、わざわざ原稿料を払って新規記事を書かせようという動機が編集部側にないのでしょうね。まあ、その辺は時代なので仕方がありません。

最初はMicrosoft Wordで作った

私の最初のウェブサイトは、Microsoft Wordで作成したのでした。たぶん、Word97とか、その辺のバージョンだったのではないかと思います。
当時のMicrosoft Wordには、文書をHTMLで出力する機能がありました。いや、もしかしたら今もあるのかも知れませんけども。

「1行毎にフォント名も吐き出す」という凄まじい文法のHTMLが出力されていたのですが、Internet Explorerで閲覧する分には特に支障はありませんでした。(^_^;)
そのWordではデザインの自由度が低いので、何とかしようと自力でHTMLソースを弄り始めたのが、私のウェブ製作の始まりなのでした。

なお、テキストエディタはいくつか変遷があった気がしますけども、わりと早い内にEmEditorに落ち着き、それ以来ずっとEmEditorを使っています。

そんなわけで、nishishi.comドメインが20周年だという話でした。
いつまで続きますかね?(^_^;)

EmEditorでPerlの$#hoge記法をコメントにしない設定方法

Perlソースの色分けでは、#以降をコメントとして表示したいが、$#以降はコメントにしたくない

プログラミング言語のPerlでは、行内に存在する「#」記号から行末までの間がコメントとして無視されます。「#」以後をコメントとして扱うプログラミング言語や各種設定ファイルはよくあります。
しかし、Perlには「$#配列名」のように「#」を含む記法があります。
具体的には、配列 @abc があったとき、この配列の最終要素番号を得るには $#abc と記述します。
なので、この場合にはもちろん「#」以後はコメントにはなりません。

問題は、テキストエディタの色分け機能では、そこまでは考慮されないという点です。
EmEditorも例に漏れず、デフォルト設定のままだと、言語設定をPerlにしていても $#abc という記法を含む行では、「#」記号から行末までがコメントとして取り扱われてしまうため、もしその行内にカッコが存在すれば、カッコの自動対応が取れなくなってしまいます。

$#以後もコメントになってしまう問題

これでは少々困るのですが、「#があれば行末までをコメントとする」・「しかし#の直前に$があればコメントにはしない」のような実装は正規表現を使って判断しないといけなくなり、軽さを重視するテキストエディタでは難しそうです。

「#記号+スペース」をコメントの開始だと判断するよう設定すれば良い

そこでおすすめの方法が、コメントの判定方法を、デフォルトの「#以後をコメントとする」から、「# 以後をコメントとする」に変更することです。
ぱっと見た感じ同じに見えますが、#記号の直後に半角スペースがある点が異なります。

よくよく考えると、コメントを書くときに「#」記号から間髪入れずにコメント本文を書くことは滅多にありません。
たいていは、「#」記号の直後には空白を入れて1文字分離してからコメントを書くことがほとんどです。
(ただ、その空白は「半角スペース」以外にも「タブ」が使われることもありそうですが。)

EmEditorでは、何をコメントとして取り扱うかは言語別(ファイルの種類別)に設定できます。
なので、下図のように言語がPerlだったときのコメントとしては # (=「#」+「スペース」)を設定しておけば、$#abcという配列の最終要素番号を得る記述をコメントと扱ってしまうのを防げます。

EmEditorのPerlのプロパティで行コメント欄に「#」+「半角スペース」を設定する対策

#記号があっても、$#ならコメントにならない設定結果

もし「#」記号の直後からコメント本文を書いている箇所があればコメントとして認識されなくなりますが、多くないのであれば実害はないでしょう。
見つけたときに半角スペースを加えておけば済む程度でしょうし。

というわけで、EmEditorでPerlの$#hoge記法をコメントにしない設定方法でした。

2020年12月
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    

他の月

--- 当サイト内を検索 ---