にしし ふぁくとりー:西村文宏 個人サイト

Presented by Nishishi via Movable Type. Last Updated: 2022/03/25. 10:34:19.

任意の画像ファイルからOCRでテキスト化もできる「JUST PDF4 データ変換」

画像ファイルに描かれている文字をOCRで認識してテキストデータに変換してくれるツール

ジャストシステム製のWindows用PDF編集ツールの1つに「JUST PDF4 データ変換」というソフトウェアがあるのですけども、名称にある「PDF」とは関係なく、任意の画像ファイルからでもOCRでテキストデータ化する機能があることに気付いて驚きました。
「JUST PDF4」という名称が少々損をしているのではないでしょうかね。なんとなくPDFしか対象にできないのかと思ってしまう名称だと思うのですけども。

JUST PDF4 ソフトウェア群

単品でも販売されているソフトですが、ジャストシステム製のワープロソフト「一太郎」(プラチナ版)のおまけとしても付いてきます。

▼電子書籍の1ページをキャプチャした画像を読み込んで、OCRで認識させてテキストを抽出したところ

過去にタブレットでキャプチャしていた電子書籍の1ページを取り込んでみて、何気なくテキスト化を試してみたところ、「どうせ『扱えません』的なエラーが出るのだろうな」と予想していたのですが、すんなりOCRでテキスト化ができて驚きました。

OCRでテキストを抽出(@JUST PDF4 データ変換)

上図はAndroid端末上で電子書籍の罫線(表組み)ページをキャプチャした画像を「JUST PDF4 データ変換」に取り込んだところです。

▼OCRで認識したテキストは、Word形式や一太郎形式やプレーンテキストファイル等として出力できる

これをMicrosoft Wordの.docx形式と一太郎の.jtd形式にそれぞれ変換してみたのが下図です。
表組も問題なく罫線で表現されていますし、テキストデータ化された日本語もほぼ正しいです。1点だけ読点が「x」になっていますけども、OCRではこの程度は仕方ないでしょう。

OCR結果をMicrosoft Wordのdocx形式に変換した結果 OCR結果を一太郎のjtd形式に変換した結果

私は昨年に購入した「一太郎2020 プラチナ版」に含まれているオマケ機能として手に入れたのですけども、まさかこんなに有用なオマケだったとは今まで気付きませんでした。

読み込んだ画像のうち、どの部分がOCRで文字として認識されているのかも表示できて修正できる

どの部分をOCRで文字として認識しているのかを表示するモードもありました。
認識はほぼ正しい(リンゴやミカンの絵が「OQQ」と認識されている程度)のですが、必要に応じて認識範囲を手動で修正することもできるようです。

OCR認識状態の表示1(@JUST PDF4 データ変換) OCR認識状態の表示2(@JUST PDF4 データ変換) OCR認識状態の表示3(@JUST PDF4 データ変換)

認識結果のテキストを直接編集することもできるので、ここで事前に編集しておけば編集結果を最終データとして出力できるっぽいです。なかなか便利です。無駄な改行もここで取り除いておけば楽かもしれません。

縦書き・横書きの混在も問題ありませんでした。
特に、2段組レイアウトでもちゃんと正しい順序で認識していることにちょっと驚きました(2枚目の画像)。罫線もないのに。

テキスト認識は、フォントによってはカタカナの「ロ」が四角記号になったり、小さい「っ」や「ャ」が大きな「つ」や「ヤ」だと誤認されている箇所はありましたが、まあその辺はOCRならありがちなので仕方ないでしょうね。

やはり名称でちょっと損をしているのでは

任意の画像を読み込んで、OCR機能でテキストを抽出していろんなファイル形式に変換できるのに、「JUST PDF4 データ変換」という名称はやっぱりちょっと損をしているのではないかという気がしてなりません。^^;
とはいえ、たぶん「PDFをOCRでテキストデータにしたい」という需要の方が圧倒的に多いから、そういう名称にしているのでしょうかね。
個人的には「JUST OCRデータ変換」とかだったら、「ああ、OCRで文字認識ができてデータ形式を変換できるのだな」と(名称だけから)理解できたと思うのですけども。
まあ、OCRという名称もそこまで一般に広く認識されているわけでもないでしょうからね……。(^_^;)

何にしても、ジャストシステム製の「JUST PDF4 データ変換」が意外と使えたという話でした。

JUST PDF 4 【データ変換】 通常版 ダウンロード版(@Amazon.co.jp)

コメント

コメント数: 0件

コメント投稿欄 この日記に対するコメント投稿を歓迎します。



※本文中にURLは書けません。(書くと投稿が拒否されますのでご注意下さい。)

※ご投稿頂いた内容は、掲載前に管理者が確認する設定にしている場合があります。たいていは数日以内には表示されるはずですので、気長にお待ち願います。m(_ _)m

著者紹介


にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊+小説1冊)。著書や記事は「西村文宏」名義。記事は主にAll Aboutで連載。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

Twitter:にしし/西村文宏
にしし/西村文宏 on facebook にしし/西村文宏 on mixi フォローはお気軽に!

にしし(西村文宏)連絡先
☕ コーヒーをおごる

著書一覧と詳細

にししふぁくとりー Sakura scope内限定での主要なカテゴリ

--- 当サイト内を検索 ---