文字にアウトラインがかかったPDFからも 、文字を抽出することができる場合があります。

header-picture

こんにちは、制作進行の関根です。

仕事柄、原稿を管理する場面も多く、いただいた原稿がアウトラインのかかったPDFしかないということがあります。文字にアウトラインがかかっているとは、表現が難しいのですが、文字が文字として認識できない状態で、図形のようになってしまう状態を言います。

○アウトライン前

PDFで開いて全選択すると、選択され、その部分は抽出できます)

pdfoutline1

○アウトライン後

PDFで開いて全選択すると、選択できません。抽出できません)

pdfoutline2

上記ぐらいの文であれば、手打ちでもいいですが、文字が大量の場合、それを全て手打ちしてデータ化すると時間がかかります。そこで、Acrobat Proの機能でアウトラインを解除します。

解除と言いましたが……注意とお願いです。

アウトライン前と後が混在する時、PDFの解像度や作成したソフトや状況(印刷設定で書かれた場合は難しい、面積が多いと難しい)など、場合により完璧に適用できるものではありません。完全には抽出できないですが、少しでも制作が楽にできる一つの知識として、手打ちを極力減らす手法として、ご認識いただければと。

それではやってみます。

まず開きます。この時、全選択すると、下記のアラートが出ます。「はい」で進みます。

pdfoutline3

すると、テキスト認識というポップアップが出ます。

pdfoutline4

ポップアップを拡大してみます。設定の参考にしてください。

pdfoutline5

これでOKすると、

pdfoutline6

解除できました。

これをテキストソフトなどにコピペすれば、文字データとして使用できます。

Acrobat Proのこの機能をご存知なかった人に、作業が少しでも楽にできればと思って書きましたが、中盤で書かせていただいた通り、完璧に適用できるものではありません。どの状態がダメかも、全てはお答えできなく、申し訳ありません。

なので、何かご相談があれば、お気軽にお問い合わせください。何かお力になれることがあれば幸いです。

完全には抽出できないかもと曖昧な情報で申し訳ありませんが、少しでも制作が楽にできるかもしれない、そんな知識をこのブログの場所でこれから書けるよう努めます。 

Topics: 校正・校閲, Tips


Recent Posts

2024年4月から合理的配慮の提供が義務化!WEBサイトユーザビリティとの関係は?

read more

人的資本経営を推進する企業の「採用戦略」として重要なこと

read more

ブランディングに欠かせない!”なぜ”で人を動かす「ゴールデンサークル理論」

read more