2016年04月21日

PDFなどからWordにコピー時改行


 PDFファイルやwebページからテキストをコピーし、Wordに貼り付けると、行ごとに改行されてしまう場合がときどきあります。

 そんな時は、一行毎に改行されている箇所をつなぐ作業が必要になります。
 特に、英文テキストなどは、この作業が不可欠。機械翻訳するときに、細切れのテキストではうまく訳せません。

 短いテキストならば、ひとつひとつ手作業でやっても問題ないのですが、数十ページもあるテキストの各行をつなぐ作業は、考えただけでもいやになります。

 そこで今日は、行毎に改行されてしまったテキストをつなぐ方法をご紹介します。

余計な改行、文字を一括削除する


 今回サンプルとして使ったPDFの英文テキストでは、Wordにコピーペすると1行ごとに改行された状態になります。これはもう手作業で削除するのは不可能なレベルです。
 (編集記号を表示にしたら、単語間のスペースに中点・中黒マーク [ ・ ] がすべて挿入されているように見えます。これは空白が中点・中黒マークで表示されているだけなので、実際には空白です。勘違いしてしまいました。)

 そこで、今回は、改行を一括して削除します。

 改行を一括削除することにより、本来改行されていた部分も削除され、ひとつのつながったテキストになってしまいますが、 段落の数は行の数に比べ圧倒的に少ないので。それは後で修正することにします。

 以下、Word上での手順です。

1. テキストを選択する。
2. [ホーム]タブの[編集]グループ、[置換]をクリック
 (青字の部分は無視して下さい。勘違いしていました。)

Word Delete new line 01


3. [あいまい検索]のチェックを外す。[特殊文字]をクリック

Word Delete new line 02


4. 開いたリストから[段落記号]を選択
  ([検索する文字列]覧に [^p] と表示される。)

5. [すべて置換]をクリック。改行がすべて削除され、つながったテキストになります。

Word Delete newline 03


 上で、勘違いしてしまった「中点・中黒マーク」がもし本当に入っていたら、同様の手順で削除できます。


[検索する文字列]覧に [・] 、置換後の文字列]覧に [^s] と入力して置き換えます。 [^s]は「改行をしない半角スペースのコードです。

 英文で、単語の途中で改行するときに付けられるハイフネーション(半角ハイフン)を削除するには、[検索する文字列]覧に [-] 、置換後の文字列]覧には何も入力せずに[すべて置換]をクリックし削除します。

 [特殊文字]のリストの中に他のコードもあるので、必要に応じて探して見て下さい。
 さらに特殊な置き換えをするには、ワイルドカードを使います。ワイルドカードについては、こちらのサイトさんの記事「ワイルドカードとは何か?」が参考になると思います。


この記事へのコメント
コメントを書く
コチラをクリックしてください