中文(繁体字)をGoogleドキュメントでOCRかけてみた!

中国古典文学なんかをやっていると、関連文献の引用とかがどうしても必要になってくるんですが、ネット上にテキストがないと自分でテキストを起こしていくしかありません。普段の入力は当然日本語が多いので、多少慣れているとはいえ、この作業は結構大変。

そうなると思うのは、OCRでテキスト化を自動でできないかなぁってことです。

OCRは専用のソフトもありますし、スキャナ(スキャナ機能付きプリンタも含む)等には標準でOCRソフトがついていて、すぐにテキスト化できるようになっています。

そう、日本語ならね。

でも今回必要なのは、漢字だらけのしかも繁体字。主に中国や台湾で出版されている書籍が対象となります。

中国や台湾にも日本同様、専用のOCRソフトがあるでしょう。それを購入すれば。。。ってハードル高すぎぃ。お幾ら万円なのかも分からないし、そもそも自分のPCで動くのかも確信もてないし、リスク高すぎぃ。

そんな時、Googleドキュメント(とGoogleドライブ)を使えば、なんとかなります。

Googleアカウントの取得

当然ですが、Googleアカウントが必要になります。無料で取得できるので、サクッと登録しておきましょう。

Googleドキュメントの設定

まずはGoogleドキュメントで言語設定をしましょう。Googleドキュメントで主に使用する言語が設定されています。

デフォルトは「日本語」になっているはずなので、そこに中国や台湾で使われている言語を追加するということをやります。ここでは「繁体中文」を追加設定してみましょう。

Googoleドキュメントの画面左上にある、ハンバーガーメニュー(横棒三本のアイコン)をクリックすると、下図のようなメニューが出てくるので、「設定」を選択。

小さい画面が出てくるので、「日本語」をクリック。

下図のような画面になります。

下にある「他の言語を追加」をクリック。

選択画面の「繁體中文」を選び、

「台灣」を選ぶ。

これで、Googleドキュメントの設定完了!!

Googleドライブの画像をアップロード

次にOCRをかけたい画像をGoogleドライブにアップしよう。

Googleドライブの画面を開いて、ファイルをドラッグ&ドロップするだけだから、操作方法は割愛。

ただ、OCRをかけられる画像には制限があるよ。(本一冊まるごとOCRかけてやるっ!ってことは残念ながらできない)

  • ファイル形式は .JPEG、.PNG、GIF、PDF
  • サイズは2MB以下
  • 画像は正しい向きで(横向きや逆さまになってたらだめ)

他にもあるようだけど、とりあえず、上記3点をクリアする画像ファイルを用意しておこう。

用意できたらGoogleドライブにアップロードしておこう。

いよいよOCRをかけるよ!

Googleドライブにアップロードしたファイルを右クリック。

「アプリで開く」→「Googleドキュメント」と辿ってクリックしよう。

すると、何やら考え中の画面になる。ちょっと待とう。(祈っててもOK)

Googleドキュメントのタブが新たに作られて、画像ファイルと、OCRでテキスト化された文章が縦に並んででてくるはず。OCRはたったこれだけでできてしまう!

OCRの精度やいかに!!

今回使ったのは『詩経注析』(中華書局)という本の序文の一部。

PDFファイルなんですが、その画像はあまり奇麗なものではありません。これを該当箇所だけ切り取って、jpegファイルにしてます。

さぁ、どうでしょう。OCR結果発表!!

^在注釋中^我們還致力於運用《說文》、《爾雅《、《廣雅》等字書^揭示《詩經》中不少字詞的本義、引伸 義或假借義的關係。有些關鍵字^甚至不避重複地訓釋。這樣做^旨在幫助讀者將眼光擴展到先秦古 漢語詞義的演變上去^或許能通過讀詩得到更多的收穫。解放後^甲骨金石文字的研究大大發展^地 下文物屢見出土^這些成果開拓了我們的眼界^也豐富了本書的內容。學術是永遠向前發展的^《詩經》 研究也必然會不斷攀向新的高峰。可以說^這是我們在多注本之後仍希望將自己的一點心得奉獻 給讀者的原因之

ちょ、マジか、すごくね。

赤字が元資料と違うところ。

「,」(カンマ)は一律「^」になってる。

「衆」が「」になってますが、これは異体字だから一概に間違いとは言えないっすね。

「二」が「」になっているという、最後の最後で罠。

ちなみに「《爾雅《」の部分は、元資料の誤植だからOCR的にはセーフ。

ほぼ完璧といっていいほどの、変換精度。画数が多くて、見た目潰れているように見える漢字もちゃんと変換されてるっ!

これだけの分量でも入力するとか考えたら、断然楽っすよ。

さぁ、いかがでしょうか。

取り込む画像の精度や、字体によっては結果が変わってくる可能性がありますが、いろいろ試してみてねっ!