研究室概要 / 研究報告 / 中村陽一

HOME 研究室概要 コラム 周辺探索 メンバー 掲示板 リンク

手書き漢字画像データベースに対する文字切り出しのための2値化法

『平成12年度電気関係学会四国支部連合大会講演論文集(2000)』より

中村陽一

 目次

1. はじめに
2. 文字の切り出しに関する定義
3. 判別分析2値化法
4. 背景領域を除去した判別分析2値化法
5. 解析結果
6. おわりに
7. 謝辞
8. 参考文献

 1. はじめに

 現在一般に使用されている主な2値化手法としては、Pタイル法、モード法、判別分析2値化法等があります。これらの2値化手法は汎用性が高く、多くの画像に対して有効です。しかしながら、特殊な画像(手書き文字等)に関して言えば、その画像の特徴に応じた特殊な2値化手法を適用した場合の方が、一般的な2値化手法を用いるよりも良い2値画像が得られることが多々あります(図.1)。



図.1: 2値化の現状

 そこで本研究では、特殊な画像として手書き漢字画像データベース(IPTPCD-ROM2)を対象とし、その特徴を様々な角度から解析しました。そして、抽出した特徴から手書き漢字を認識する際に妨げになる続け字(本研究においては文字内のものではなく文字間におけるものとします)を前処理の段階で削除するための新たな2値化手法を提案し、通常の判別分析2値化法を用いた場合との比較を行いました。

 また、画像データの概要を図.2に示します。本研究で扱った手書き漢字画像は郵便ハガキがもとになっており、今回は図上の点線で囲まれた宛名町域部分を対象としています。



図.2: 画像データの概要


 2. 文字の切り出しに関する定義

 本研究では文字間における続け字に注目しているため、文字の切り出し位置をあらかじめ知っておく必要があります。そこで今回は、ヘッダー情報内の文字切り出し位置座標を参照しました。なお、実験に使用した全てのファイルの切り出し位置を実際に目で確認したところ、ほぼ妥当な位置でした。

 次に本研究における文字の切り出しに関する定義について述べます。本研究では図.3のようなラインが文字の切り出し位置であった場合、そのライン上に文字領域があるので切り出しは行えなかったものとし、切り出し不可ライン数を1ラインと数え、ライン上に文字領域が2箇所あるので切り出し不可箇所数を2箇所と数えます。また、文字の切り出し位置は直接ヘッダー情報内の切り出し位置座標にするのではなく、文字の上側の切り出しなら上に10ライン、下側の切り出しなら下に10ラインの幅をもたせて最も切り出し不可箇所数が少ないラインを切り出し位置としました。また、入力画像における文字領域と背景領域の区別の仕方としては閾値を濃度値0として判断しました。

 また、入力画像における文字領域と背景領域の区別の仕方としては閾値を濃度値0として判断しました。



図.3: 文字の切り出し位置例

 3. 判別分析2値化法

 判別分析2値化法とは一般的な2値化法の1つであり、図.4に示すように各クラス内の分散が小さく、かつ、各クラス間の分散が大きいところを閾値とする2値化手法のことです。次節でこれを利用した新たな2値化法について説明します。



図.4: 判別分析2値化法

 4. 背景領域を除去した判別分析2値化法

 本研究で扱う手書き漢字画像データベースの主な特徴の一つとしては、背景領域にあたる部分の大きさが約9割近くあり、他と比べてあまりにかけ離れているという点が挙げられます。そのため閾値決定の際に、何らかの妨げになっている恐れがあります。そこで、今回提案する手法である背景領域を除去した判別分析2値化法について図.5を用いて説明します。



図.5: 背景領域を除去した判別分析2値化法

 まず、前処理として濃度値0の画素(主な背景領域にあたる部分)を除いてヒストグラム平坦化による濃度変換を行います。これは、分布の多い濃度値領域を分散させることで、判別分析を行った際にその濃度値領域を少しでも閾値以下にするためです。図.5では一見平坦化が行われていないように見えますが、これはデジタルデータ特有の現象であり、実際は平坦化されています。

 次に濃度変換を行った画像に濃度値0の画素を戻して通常の判別分析を行い閾値 tAB (図中の真中の線)を得ます。そして得られた閾値 tAB 以下の領域にあたる領域Aのみで再び判別分析を行い閾値 tA (図中の左端の破線)を得ます。

 最後に閾値 tA 以上の領域にあたる領域Cで三度判別分析を行い新たな閾値 tC (図中の右端の破線)を得ます。この閾値 tCで2値化するのが今回提案する手法です。

 5. 解析結果

 図.6に図.5のような平坦化後のヒストグラム特徴をもつファイルの入力画像と判別分析、提案法のそれぞれによる処理結果例を示します。図のように判別分析では切り出せなかったものが提案法では切り出せていることが分かります。これは、ヒストグラムを平坦化したことで密集していた高濃度領域が分散し、かつ、背景領域を除去したことで閾値が高くなったためと考えられます。



入力画像


判別分析


提案法

図.6: 処理結果例

 次に、表.1に文字の切り出し方法を手書き漢字画像データに 適用した場合の結果を示します。また、用いたファイル数及び総文字数、総ライン数を以下に示します。

解析に用いたファイル数 : 100
総文字数 : 718
総ライン数 : 1436

 表.1の結果より、切り出し不可ライン・不可箇所ともに判別分析に比べると提案法の方が良好な結果を与えることが分かります。なお、処理した画像を目で確認したところ、全ての画像が文字として認識できるものでした。

表.1: 解析結果

 入力画像判別分析提 案 法
切り出し不可ライン数211159116
切り出し不可箇所数255194140
可能ラインの割合85.31%88.93%91.92%

 6. おわりに

 本研究では、手書き漢字画像データベース内の文字切り出しに最も適していると思われる2値化手法を構築するため、データベースの解析を行い、その特徴を検討しました。そして、その中でも背景領域にあたる部分が全体のおよそ9割という特徴に注目して、新たな2値化手法である背景領域を除去した判別分析2値化法を提案し、文字の切り出しに関して通常の判別分析2値化法と比較して良好な結果を与えることを確かめました。

 今後の課題としては、より多くのファイルに今回提案した手法を適用しその効果を検証したいと思います。

 7. 謝辞

 手書き漢字画像データベース(IPTP CD-ROM2)を御提供いただいた郵政研究所の関係各位に深く感謝します。

 8. 参考文献

長尾 真:"画像認識論" コロナ社 1983年.
森 俊二、坂倉 栂子 共著:"画像認識の基礎[ I ] -前処理と形の特徴抽出-" オーム社 1986年.
小川 英光:"パターン認識・理解の新たな展開 -挑戦すべき課題-" 電子情報通信学会 1994年.

ページの上へ 前の人へ 上のページへ 次の人へ


企画・製作 村上・泉田研究室 HP製作委員会(2001)
ご意見・お問い合わせは、こちら までどうぞ。