少なくとも #RICOH の複合機では #クリアライトPDF と称して、文字の部分と画像(?)の部分とを検出して異解像度・圧縮率で保存する機能はついている (競合他社にも似たような機能はある模様) けど、文字の部分も #JPEG 圧縮してくれちゃっているし、赤とかのボールペンで記入したのも画像扱いされてしまっているし、おまけに白紙帳票の部分を画像で持つのはデータ量の無駄でしょ #PDF
@hadsn たぶん マスク作る→マスクから輪郭抽出してポリゴン化→入力領域に該当するポリゴンを設定(ある程度半自動で判別はできるはず)→マスクの全体ポリゴンから記載済みの書類との特徴量マッチングして対応付→対応付した領域から入力領域に該当するポリゴンの部位のみ抜き出し→抜き出した画像から白を色抜き処理→得られた色抜き画像を入力領域ポリゴンにフィットするように変形してレイヤー生成 みたいな流れかな〜!複雑!!
@kitsune まあ一番簡単にできそうなのは、地色検出とその地色の部分は画像で符号化しないってところですかね?
@hadsn あー、まあそれもありかも……???あとなんかさみしくて頭がぼんやりしてきた……くっつきたい……
@hadsn ノイズとか回転とかサイズの拡大縮小は解決するアルゴリズムあるけど、色ペンが一番たいへんかも…… あ、例が婚姻届なのは……言わせんな恥ずかしい♡ってやつです、えへへ