少なくとも #RICOH の複合機では #クリアライトPDF と称して、文字の部分と画像(?)の部分とを検出して異解像度・圧縮率で保存する機能はついている (競合他社にも似たような機能はある模様) けど、文字の部分も #JPEG 圧縮してくれちゃっているし、赤とかのボールペンで記入したのも画像扱いされてしまっているし、おまけに白紙帳票の部分を画像で持つのはデータ量の無駄でしょ #PDF
@kitsune 入力内容は黒色ボールペンのみならず、任意の色の蛍光ペン・赤や青のボールペンも考慮されたい (例がなんで婚姻届けなんですか)
@hadsn なるほどね〜 ならなにかしらのマスクで差分とるよりも切り出しした入力領域の白を透明化するみたいなロジックのがいいのかー…… 実現まで結構複雑なやつだw
@kitsune やってることが帳票OCRの領域なんだよね。キャラクタデータにはしないけど
@hadsn どうなんだろう……する場合もあるかも?たぶん私はしたくなると思う でもOCRはやったことないんだよな〜