少なくとも #RICOH の複合機では #クリアライトPDF と称して、文字の部分と画像(?)の部分とを検出して異解像度・圧縮率で保存する機能はついている (競合他社にも似たような機能はある模様) けど、文字の部分も #JPEG 圧縮してくれちゃっているし、赤とかのボールペンで記入したのも画像扱いされてしまっているし、おまけに白紙帳票の部分を画像で持つのはデータ量の無駄でしょ #PDF
@kitsune 入力内容は黒色ボールペンのみならず、任意の色の蛍光ペン・赤や青のボールペンも考慮されたい (例がなんで婚姻届けなんですか)
@hadsn あとさみしい……かまちょ〜……肌質が終わりだし家から出たくないけどかまってほしい……(
@kitsune OCRの力技ロジックに流し込む前の段階に、文字が書いてあるだろうボックスを検出したりしない?
@hadsn どうなんだろう……する場合もあるかも?たぶん私はしたくなると思う でもOCRはやったことないんだよな〜
@hadsn あー、まあ近いかも……?イマドキのOCRよりは力技感が少ないので私の感覚的には違うけど……