よくわかんないけど、pdfのほう(2020年以降?)は中身がCSV(TSV)並みのシンプルな内容っぽいので、そこらのpdfを扱うライブラリでプレーンテキストとして取り出せばあとは楽そうな気が><
思考の /dev/null