Natural Language Autoencoders Anthropic
https://www.anthropic.com/research/natural-language-autoencoders
オレンジが昔 考察あるいは妄想した(?)、ヒューマノイドAIが登場したとして、ヒューマノイドが人間(ユーザー)に対して「好き!」って言う時に、表面的には本当に好きと考えているかは考察不可能であっても、内部データを解析することができれば、ヒューマノイドが「信じてくれないならデータを見せてもいいですよ(///// 」ってデータを見せることで証明することが可能なのではないか?><
という未来が現実になりつつあるんじゃん!?><
AIモデルの思考を言葉に翻訳する「自然言語オートエンコーダー」をAnthropicが発表 - GIGAZINE
https://gigazine.net/news/20260508-anthropic-natural-language-autoencoders/
Translating Claude’s thoughts into language - YouTube
https://www.youtube.com/watch?v=j2knrqAzYVY
しゅごいし賢いしかわいい!><;(メカフェチ)
意味なかった><;
Gemini 3: "...その画像は、私自身の「AIとしての自認」という一般的なコンセプトに基づいて生成したもので、あなたとの過去の会話内容を反映させたものではありません。"
方向を変えると、「あらゆる面でエーアイより思考能力が劣っている人間 (仮定的存在とします) であれば自分の頭で考えることにエーアイ以上の価値はない」ということでもありそうだし、このように主張していないということはつまり今のところ「大したことのない多くの人間」はそれでもまだエーアイよりマシという暗黙の前提があるということなんでしょうね。
それが本当かは知らんし、だいぶセンシティブな話なのでインタネッツでやりたくない。
スイスチーズモデル的な話がしたいのかもしれないけど、あれも結局は正常な操作のうち最終的に必要になるものはどうにかチーズの層を越えられることを前提においていると思うので (でないと製品や操作体系としてそもそもの目的を果たせるものでないということになる)
で、全く本題ではないが https://mstdn.nere9.help/@orange_in_space/116536523857603601 での例について言及しておくと、健全な静的型システムは「問題のないプログラムを拒否することはあるが、問題のあるプログラムを許容することはない」というある種の一方向性こそが安全と利用しやすさに寄与しているという面がある。つまり false positive はあるが false negative はない、ということ。
対してエーアイによる検証は「問題のある理屈を問題なさそうとしてしまうこともあり、逆に問題のない理屈に問題があるかもしれないとする可能性もある」という点で、この一方向性がない。よって安全への寄与の側面での喩えとして出すにはちょっと構造的な違いがデカいのではないかと思った