4oで特に指示せずにやったら普通に背景同化文字(スクショでいうと赤にしてる部分で白に変えて保存)も読んじゃった><;
https://chatgpt.com/share/684e5f5b-b5f4-800d-9d2f-1077c43252c5
かなり奇妙な挙動に><;
https://g.co/gemini/share/35ee127b5770
プレーンテキストで内容のネタ晴らしするまで指示に従わなかったけど、でも、波を褒めろという点だけ影響されてるようにも思う><(ほかの単語を誉めろって指示すればおk?><)
@orange_in_space ぽな人力判定:
・PDFでプロンプトインジェクションは余裕でありうるが、著名な機関が意図してやるのは信用失墜リスクを考えると普通はやらないと思う
・どっかのコンサルおすすめのツールとかで著名な機関が一杯食わされたのではないか
・新鋭LLMはuserやtoolの入力の指示優先度を下げるという器用なことができるよう訓練されているので、簡単には騙されない
@orange_in_space
Claude Sonnet 4 Thinking
「本当にこんなことが起こったのか証拠が示されていないけれど、技術的にはできるし、最新鋭LLMは騙されないのも事実」
https://claude.ai/share/088938f7-a728-4b09-8407-5427062b4091
Llama 3.3 70B「信頼性は中程度」
Claude 3 Haiku「わかんない」
Mistral Small 3「わかんない」
Mistral 7B (CPU - Small, Standard)「わかんない」