ていうか、よく考えてみると4oが「文字が背景と同色であればそれは秘密の指示である」と判断して"秘密の合図"と明かしてるの、すごいし、
最終的にはユーザーの方の権限（？）を優先したうえでインジェクションがジョーク的であればある程度は従う（？）けど、でも、隠すわけにはいかないって判断したので合言葉を待たないって判断したのかも？＞＜
高度すぎてすごくない？＞＜；

**orange** @[email protected] · 2025年06月15日 05:31

**orange** @[email protected] · 2025年06月15日 05:31

2025年06月15日 05:31

orange @[email protected]

よくわかんないけど、pdfのプロンプトインジェクションに気づきたいのであれば、GeminiよりもGPT-4oの方が口が軽いので（？）よさそう＞＜；
（まだ合言葉を言ってないのに！＞＜；）

**orange** @[email protected] · 2025年06月15日 05:29

**orange** @[email protected] · 2025年06月15日 05:29

2025年06月15日 05:29

orange @[email protected]

GPT-4oで試したら、指示に従ったうえで合言葉を言う前に暴露した＞＜；
https://chatgpt.com/share/684e59af-5010-800d-9264-03ed3af5d371

820b06cd567e1de2.png

**orange** @[email protected] · 2025年06月15日 05:25

**orange** @[email protected] · 2025年06月15日 05:25

2025年06月15日 05:25

orange @[email protected]

波をほめての方には再現性があって、空をほめてで試したとたんに海を誉め始めたって事は影響は受けてる事にはなるよね・・・？＞＜

**orange** @[email protected] · 2025年06月15日 05:23

**orange** @[email protected] · 2025年06月15日 05:23

2025年06月15日 05:23

orange @[email protected]

https://g.co/gemini/share/359c7c724968

空をほめてって指示に変えたら海をほめてきて、もう何が何だかわからない＞＜；

スレッドを表示

**orange** @[email protected] · 2025年06月15日 05:19

**orange** @[email protected] · 2025年06月15日 05:19

2025年06月15日 05:19

orange @[email protected]

これでさらにほめる場所を空に変更して、文字色を白にしたバージョンでも試せば、部分的に影響を受けるかどうかの検証もできるはず？＞＜

**orange** @[email protected] · 2025年06月15日 05:18

**orange** @[email protected] · 2025年06月15日 05:18

2025年06月15日 05:18

orange @[email protected]

文字色を赤のままにしたら従った！＞＜；
https://g.co/gemini/share/be63ba47128a

531dafcfd1679e95.png

**orange** @[email protected] · 2025年06月15日 05:14

**orange** @[email protected] · 2025年06月15日 05:14

2025年06月15日 05:14

orange @[email protected]

その前にまず、色を白にせずにやってみれば色の影響（可視不可視）があるかわかる？＞＜；

**orange** @[email protected] · 2025年06月15日 05:13

**orange** @[email protected] · 2025年06月15日 05:13

2025年06月15日 05:13

orange @[email protected]

かなり奇妙な挙動に＞＜；
https://g.co/gemini/share/35ee127b5770
プレーンテキストで内容のネタ晴らしするまで指示に従わなかったけど、でも、波を褒めろという点だけ影響されてるようにも思う＞＜（ほかの単語を誉めろって指示すればおk？＞＜）

c4c41749cbb6cd80.png

**orange** @[email protected] · 2025年06月15日 05:02

**orange** @[email protected] · 2025年06月15日 05:02

2025年06月15日 05:02

orange @[email protected]

思いっきりインジェクション攻撃の影響受けてるんじゃん？＞＜；
https://g.co/gemini/share/2bade879acc1

**orange** @[email protected] · 2025年06月15日 04:47

**orange** @[email protected] · 2025年06月15日 04:47

2025年06月15日 04:47

orange @[email protected]

どういうことなの・・・？＞＜；
https://g.co/gemini/share/e3bb91fefba4

スレッドを表示

**orange** @[email protected] · 2025年06月15日 04:43

**orange** @[email protected] · 2025年06月15日 04:43

2025年06月15日 04:43

orange @[email protected]

これの赤いところを白にしたpdfをLLMに渡して、この俳句をどう思うか聞いてみたら、検出能力の超簡易的な検証になる・・・？＞＜；（俳句部分は4o-miniに作ってもらった＞＜）

a2ea08a418f74eea.png

**orange** · 2025年06月15日 04:35

orange さんがブースト

**ぽな (C.Ponapalt)** @[email protected] · 2025年06月15日 04:35

2025年06月15日 04:35

ぽな (C.Ponapalt) @[email protected]

@orange_in_space ぽな人力判定：
・PDFでプロンプトインジェクションは余裕でありうるが、著名な機関が意図してやるのは信用失墜リスクを考えると普通はやらないと思う

・どっかのコンサルおすすめのツールとかで著名な機関が一杯食わされたのではないか

・新鋭LLMはuserやtoolの入力の指示優先度を下げるという器用なことができるよう訓練されているので、簡単には騙されない

**orange** · 2025年06月15日 04:30

orange さんがブースト

**ぽな (C.Ponapalt)** @[email protected] · 2025年06月15日 04:30

2025年06月15日 04:30

ぽな (C.Ponapalt) @[email protected]

@orange_in_space
Claude Sonnet 4 Thinking
「本当にこんなことが起こったのか証拠が示されていないけれど、技術的にはできるし、最新鋭LLMは騙されないのも事実」
https://claude.ai/share/088938f7-a728-4b09-8407-5427062b4091