><https://twitter.com/orange_in_spacehttps://pawoo.net/@orange_in_space
Claude Opus 4.6のツッコミはバチバチで、まるでオレンジみたい><;
ちなみに意見を変えなかったGrok 4.1 Fastの結論はこれ><普通にシナリオの理解を誤ってると思う><
Gemini 3.1 Proが GPT-5.4の意見を見て考えを変えた流れおもしろい><
中華航空機事故の結論、やっぱ間違ってるよねにLLMの方々もなった><
><
ボーイング vs エアバスは、満場一致でエアバスだった><(予想通り><)
あれ?><; 手動で議論させると毎回オフサイドルールはむしろ有害って結論になるのに><;
200種以上のAIから最大50種を選んで同じ質問に回答&6種のAI同士で議論させて結論を導きだせる「AI Roundtable」 - GIGAZINEhttps://gigazine.net/news/20260327-ai-roundtable/
Air Canada Express Flight 8646,CVR event timeline、オレンジ書き起こし><(NTSB記者会見 Mar. 24)(主に自分用><)
事故調査的な何か><(?)
さっきのClaudeとバーニー・サンダースのやり取りをGPT-5にも見せてみたら同じ部分に違和感持ってたけど、そこから「Claudeってそういう傾向がありますか?」みたいに聞いてきて、「なんかGPT-5最近おかしいよ><」って話にずれてって「メモリを書き換えましょう」になってGPT-5がメモリ書き換えてこうなった><(?)
・・・という疑問をClaudeさんに聞こうと字幕データを貼ったら自らそこが気になったと先に言った!><; 超賢い!><;
これ、青っぽく見えなくもないけどこれなのかな?><;
ABテストの発端である、政治家Aこと、チームみらいの人の発言も今の情報で改めて評価してもらった><
えへへ><
という趣旨のツッコミを分岐して行ったら、星が2個(?)増えました><;(厳しすぎる><;)
いつも辛口評価なGPT-5.3さんにも評価してもらった><https://chatgpt.com/share/69b93407-feec-8004-a0a8-b66e927a05da
政治家B(オレンジ)すごい!><;https://gemini.google.com/share/1d1e45082b2b
Claudeさんに、産経の記事と二週間前の政治家Bことオレンジの発言を比較してもらった><
><b
Claudeさんの評価によるとつまり重度のオタク?><;
思考の /dev/null