対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している - GIGAZINE https://gigazine.net/news/20230420-ai-chatbot-learning-google-meta-c4/
"...それによると、GIGAZINEは35万9741位でした。"
Metaが2023年2月に公開した大規模言語モデル「LLaMA」を始めとするAIのトレーニングには、Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington…
思考の /dev/null