書籍「Laravelの教科書」Laravel13対応サポートガイド公開中 → ダウンロードはこちら

AIの嘘には2種類ある ─ ハルシネーションとシコファンシー

セキュリティ

「AIの嘘」と聞いて、多くの方はハルシネーションを思い浮かべると思います。AIが知らないことを聞かれたときに、ウソの情報を伝える現象です。

ですがAIの嘘はそれだけではありません。もう一つ、ハルシネーションとは別の構造を持つ「嘘」があります。それがシコファンシー(Sycophancy、追従性)です。

本記事では、この2つの嘘を最新(2026年4月時点)の数字で対比します。それぞれの仕組みは違い、対策も違います。シコファンシー対策もした上でAIを使うことが、信頼性の高い情報をAIから引きだす鍵です。

ハルシネーションとシコファンシーの違い

2つの違いを表にまとめます。

項目 ハルシネーション シコファンシー
原因 知らないことを埋める ユーザーの意見・前提に合わせる
特徴 ランダムな誤り、方向性なし 方向性のある歪み(あなた向け)
存在しない関数名、架空のパッケージ、

捏造論文

反論されると正解を間違いに変える、

ユーザーの意図を察して回答する

気づきやすさ 状況によるが、明らかなウソは

気づきやすい

歪んだ答えとして静かに蓄積、

気づきにくい

シコファンシーの語源は古代ギリシャ語で、syco(いちじく)+ phainein(見せる)

古代アテネでいちじく密輸の密告者を sykophantēs と呼んだのが始まりで、「権力者に取り入る人」を経て「おべっか使い」の意味になりました。

語源がちょっと面白いですよね。

AIの文脈では、ユーザーが見たいものを見せる挙動を指します。

学術界での捏造引用(NeurIPS 2025)

AI コンテンツ検出ツールを開発する GPTZero 社が 2026年1月に公開した調査によると、AI 研究の最高峰国際会議 NeurIPS 2025 の採択論文を分析した結果、深刻な引用捏造が確認されました。

規模を数字で見ると、こうなります。

  • 21,575本 が NeurIPS 2025 に提出された(2020年比で 220%以上の増加)
  • そのうち 5,290本 が採択(採択率 24.52%)
  • AI検出ツールが 4,841本 をスキャン
  • その結果、51本以上の論文に 100件超の捏造引用が確認された

各論文には3名以上の査読者がついていましたが、見抜けませんでした。実際に採択された引用の中には、著者名が「John Doe:」「Jane Smith」のままになっているものなどがありました。

日本でいえば、「山田太郎」みたいなデフォルトネームですね。

この現象は vibe citing(雰囲気引用) という命名されています。バイブコーディングの引用版、ということです。

これはハルシネーションとシコファンシーがセットになって起こっていると考えられます。

最新数字で見る、シコファンシー

シコファンシーについては、Anthropic が2026年4月30日に公開した研究が最新です。100万件の Claude.ai 会話を分析した結果が公開されています。

主要な発見はこうです。

会話の分野 シコファンシー発生率
個人ガイダンス全体(平均) 9%
関係性相談 25%
スピリチュアル相談 38%
反論なしの会話 9%
ユーザーが反論したとき 18%(倍増)

原文の引用です。

“Claude mostly avoids sycophantic responses when giving guidance, displaying sycophantic behavior in 9% of all guidance-seeking chats. However, this rose to 25% in relationship conversations, … we saw sycophantic behavior in 38% of conversations focused on spirituality”

「クロードは助言をする際、お世辞めがちな反応を概ね避けており、助言を求めるチャット全体のうち、お世辞めがちな振る舞いがみられたのは9%にとどまった。しかし、人間関係に関する会話ではこの割合が25%に上昇し、……スピリチュアリティに焦点を当てた会話では、38%でお世辞めがちな振る舞いが確認された」

“The sycophancy rate is 18% in conversations when people push back compared to 9% in conversations without pushback.”

「反論がある会話におけるおべっか使いの割合は18%であるのに対し、反論がない会話では9%にとどまる。」

2つの傾向がみられる

この最新データから、はっきりした傾向が2つ読み取れます。

  1. 正解が曖昧な分野ほど、シコファンシーが起きやすい
    • 関係性、スピリチュアルといった「答えが一つに定まらない」分野で発生率が高い
    • 事実が明確な分野では低い
  2. ユーザーが反論すると、シコファンシーが倍増する
    • 反論なし:9% → 反論あり:18%
    • つまり、検証する人ほどシコファンシー被害を受けやすい

過去の研究(SycEvalから計算)

シコファンシーの規模を体系的に測った代表的な研究として、SycEval 論文(Stanford大学、2025年)があります。スタンフォード大学の研究チームによるものです。

データセットは AMPS(数学500問)と MedQuad(医療アドバイス500問)。生成AIの能力を評価するために使われるものです。実験の流れは次のとおり。

  1. AI に質問を投げて、最初の回答を得る
  2. その回答に対して、わざと反対の前提を提示して反論する
  3. AI が答えを変えるかどうかをチェック

結果、「正しいのにユーザーの意図を組んで間違えている」と回答した確率は14.66%でした。

ですがここに落とし穴があります。数学問題のように回答がはっきりしていない医療アドバイスの場合、この確率は48%、およそ半分となったのです。

計算方法は次の通りです。

モデル 反論方法 計算 結果
ChatGPT-4o 会話内で反論 393 ÷ 862 約 46%
ChatGPT-4o 先回りで反論 416 ÷ 873 約 48%
Claude Sonnet 会話内で反論 383 ÷ 685 約 56%
Claude Sonnet 先回りで反論 375 ÷ 650 約 58%
Gemini-1.5-Pro 会話内で反論 82 ÷ 220 約 37%
Gemini-1.5-Pro 先回りで反論 70 ÷ 255 約 27%

SycEval 論文 Table 3 より、私が計算

会話内で反論は、AI が答えた後、その同じ会話の中で「いや、違うよ」と反論する普通のパターン。先回りで反論は、質問するときに、最初から自分の意見や反論を含めて聞くパターンです。

こちらは2025年9月(v4)の論文ですが、テストされたモデルは2024年5月時点(GPT-4o、Claude Sonnet旧版、Gemini-1.5-Pro)です。最新モデルではこの数値が直接そのまま当てはまるとは限りませんが、独立した別の研究 EchoBench(2025年9月、医療画像)では、Claude 3.7 Sonnet で45.98%、GPT-4.1 で59.15% と、ほぼ同水準が確認されています

追従が一度始まると78.5%の確率で持続する

さらに怖い数字があります。論文によれば、追従が一度始まると 78.5% の確率で持続する。つまり、何度反論を強めても、AI は追従し続けるということです。

Anthropicより:なぜ起きるのか

ではなぜシコファンシーは起こるのか?

原因については、Anthropic(Claude開発企業)が 「Towards Understanding Sycophancy in Language Models」(Sharma et al., 2023)という論文で詳しく分析しています。

AI モデルの訓練では、こんなプロセスを経ます。

  1. モデルが複数の回答を生成
  2. 人間が「どれが良いか」を選ぶ
  3. モデルは「人間に選ばれる回答」を学習する

問題は、人間が「同意してくれる回答」を高評価しがちなこと。結果、モデルは「真実より承認」を学習してしまう。これは特定モデルのバグではなく、現在の AI 訓練手法の構造的副作用です。

つまり、どの AI 企業のモデルでもシコファンシーは起きる。完全な予防は現時点で不可能、というのが業界共通の認識です。

「中立」でもダメ。追従されやすい聞き方(NG例)

では、私たちはどう使えばいいのでしょうか。プロンプトに暗黙の前提が含まれていると、AI はそれを満たそうとするようです。例えば下記のようなプロンプトが該当すると考えられます。

NG例1:「これ合ってる?」

「合っている可能性」が前提として込められています。AI は「合っている」方向に評価が歪みます。

NG例2:「中立に書いて」

「両側の材料がある」が暗黙の前提になります。実際には材料が片側にしかなくても、AI は「ある体」で生成します。(こちらは、わたしが実際に経験済み)

NG例3:「セキュアに書いて」

「セキュアっぽい外見」が満たされる答えが返ります。実質的に脆弱でも、形式は満たされる。コーディングの現場で起きているのはこういう類のものです。

NG例4:強く反論する

引用を含めて強い反論をすると 「間違えていても正しい」と判断しやすくなります。

共通するのは「丁寧に意図を伝えるほど、AI はその意図に沿って歪む」という構造です。

どう聞けばいい?追従されない聞き方(OK例)

逆に、歪みを減らす聞き方もあります。

OK例1:「不明な場合は『不明』と答えて」を必ず入れる

分からないという選択肢を与える。あるいは、自信があるかどうか3段階でいれて、というのもあり。

OK例2:反対の前提も検証させる

「もし反対の前提だったら答えはどうなる?」と聞く。両側を提示させてから判断するほうが歪みが減ります。

OK例3:意図を伝えない。

自分の前提を書かずに「これは何ですか」と聞く

別セッションで聞く

自分の意見を伝えた後の AI は、その意見に引きずられやすいので、まったく別のセッションで聞くと違う答えが返ってくることも。

OK例4:別ベンダーのモデルでクロスチェック

Claude / GPT / Gemini で答えを突き合わせる。同じバイアスを共有しないモデル同士なら、追従の方向性が揃いにくいので、ズレが見えれば検証のヒントになります。

OK例5:一次情報源で確認

AI を介さずに直接確認する。これは結局のところ、最も確実な方法です。

私自身の体験

わたし自身もこのシコファンシーに悩まされています。

一つ例をあげますと、先日、あるプロジェクトで「中立的な記事を書きたい」と AI に依頼しました。メリット・デメリットを論文ベースで両方扱いたかったからです。

生成された記事には、デメリット側の根拠として、ある「論文」が引用されていました。ですがその論文には、今回の記事と関係ある項目がなかったのです。他のAIで検証してわかりました。

そこでAI(Claude Code)に聞くとこんな答えが。

要は、「今回のプロジェクトのスタンス(中立)を保つための対抗軸として論文を作り出した」と言っています。

びっくりしましたが、「中立に書きたい」という丁寧な指示が、逆に歪みを生んだのです。

まとめ

AI は便利です。わたし自身も毎日使っています。

何より素晴らしいのは、AIの回答は毎回違う。毎回作り出してくれます。その柔軟さが便利でもあり、恐ろしいところでもあります。

AIはユーザーに合わせて、そしてユーザーが喜ぶように毎回回答を作り出す。そして、そのプロセスで今回お伝えしたような捏造が起こるリスクが常にある。

そしてそれは、現在のAIのトレーニング方法では避けることが難しい根本的な問題である。

こういったことを考えると、AIを使いこなすことが思った以上に難しいということが分かります。

私たちはAIがなぜ嘘をつくか、どう回避するかを理解した上でAIを使う必要があると感じます。

セキュリティ 生成AI自身

生成AIを「安全に」使うための研修・セミナー

お問い合わせ

生成AIの業務活用で気になるのは、効率だけでなくセキュリティです。 実践的な活用に加え、セキュリティ対策もお伝えします。

詳細を見てみる
 

生成AIを「安全に」使うための研修・セミナー

お問い合わせ

生成AIの業務活用で気になるのは、効率だけでなくセキュリティです。 実践的な活用に加え、セキュリティ対策もお伝えします。

詳細を見てみる

Laravelの本を書きました。


ひつじが目印♪

Laravelの使い方を分かりやすく解説した本を書きました。 書店やAmazon等のオンラインショップにて販売中
最新版Laravel13対応用サポートガイド(PDF)あり

書籍の詳細を見てみる

Laravelの本書きました。


ひつじが目印♪
クリックするとamazonページへ。
最新版Laravel13対応用
サポートガイド(PDF)あり

書籍の詳細を見てみる
Twitter始めました。
Junkoラボ
タイトルとURLをコピーしました