LLMは、ある言葉に対して、最も筋の通る次の一連の言葉を見つける作業をしている。そのアウトプットは、ユーザーにとってつじつまが合っている必要がある。GPT-4のような最近のLLMの驚くべき点は、自分が何を言っているのかを知らないまま、つじつまを合わせられることだ。LLMは自分のアウトプットを理解していない。言葉の意味を把握していない。次に来る言葉を予測することに、驚くほど優れているのだ(完璧からは程遠いが)。
つまり、なぜXを推奨したのかLLMに説明を求めても、実際にはXを推奨した理由を説明してくれるのではない。その時点までに生み出された対話に対して、つじつまが合うとLLMが「考える」次の言葉を予測するのである。理由に関するアウトプットを提供するわけではないため、Xを推奨した理由を明確に示すことはない。
LLMは熟考も判断もしない。次に来る言葉の確率を予測するだけだ。そのアウトプットは理由ではなく確率に基づいているため、Xを推奨した理由を提示することはできない。むしろ、LLMは理由を捏造する。疑うことを知らないユーザーにとっては、それは純粋にアウトプットの裏にある根拠のように見える。