生成AI(ChatGPT、Geminiなど)が、まるで人間のように自然で滑らかな文章を綴るようになった現代。皆さんは、AIの頭脳の中で「言葉」がどのような姿をして存在しているか、想像したことはありますか?今回は、AIの仕組みの裏側を解き明かしながら、私たちが普段何気なく使っている「言葉」の持つ、意外な秘密について考えてみたいと思います。
こちらは2025年12月末に制作した動画の解説ですが、どうも2006年あたりから、特にGeminiにおいてアカウント固有の記憶領域というものがあるようで、近年は入力した情報が反映されるようになりました。動画では、チャット時の記録は残らないという表現をしていますが、どうやらチャットの内容もGeminiにおいては過去の全てのチャットを参照しているようです。
Contents
AIはどうやって文章を作っているの?
皆さん、普段から生成AIを使われていると思うんですが、AIがどうやって文章を作っているか、ご存知ですか?少し前まで主流だったのはマルコフ連鎖という方式に代表されるような単語の連なりを確率的に選ばれ方法生成さてていました。例えば「私」という単語の次に「は」が来る確率が30%、というようなタイピング中に表示されるよく使う言葉リストからサイコロを振って選ぶようなやり方で文章を生成していました。当然、まともな会話なんてとてもじゃないけどできませんでした。ところが、今主流のトランスフォーマー(Transformer)という方式は、全然違います。過去の連続する言葉をつなぐだけでなく、AIが地球上にある膨大な文章を丸ごと学習して、単語同士の深い関係性そのものを理解してしまおうという方式に変わったんです。これが今のAIの飛躍的な進化の正体です。
「トークン」と言葉の宇宙
このトランスフォーマーでは、文章を「トークン」という最小単位に分割して処理しています。日本語であれば「私/は/リンゴ/が/好き/です」といった具合です。そしてAIは、このトークンの意味を辞書で覚えるのではなく、何千何万もの数字の羅列ベクトルつまり方向性や距離に変換して理解しています。これを空間としてイメージしてみましょう。AIの頭脳の中には、私たちの3次元空間を遥かに超えた「数万次元の宇宙」が広がっていて、すべてのトークンがそこに「星」のように配置されているとイメージしてみてください。よく一緒に使われる言葉や、文脈が似ている言葉(たとえば「リンゴ」と「バナナ」)は、この宇宙の中で近くに配置されます。一方で「リンゴ」は「重力」「ニュートン」とも近かったりする。でも「バナナ」と「ニュートン」は遠い、みたいな。こうしたトークン同士の関係性は、距離として計測することができるんです。この単語のかたまりのことをコーパスと呼びます。AIが文章を生成するとき、これはまるでAIが蜘蛛となって、トークン同士の距離に沿って星座もしくは「蜘蛛の巣」を張っていくようなイメージです。
「蜘蛛の巣」の形が、独創性を決める

ここで少し、論文を書く場面を想像してみてください。「これは新しいテーマだ!」と思って書き始めたら、実はもう同じような論文がたくさんあった、という経験はありませんか?これ、実はキーワードやテーマを決めた時点で、蜘蛛の巣の形がほぼ決まってしまっているんです。よく使われる単語同士は宇宙の中で近くにあるため、似たようなコーパスの形になりやすく、結果として「よくある話」に収束してしまう。つまり、面白い・独創的というのは、コーパスの距離が「遠い」ものを結びつけているということなんですね。ただし遠いだけではダメで、それを結びつけた時に「説得力がある」場合に初めて、面白いと感じられる。だから書き始める前のテーマ設定の段階で、コーパスの距離や形を意識できるといえます。ですから総論の時点でキーワードを出しあらかじめ掘り進めるべき領域を測定してしまうことが可能です。
デコーダーとエンコーダーChatGPTが苦手なこと
少し技術的な話になりますが、トランスフォーマーには大きく2つの機能があります。エンコーダーの役割は、入力されたデータを機械が処理できる形式(数値のベクトル)に変換すること。一方デコーダーは、そのエンコーダーが変換したデータを受け取り、処理内容に応じて別の形式へと変換する——つまり、文章として出力する役割を担っています。
Transformer(トランスフォーマー)とは?深層学習の仕組みや特徴・応用モデルをわかりやすく解説
もっとシンプルに言うと、エンコーダーは「文章を読んで、その中の大事なポイントを見つける」役割で、デコーダーはそれをもとに言葉として出力する役割と思ってもらうといいですね。
Transformerとは?何がすごい?仕組み、特徴、ChatGPTのベースにもなったディープラーニングモデルを詳しく解説
そして、ChatGPTのような生成AIは、この2つのうちデコーダーに全力を注いだモデルなんです。言葉をなめらかに生成するのはとても得意なんですが、入力を深く解釈する、つまり「考える」という行為はあまり得意ではありません。エンコーダーのみを使うアーキテクチャは「入力系列の表現学習」、デコーダーのみを使うアーキテクチャは言語モデルなどの生成タスク向け
AI におけるトランスフォーマー モデルとその仕組みについて
という使い分けがされていて、大学などの研究分野では、このエンコーダー側をどう工夫するかが重要な課題になっています。複雑な文字列や概念をどう解釈するか——そこにエンコーダーの真価があるからです。エンコーダーの中にある「セルフアテンション層」は、文中の各単語が他の単語とどの程度関連しているかを評価する仕組みで、例えば文の中の「彼」が誰を指しているのかを、他の単語との関係から理解します。
トランスフォーマー(Transformer)とは?生成AIの進化を支える深層学習モデルを解説
これがまさに「深く解釈する」という行為なんですよね。ところが、ChatGPTたちはデコーダー全振りなので、このあたりの解釈はあまり得意じゃない。「言葉を出力する」のは圧倒的に上手いんですが、「意味を深く読み取る」となると、まだ課題が残っているんです。そして今お話しした「蜘蛛の巣の形を決める(コーパスの構造を設計する)」という作業は、エンコーダーの話です。ChatGPTへの問いかけ(デコーダー頼り)だけでは、そもそも蜘蛛の巣の形を設計することはできない——ここが、多くの人が見落としているポイントなんです。
蜘蛛の巣に「餌(物語)」を引っかけるのは人間の仕事
さて、ここが一番大事なところです。仮に、エンコーダーを使って、うまく「蜘蛛の巣(コーパスの構造)」を設計できたとします。それでも、まだ足りないんです。蜘蛛の巣は、餌が引っかかって初めて意味を持ちますよね。言葉の宇宙でいえば、その蜘蛛の巣に「物語」が引っかかってきて初めて、人間にとって意味のあるものになる。その「引っかかってくるもの(物語)」をどう立ち上げるか——これは、読むのが人間である以上、人間が考えるしかない仕事なんです。AIに「いいキーワードを選んだね」「いい蜘蛛の巣ができたね」と言ってもらっても、餌がなければ蜘蛛の巣に意味はない。
どんな物語が読んだ際に立ち上がってくるのか、どんな感覚や体験を読者に届けるかは、あなた自身が考えるところです。
おわりに:AIは「考える道具」ではなく「考えるための足場」
「AIを使うことで、考えなくてよくなった」と思っている方も多いかもしれませんが、実はそうではありません。AIは、考えるための「足場(プラットフォーム)」を選べるようになったツールだと思ってください。蜘蛛の巣を設計するための地図を広げてくれる、そういう存在です。夜空の星を結びつけて、人を感動させる「星座」を描き出すのは、今も昔も、言葉を紡ぐ人間自身の感性と想像力です。AIという巨大な知性が、人類の言葉から精巧な「意味の宇宙」を紡ぎ出した今だからこそ、どんな物語をその巣に引っかけるか——そこに、あなた自身の価値が宿ると思います。
答えではありませんが、筆者が考えるいわゆる生成文法的な思考方法とは異なる人間独特のイメージ思考方法を映像として作品化したものがありますので見てください。
この映像作品は、三つの思考方法を表現しています。一つ目は「文字の連なりという思考」、二つ目は「イメージの積み重ね」、そして三つ目は「イメージが変化していく」過程です。
直感的思考方法としては、ダニエル・デネットのような人物が知られていますが、私が表現しようとしているものは、それとはやや異なると自分では思っています。
現在のAIの処理に似ている部分もあれば、根本的に違う部分もあります。
映像の前半部分では、対話を重ねるうちに記号が変化していく様子を描いています。後半はその影の部分の表現です。別々のイメージはつながっているわけではなく、真っ暗な闇に何かを投げ込むように、そこで刺さったものを拾い上げていく――そうしたイメージ思考を表しています。
別の次元に対して矢を放つような、この思考方法は、AIの思考に似たところもありまがコンピューターは決められた範囲内でしか想像できませんが、人間の場合はわずかな手がかりの中でも多次元の飛躍が可能です。
将棋の藤井聡太もそうですが、オリジナルのAIをカスタムAIと組み合わせて訓練することで、これまで人間が思考してきた範囲を上回る思考領域を開拓する、あるいはそのプラットフォームをAIに構築してもらうというのは、これからあちこちで一般化していく思考方法ではないかと思います。その際に、マップの生成と直感的飛躍の組み合わせをがこれからの思考方法の重要な手法になるように思います。