言語モデルは単語の確率分布です。
マルコフ連鎖と呼ばれる言語モデルを使用して、ドナルド トランプのスタイルでツイートを生成するボットを作成しました。
ランダムな間隔で、ボットは最新の 200 のツイートを取得し、それらのツイートで発生した単語の連続したペアの頻度を集計し、集計された頻度を重みとして使用してそれらのペアからサンプリングします。
スクリプトは計算された確率で前の単語から次の単語をサンプリングしてツイートを生成します。
結果は予想通りナンセンスでしたが、多くの場合、典型的なトランプのツイートの本質の一部を間違いなく捉えていました。
私のボットは、トランプのツイートのように聞こえるツイートを生成しようとはしていません。前の単語とトレーニング データを考慮して、最も可能性の高い次の単語を見つけようとしているだけです。