チャットGPTとその先行モデルは、「人間のフィードバックからの強化学習」(RLHF)と呼ばれる手法で訓練されている。
「これがチャットGPTの成功の秘訣です。何でも好きなことを吐き出す傾向を持つ大規模言語モデルに、どのような回答が実際に人間のユーザーに好まれるのかを教えることでチューニングをする、というのが基本的なアイデアです」
34,000本の雑学記事からランダム表示
チャットGPTとその先行モデルは、「人間のフィードバックからの強化学習」(RLHF)と呼ばれる手法で訓練されている。
「これがチャットGPTの成功の秘訣です。何でも好きなことを吐き出す傾向を持つ大規模言語モデルに、どのような回答が実際に人間のユーザーに好まれるのかを教えることでチューニングをする、というのが基本的なアイデアです」