ユーザーは説明などの情報の少ない写真をしばしば投稿する。というのは、友達はコンテクストを理解しているはずだから余計な説明は要らないと思うのだ。その結果、Facebookは質の低いデータを受け取ることになるのだが、それを回避するために、Facebookはユーザーにタグなどでラベルを付けてもらったり、その写真がどんな内容なのかを説明するコメントを書いてもらうように誘導する。
このようなラベルや説明文をアノテーションと呼びます。「機械学習アルゴリズムはタグが付いたデータを取り込むことで、パターンを認識できるようになります。そのためAI開発者は、機械学習アルゴリズムを学習させるために、タグが付いた状態のデータを用意することが必須となります。正確にタグ付けできていないデータを取り込んでも、AIは正しく学習できません。そのため、アノテーションは機械学習における、不可欠な前処理とも言えるのです」