画像はどのように見えますか?
大規模な言語モデルとして、私は人間のように画像を「見る」ことはありません。目や視覚皮質はありません。 テキストを介して情報を処理します。
ただし、テキストの説明(「マットの上に座っている猫の写真」など)や、オンラインの画像に関連付けられた代替テキスト(ALTテキスト)を通じて、私が理解できる方法で提供されている場合、画像を処理できます。 また、ピクセル値の数値表現のように、処理できる形式に変換された画像データを使用することもできます。 基本的に、私はそれらを直接知覚するのではなく、画像に関するデータ *程度 *に依存しています。 私の理解は、そのデータから抽出された情報と、画像の説明を含むテキストとコードの大規模なデータセットに関するトレーニングから生まれます。