在监督学习中,数据成对组成——一个输入项(如图像)和它的标签(如单词“giraffe”)——目标是找到为新的pair生成正确标签的网络参数。
在无监督学习中,数据没有标签;目标是在没有明确指导的情况下发现数据中的统计规律。例如,我们可以想象,有了足够多的长颈鹿和大象的样本,我们可能最终推断出这两类动物的存在,而不需要明确地给它们贴上标签。
最后,在强化学习中,数据被用来驱动行为,这些行为的成功与否是基于一个“奖励”信号来评估的。