本期内容为《走进人工智能》:第4讲 从信息载体到智能燃料:数据的蝶变∣从数据到数治
《走进人工智能》
你好,这里是吴飞的数字专栏《走进人工智能》。上一讲我们介绍了逻辑推理与优化搜索,他们是早期人工智能进行问题求解所采用的主要方法。在专栏的第四讲,我为你准备的内容是“从信息载体到智能燃料:数据的蝶变”。人类文明发展历史离不开“结绳记事”和“有册有典”的信息记录,合理应用数据,使其成为个人生活、社群管理和国家治理的重要手段。在数据密集计算年代,数据从单纯的信息载体变成了人工智能模型的燃料,成为信息时代“新的石油”,使得人类计算迈入数据密集型计算范式时代,完成一次又一次的蝶变。
从数据到数治:战国平籴法和明朝黄册库
在拉丁语中,数据(data)是datum的复数形式,由给予(to give)的拉丁过去分词敢于(dare)派生而来,字面意思是“给予的东西”。作为人类对客观世界进行描述的记录手段,数据扮演了文明记录和信息交流等角色。《周易·系辞》中曾言:“上古结绳而治,后世圣人易之以书契,百官以治,万民以察”。在马克思为摩尔根《古代社会》一书所写的摘要中曾经说明过结绳记事,他记载道:“由紫色和白色贝珠的珠绳组成的珠带上的条条,或由各种色彩的贝珠组成的带子上的条条,其意义在于一定的珠串与一定的事实相联系,从而把各种事件排成系列,并使人准确记忆。这些贝珠条和贝珠带是易洛魁人唯一的文件,但是需要有经过训练的解释者,这些人能够从贝珠带上的珠串和图形中把记在带子上的各种记录解释出来。”在非洲的斯威士兰发现的列彭波骨(Lebombo Bone)和在刚果发现的伊尚戈骨(Ishango Bone)是迄今为止所知最早的计数工具,距今已有上万年的历史了。我们的祖先在这些兽骨上面用一道道刻痕记录着不同的数字,以帮助计算,因此历史学家一般把它们作为算术起源的证据。
既然数据是记录个体生活、社区交往以及国家运行等过程的载体,数据也就慢慢成为国家治理基础。商鞅曾说“欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”,其明确提出要治理好一个国家需要知晓十三数,包括粮仓和府库的数目、成年男女数目、老弱人士数目、官吏数目、商人的数目以及马牛和草料数目等。同时,古人开始对所记载信息的数据进行分析处理,挖掘信息中蕴含的巨大价值。将数据分组是中国古代利用数据而产生价值的一种有效手段。零散数据被分组之后变得有条理,更易透彻了解数据所蕴含的价值。“观其所聚,则天地万物之情可知矣(《周易·泽地萃》)”。如战国时期魏国宰相李悝将农民种地的好年成分为上、中、下三等,坏年成也分为上、中、下三等。在丰收年,国家按照丰收的程度以不同力度收购多余的粮食;而在歉收年则按歉收的程度,国家以不同力度平价卖出粮食,这种防止“谷贱伤农,谷贵伤民”的“平籴法”是古代人们利用数据来有效治理国家的手段。
洪武十四年(1381年),朱元璋将记录着乡贯、姓名、年龄、丁口、田宅、资产的黄册堆放于南京玄武湖这一禁地,至明朝灭亡时,堆放于玄武湖的黄册已达到了百万之册,在没有电脑的时代,所建立的国家数据库达到了“收税有据,束民有方”的目的。
产品名称:走进人工智能∣有声通识十五讲
主理人:吴飞
出品机构:高等教育出版社 、高等教育电子音像出版社
合作机构:浙江大学上海高等研究院、上海人工智能实验室智能教育中心
出品时间:2022年1月