大数据建模
郭朝晖 | 文
数据与机理
融合
算法
开 篇
原文自公众号【蝈蝈创新随笔】,已获郭老师授权, [遇见数学]特此感谢支持!
郭朝晖
郭朝晖博士,教授级高工,宝钢中央研究院首席研究员。曾担任中国工业与应用数学学会常务理事、副理事长。
今天中午,两位曾在宝钢工作过的年轻朋友约我喝茶,谈起工业大数据建模问题。期间我谈到一个体会:领域专家往往鄙视数据模型,而数据分析师则以为只要有了数据就可以解决问题、不愿意花功夫了解机理。
我认为:工业数据建模的真正出路是数据与机理的融合:机理主要解决的是定性的问题,而数据是要解决定量的问题,两者无法相互代替。没有机理,难以判断模型的对错、适用范围的大小、模型的可靠性不会太高;没有数据,我们难以给出定量的结果。直接从机理出发的建模,不适合复杂的模型:因为数据不足以保证模型的准确和可靠性。
然而,关键的问题是如何融合起来。
我见过很多人有这样的思考习惯:谈机理的时候用的是领域的术语、谈数据分析时用的是数据分析的术语——两种知识在同一个人的脑子里都融合不起来,又怎么能在建模过程中融合起来?
我的经验是:要进行这种融合,首先是学会用数学的语言,描述对机理的定性认识。比如,在材料学领域,人们强调多种强化机制的时候,往往意味着强化机制是“可加的”;析出物长大意味着其强化作用是“非线性的”;析出物的互溶意味着两者的强化作用“不可加”。工艺能够影响析出,意味工艺和成分有“交互作用”。两种元素形成化合物时,各自线性回归的系数含义是不一样的:过剩一种反映的是该元素自身的作用,而不足的一种反映的是化合物的作用......这样,就把对机理的认识,转化成数学的语言。把两类知识在人的脑子里融合起来,并在建模的过程中体现出来。这样,就自然而然地体现了融合。
然而,有的人认为:复杂的机理模型是“高大上的”;另一些人则认为:复杂的算法才是“高大上的”。他们在各自的领域内,都可以称为权威人士,很有发言权。但在我看来,能够把复杂问题拆分成若干简单的问题,让机理和数据分析融合起来,才是“高大上的”。
(完)
「予人玫瑰, 手留余香」
转发既是支持和帮助, 感谢感谢!