“聚沙成塔”——用大数据思维理解生命的复杂体系,数据之眼看显微镜下的复杂生命【数据故事计划二等奖】

2019 年 6 月 9 日 数据派THU


摘要:细听学长学姐讲故事,或许在他们的路上也有你的身影!


【第一届数据故事计划】


“数据故事计划”旨在收集各类有关大数据的故事然后进行比赛及相关的宣传和推广。包括同学们接触大数据、使用大数据、最终取得成果的过程,主要内容为大数据在各类行业的应用以及个人感悟。希望以此活动使得更多同学认识大数据,学会利用大数据解决问题,最终实现向“数据ers”的转变。

 


人物介绍



赵瀚森,本数据故事团队队长,喜欢用计算和模拟的角度考虑科学问题的博士生。虽然还在科研的道路上艰苦磨砺,但已经开始从思考和尝试中体会到了探索的乐趣。希望能通过检测数据和模拟计算帮助人们理解和预测复杂的生命现象。


故事介绍


1. “不务正业”的理学生


本科阶段的我就是一个有些特别的学生。由于有高中化学竞赛的底子,所以在专业课学习上比较轻松。因此,很多的业余时间都被我投入到了各种不同的活动和兴趣爱好中。当时最为痴迷的事情莫过于游戏开发了。游戏开发最吸引我的地方在于它绝佳的自由度,只要你的技术足够好,就能在计算机里面创造和分享你心目中的世界。因此,游戏开发不仅仅是我的一项爱好,也将成为我与世界交流的桥梁。为了做好游戏开发,我学过很多技术,包括建模/动画,视频/音频剪辑等等,但最终最吸引我的还是编程,理由同样是编码极高的自由度。


大三暑假我接受清华大学化学系学堂班的资助,赴美国普渡大学程继新组交流。这成为我学习生涯的重要转折点。程继新组在光学仪器搭建,受激拉曼光谱及分子生物学研究等领域具有很高的水平。


美丽的普渡大学


我参与了其中原位环境单细菌的检测分析的项目。彼时项目面临的主要问题是单个细菌在原生环境(如食物)中背景过大。实验室主攻数据处理方面的Liao实现了相位检索算法,成功的消除了背景干扰(W. Hong. ChemistrySelect,2016)。当时的我非常崇拜这位大神,也对编码进行数据分析产生了浓厚的兴趣。


2. 一场美妙的纳米之旅


读研究生的第一年,我并没有找到自身兴趣与研究工作的契合点。常常感到迷茫和无助,甚至产生了厌学的情绪,做工作非常没有干劲。在导师张四纯老师的介绍下,我接触到了合作课题组何彦老师实验室的纳米颗粒动态行为分析的项目。何彦老师课题组在暗场光学成像,纳米粒子合成与表征,活性物质研究等方面有很深厚的积淀,在看到何老师实验室数据的瞬间,我就觉得非常感兴趣。


何老师课题组面临的问题是纳米粒子在复杂环境(如细胞膜表面)运动时,其轨迹可以作为局部环境与纳米粒子相互作用的一种表征。但传统的分析方法仅仅把纳米粒子的运动行为简单的分为定向,随机和受限三种状态,且轨迹中不同区域的划分依赖实验人员的直觉,缺乏可重复性和可靠性。如何更有效的进行纳米粒子运动轨迹的划分呢?更进一步的,如何更准确的表征纳米粒子在整个运动过程中的状态变化呢?


当时我们读到Science杂志上的一篇关于非线性时序分析的文章,其中的算法通过时间延迟的操作将单变量时序映射到高维空间,并根据高维空间中点的最近邻距离判断不同变量时序的非线性相关性(Sugihara, G. 2012)。受此启发,我们认为点运动的历史向量也等同于高维空间的点,代表了粒子运动的状态,同时又不包含人为定义的模型约束,最大程度的保留了数据本来的信息。既然将粒子运动状态转换为了高维空间中的点,自然就可以用无监督的方法对其相似度进行表征。再将这种相似度映射回原来的轨迹,就可以不依赖模型的对纳米粒子的轨迹进行差异性的分析。我们因此开发了名为SEES的轨迹前处理方法,在实验数据集上取得了良好的效果,帮助我们获得了更精细的动力学信息(H. Zhao. bioRxiv, 2019)。


在经历了何彦老师实验室项目的训练后,我的研究思路大大开阔,看到了更多数据思维与分析化学结合的机遇。恰逢我所在的张新荣课题组正在依托高效的质谱平台以及自主开发的离子源开展单细胞分型的项目。我开始结合聚类以及机器视觉的方法对单细胞的质谱代谢组学数据以及单细胞显微成像数据进行分析,取得了良好的结果。初步建立起较为完整的数据分析流程,自主以及协同实验室的小伙伴发表了多项工作。


3. 整体+:数据驱动的系统重构


在经历越来越多的科研训练以及数据科学院,大数据能力提升项目的学习以后,我开始尝试从更高一层的角度思考数据思维与科学哲学的关系。近年来,随着大数据话题的火热,“数据科学”的概念也开始受到人们的关注。数据分析究竟对基础科学的研究具有什么样的意义,不同的人可能有不同的理解。我相信,数据科学在提供必要的数据建模/可视化方法的工具以外,也启发着研究人员改变自身的研究思路和研究路径。数据除了作为模型构建以及模型正确性的验证依据以外,更可能成为模型本身,也即,数据即为模型。这一点在复杂体系研究中可能尤为重要。


复杂体系是指包含了大量具有弱相互作用的个体,在一个开放体系中,动态自组织的涌现出系统性行为的体系。在Warren Weaver发表于1948年的评论文章中,这样的体系被定义为Organized Complexity。实际上,这样的体系在我们的生活中举目皆是,从城市的人群,到每个人身体内的细胞,都在动态涌现着系统性的现象(如道路堵塞,癌变等)。


理想的简单体系只是复杂体系汪洋中的孤岛


理解这样的系统,如果用传统方式建立模型将面临着大量需要调整的参数(如代谢通路建模中酶促反应平衡常数),而参数过多的模型将失去约束,产生任意的结果(用四个参数就可以画一头大象,American Journal of Physics, 2010)。但数据科学的方法有望在检测大量系统个体,获取真实实验数据的基础上重构整个体系的演化过程,即在计算机中模拟出整个复杂体系,从而进行状态的判断和预测。实验数据本身构建了模型,又提供了模型的约束。这种从个体检测出发,再用数据方法从大量个体的数据中重构出来的整体,将比早先受技术限制而观察的粗略整体更能够帮助我们认识复杂体系。这就是我目前的一些认识和思考。


从整体到“整体+”


个人感受


最后,我相信我会在未来会继续在基础科研中磨砺自己,在实验技能和科学思维上不断提高和进步。数据分析不仅提高了我工作的能力和兴趣,也为我带来了更为宽广的视野。欢迎不同领域的人与我和我所在的课题组合作,欢迎喜欢数据的同学加入张新荣老师课题组,与我一起享受数据分析的快乐,探索科学的奥秘。


更多数据故事,敬请期待~也欢迎各位读者分享你与大数据的故事!


编辑:文婧

登录查看更多
0

相关内容

从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。
专知会员服务
123+阅读 · 2020年3月26日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
33+阅读 · 2020年3月6日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
包云岗 | 有点佛系的青年科学家
未来论坛
11+阅读 · 2019年3月26日
深度学习 | 人脸识别与人类部件解析
计算机视觉战队
6+阅读 · 2019年3月16日
冬日里的一首歌 | 清华快闪女指挥王明媚讲述背后的故事
清华大学研究生教育
59+阅读 · 2019年1月9日
一个人的企业安全建设之路
FreeBuf
5+阅读 · 2017年7月7日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
9+阅读 · 2020年2月15日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
Arxiv
8+阅读 · 2019年3月21日
Adversarial Metric Attack for Person Re-identification
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
VIP会员
相关论文
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
9+阅读 · 2020年2月15日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
Arxiv
8+阅读 · 2019年3月21日
Adversarial Metric Attack for Person Re-identification
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Top
微信扫码咨询专知VIP会员