数据科学与计算智能：内涵、范式与机遇

时间：2021-12-18|浏览：441

如何理解、测试并评估现有计算智能的能力边界？人脑、复杂社会系统、自然进化系统等自然智能，往往具备比现有计算智能更加高效的“计算思维”和更加简洁优美的智能推演与决策能力，是否可以借鉴这些自然智能探索新的人工智能范式？
数据科学与计算智能：内涵、范式与机遇
大数据已成为信息社会的普遍现象，是数字经济的关键资源。以深度学习为代表的大数据驱动的人工智能技术在很多行业和领域获得了成功，这类人工智能本质上源于计算能力，故可将其归为计算智能。与此同时，大数据是这类人工智能成功的重要因素，这类智能也被称为数据驱动的计算智能，从这个意义上讲，当前数据和智能是一体两面的关系。虽然大数据与计算智能技术在大规模工程化应用方面取得了长足进步，但支撑技术进步的理论基础和技术体系尚处于早期阶段。

当前，大数据“红利”效应在逐渐减弱，计算智能技术的单点突破难以为大数据驱动的智能应用提供持续支撑，亟待对数据科学和计算智能的基础问题进行深入思考，重构其理论基石，从而推动技术与工程应用持续进步和跨越式发展。1. 在数据科学的内涵和外延尚缺乏严谨定义和学界共识的情况下，如何深入认知反映客观世界的数据空间的共性规律？数据科学在本体论和方法论 2 个层面上需要回答的基础问题是什么？2.如何理解、测试并评估现有计算智能的能力边界？人脑、复杂社会系统、自然进化系统等自然智能，往往具备比现有计算智能更加高效的“计算思维”和更加简洁优美的智能推演与决策能力，是否可以借鉴这些自然智能探索新的人工智能范式？

3.在探讨数据科学和计算智能的同时，有哪些值得关注的牵引性应用？新的智能范式对解决复杂的社会问题是否是一个很好的机遇？4.在未来的发展中，我们该如何把握时代机遇，重点关注哪些关键科学挑战，优先解决哪些关键问题？1、数据科学的内涵基于方法论视角的数据科学内涵关于数据科学的内涵，一种流行的看法认为数据科学就是图灵奖得主吉姆·格雷（Jim Gray）提出的第四范式（the fourth paradigm），即在实验观测、理论推演、计算仿真之后的数据驱动的科学研究范式。

第四范式的基本思想是把数据看成现实世界的事物、现象和行为在数字空间的映射，认为数据自然蕴含了现实世界的运行规律；进而以数据作为媒介，利用数据驱动及数据分析方法揭示物理世界现象所蕴含的科学规律。这是一种类似方法论视角来定义的数据科学的内涵，即数据驱动科学发现。第四范式将数据科学从其前的 3 个科学研究范式中分离出来，带来了科学发现和思维方式的革命性改变。借用美国谷歌公司研究部主任皮特·诺维格（Peter Norvig）的话来说，“所有的模型都是错误的，进一步说，没有模型你也可以成功（all models are wrong, and increasingly you can succeed without them）”。

海量的数据使得我们可以在不依靠模型和假设的情况下，直接通过对数据进行分析发现过去的科学研究方法发现不了的新模式、新知识甚至新规律。第四范式的一个典型研究案例是关于帕金森病的起因研究。通过对 160 万份病历的大数据分析，研究人员发现帕金森病的起因与人的阑尾有关。这是基于大数据统计帕金森病患病率与切除阑尾的相关性得出的结论。第四范式通过大数据分析能够发现数据中蕴含的大量相关关系，为科学发现提供了新视野。但是，第四范式本身无法从大量的相关关系中甄别出事物的本质规律。

在发现了帕金森病和阑尾的相关性后，有些对第四范式十分执着的学者召集了更大量的帕金森病患者，以彻查他们的基因，调查他们的生活环境和生活习惯，以期从中发现一些共性；然后去找那些也有这些共性但是没有得帕金森病的人，看他们做了什么，有什么共性；如果这种共性存在，可能就是防治帕金森病的解决方案。

但是，其结论却不尽人意。可以想象，人体的器官何止一个阑尾，且帕金森病患者的生活习惯何其繁杂，单独靠第四范式的数据驱动方法做漫无边际的相关性分析，不仅要消耗大量的计算资源，也难以真正预测未来的趋势与变化。因此，从方法论来看，第四范式在揭示事物本质规律方面存在固有的局限性，数据科学需要在方法论上突破第四范式。

基于本体论视角的数据科学内涵数据科学另外一种值得探讨的内涵是基于“本体论”视角，认为数据是反映自然世界的符号化表示。既然自然世界是客观存在并具备共性科学规律的，那么反映自然世界的数据空间也可能具有独立于各个领域的一般性规律。因而，数据科学应该是“用科学方法来研究数据”，数据科学也应该有类似“信息论”这样的学科基础理论。

更具体来看，当我们把世界看成是由物理世界、机器世界和人类社会组成的三元世界时，新型的“感知、计算、通信、控制”等信息技术使三元世界相互影响和融合，形成了一个平行化（孪生）的复杂数据空间。这样的数据空间，除了映射物理世界，其本身是否具有独特的一般性规律？如何用科学的方法来研究数据的一般性规律，揭示其内在机理？这些是数据科学更基本的问题。例如，数据科学中的一些常数规律（对称性、黄金分割、长尾分布等）和更广意义上的大数据非确定性、数据广义关联、时空演化、数据复杂性等。

数据科学是方法论和本体论在数据价值实现目标下的统一、数据科学到底应该从哪些视角来定义其独有的内涵与特征？一般认为，作为一门学科的定义，至少应该从其研究对象、方法论和学科目标 3 个维度去界定。数据科学的内涵应该既包括本体论内容和方法论内容，还包括其独特的价值实现目标（图 1）。基于这一认知，可以定义“数据科学是有关数据价值链实现过程的基础理论和方法学，它运用基于分析、建模、计算和学习杂糅的方法，研究从数据到信息、从信息到知识、从知识到决策的转换，并实现对现实世界的认知和操控”。

这“三个转换、一个实现”是数据科学的学科目标。而实现这一目标的方法论来自多个学科方法的融合，包括数学（特别是统计学）、计算机科学（特别是人工智能）、社会科学（特别是管理学）等。数据科学与相关学科的关系目前，关于数据科学的基本内涵和基础问题还没有像数学、物理学和计算机科学那样成体系、有共识。但是，数据科学的多学科交叉特征及大数据自身的价值特性已经成为共识。我们可以借助相关学科来探讨当前数据科学研究需要关注的基础问题。

数据科学与统计学然而，在大数据面前，统计学也面临着诸多问题和挑战。统计学将数据作为研究对象，致力于收集、描述、分析和解释数据，其为数据科学提供了重要基础和工具。例如：统计假设在复杂大数据分析中难以满足、数据自身及分析结果的真伪难以判定、端到端的大数据推断缺乏基础理论支撑等。统计学针对这些问题目前基本上是束手无策的；而统计学所依赖的一些传统强假设（如独立同分布假设、低维假设等），也都无法适用于目前多源异质的真实数据。
因此，数据科学虽然在研究对象上和统计学是相同的，但在研究问题的范畴上却是超越统计学的。譬如：数据科学该如何深入认识数据固有的共性规律？是否能建立一套数据复杂性理论体系？数据规模、数据质量和数据价值有什么定量关系？如何刻画大数据所表现出来的多层面的非确定性特征？

数据科学与网络科学：那么在数据科学中，数据的共性规律是什么？在现实世界中是否有完全不同的两个数据集之间存在某种共性？数据科学的发展可以借鉴网络科学的发展历程，以类似的方法寻找研究对象的共性规律。网络科学发现了物理世界中广泛存在的网络所呈现出的共性规律（如幂率分布、小世界现象等），从而促进了其从图论和随机图论中分离出来独立发展，实现了其研究对象从作为数学工具的图到作为物理对象的网络的转变。

一方面，一下子找到所有领域的共性规律可能是不现实的，因而可以先从几个关键领域出发，寻找部分领域的共性规律；另一方面，寻找数据的共性规律需要能够问出合适的基础性问题，类似网络科学中关于度分布、聚集系数、网络直径、网络脆弱性、网络适航性等方面的问题。目前，尚不明确各个领域的数据是否存在统一的规律。因此，数据科学还需要在应用领域进行一定时间的探索，从领域知识中汲取养分，并逐步发现规律、寻找共性。

数据科学与计算机科学简单而言，从研究对象的角度来说，计算机科学是关于算法的科学，而数据科学是关于数据的科学。从计算机科学到数据科学，研究手段从传统计算机领域的算法复杂性分析，转变为对数据的复杂性和非确定性等特性进行分析研究。数据科学的起源与发展离不开计算机科学，但这两个学科由于研究对象和研究方法的不同，未来也许会平行发展。

如何对非确定边界的数据，在有限时间空间下进行计算？数据复杂性、模型复杂性与模型性能之间是什么关系？解决某个问题所需要的大数据的量的边界如何确定？是否能发展一套理论，为基于大数据的计算模型提供其能力上、下界的保证？这些都是数据科学独立于计算机科学之外所需要解决的问题。数据科学目前尚处于发展的早期阶段，其研究方法也应该与传统科学有所区分。数据科学，正处于“无知”到“科学”的中间状态。它目前还没有形成一门完整的学科——信息是不完备的，环境也是非确定的。因此，不能完全按照传统学科来思考和要求数据科学；而应该在这样不完备、非确定的环境下，重新思考和定义数据科学及数据科学亟待关注的基础问题。

2、计算智能的发展与新型智能范式的探索计算智能的发展：人工智能（AI）概念在1956年由麦卡锡等学者提出，其发展几经浮沉。基于对智能产生机制的不同理解，人工智能发展至今学派众多，且相互借鉴，形成了一系列代表性成果。

无论是早期符号计算（以数理逻辑为基础）、进化计算、支持向量机、贝叶斯网络，还是当前在工业界获得巨大成功的基于多层神经网络的深度学习方法，从模型的本质上来看都是建立在图灵机的基础上，基本都符合邱奇-图灵论题（Church-Turing thesis），即“任何在算法上可计算的问题同样可由图灵机计算”。换句话说，现有的人工智能模型本质上都是与图灵计算模型等价的，故可归为计算智能。计算智能一般以计算机为中心，以算法理论为基础，充分利用现代计算机的计算特性，给出了解决实际问题的形式化模型和算法。

近 10 多年以来，大数据的使用、算力的提升和深度模型的发展，为计算智能带来了新的契机。大数据、大算力、大模型三者结合，极大地推动了计算智能的工业化应用。例如，计算智能在以围棋为代表的人机对弈、机器翻译、人脸识别、语音识别、人机对话、自动驾驶等应用中均取得了巨大的成功。值得注意的是，大数据在给计算智能带来发展的同时，其复杂性和非确定性也给计算智能带来了非常大的挑战。现有的计算智能在面临大数据环境下的复杂问题和复杂系统时，依然很难给出满意的答案。

我们需要探索当前计算智能的能力边界问题，从理论上探寻这类智能所能解决的问题类型和能力边界。譬如，通过建立深度学习和统计力学的关系，回答深度学习的相关基础问题：1.表达能力方面，模型做深为什么是必要的，到底深度为多少层是合理的？2. 模型学习方面，崎岖的目标函数如何高效优化？
3.泛化能力方面，如何实现计算智能技术从专用到通用的转变？如何实现模型的跨领域、跨任务、跨模态的泛化？上述一系列基础问题将进一步成为计算智能未来发展的关键“瓶颈”。其原因是，当前的计算智能是大数据工程化驱动的，其能力的提升主要依赖于数据规模的增加和计算速度的增长。如果缺乏数据科学化理论的支撑，大数据驱动的计算智能难以形成从量变到质变的提升。

那么另一种思路是，我们也许可以考虑发展与当前计算智能不一样的智能范式，以便更加简洁高效地解决更复杂、更普适的现实问题。新型智能范式的探索
事实上，自然界中存在大量具备智能的自然系统。这些自然系统比现有人工智能系统具备更加简洁、高效的逻辑推理和自我学习能力，如脑神经系统、社会系统、自然生态系统等。那么，自然系统的智能模型是什么？我们能否借鉴自然系统中的智能行为，将其形式化为可计算的智能范式？实际上，已有 4 类智能范式在此方面做出了一些初步的探索。

脑启发计算

脑启发计算（brain-inspired computing）正是借鉴了人脑存储、处理信息的基本原理所发展出来的一种新型计算技术。与传统图灵计算机的计算模式相比，脑启发计算是通过增加空间复杂度来保留计算单元之间的结构相关性，从而构造基于神经形态工程的高速、新型计算架构。人类的大脑皮层具有 140 亿—160 亿个神经元，且每个神经元会连接 1 000—10 000 个其他神经元，借此人类发展出了比其他物种更高级的智慧。

脑启发计算的目标是构造一套非“冯 · 诺依曼”架构、可实时处理复杂非结构化信息、超低功耗的高速新型计算架构。脑启发计算的发展，也许能为数据科学提供新的计算架构和高性能的计算能力，支撑通用人工智能的发展。目前，脑启发计算仍处于起步阶段，我们需要进一步思考如何在不完全了解人脑机制的情况下发展脑启发计算模式，以及如何基于这种脑启发计算为科学研究提供新思路和新范式。

演化智能例如，人脑是经过数百万年的演化逐步形成的。从这个角度来讲，现有的智能模型在依靠人类设计之外，是否也能通过演化过程去自动发现最佳的模型结构？传统的遗传算法是一种基础的演化计算模型；而从演化计算到演化智能，以及实现模型自动演化的智能范式，还有很长的路要走。未来，交互驱动的强化学习、开放环境下的人工智能是值得探索的方向。学习和演化是生物适应环境的基本方式。现有的计算智能基本都拥有从数据中学习的能力，但对智能模型的演化能力缺乏关注。

复杂系统模拟：是否可以通过模拟复杂系统的组成特点和交互方式来构造新型智能范式？如何通过大量简单智能体之间的交互作用，产生可预期的、具有高度复杂性的群体智能？这样的智能范式也许会从根本上改变传统的单智能体的智能上限。自然界存在大量的复杂系统，如人类社会系统、自然生态系统、人体免疫系统等。从控制和计算的角度来看，模型化的复杂系统是“由大量相互作用、相互依赖的单元构成的一个整体系统；一般在没有中央控制情况下，这个整体系统可通过简单的运作规则实现复杂的信息处理，进而产生复杂的集体行为，并能通过学习和进化产生自生长和自适应能力”。

人机混合智能：在这样的环境下，人在回路的人机混合智能具备了基本的物理条件。目前，人工智能技术所具备的感知、认知能力，基本上是模型与数据结合，并以机器为中心所形成的计算智能，故也称为机器智能。随着互联网、物联网及新一代通信技术的发展，万物泛在互联成为现实。未来，大量物理设备、无人系统、人脑，通过泛在网络实现“上线”和“互联”。

这种机器智能在存储、搜索、感知、确定性问题求解等方面性能表现优越，但在高级认知和复杂问题决策方面与人类智能相差很远。虽然脑启发计算取得了一些进展，但在可预期的未来，机器智能很难完全模仿和构造出人类智能或其他自然智能。换一个思路，如果将人的智能引入到机器智能的系统回路中，将充分融合人类智能和机器智能的优势，从而形成更高级的智能水平。在未来较长的一段时间内，这种人机混合智能也许是一些复杂问题求解的有效途径。

那么，在基于机器的计算智能基础上，人作为具备智能的自然系统，如何参与到机器智能的系统回路中是一个关键问题。人机混合智能需要重点解决思维融合或决策融合的问题。具体而言，传统的人机接口往往是单向的；在人机互联情况下，人脑如何参与到机器智能的系统回路当中？如何同时让人理解机器思维和让机器理解人的思维，从而实现思维的无缝互动？

目前，一些探索和挖掘思维潜力的工具，如思维导图、思维地图、概念图等，其理论基础与形式化模型并不清晰。一些新型的脑机接口技术进展迅速，但缺乏对人脑在直觉、意识、情感和决策方面的机理认知。也许，从技术上构建有效的人在回路智能通道，是当前人机混合智能亟待解决的关键问题之一
上述 4 类智能范式的研究，在现有图灵等价的计算智能基础上，或多或少地引入了人类智能或自然系统智能的部分机制，从而为未来智能系统的发展注入新的活力。

但是迄今为止，这些智能范式在可形式化、可计算、可构造等方面还存在诸多基础性问题挑战。如果这些模式是未来新型智能范式，那么它们是否还是图灵等价的？这些问题值得我们从本源上进行探讨。数据是人类社会、物理世界和机器世界之间的桥梁，同时数据也是人类社会和物理世界的符号化映射。因而，从数据入手是探索和实现上述新型智能范式的基本途径。数据科学基础理论，不仅对当前数据驱动的计算智能起到提质增效的作用，也将为未来新型智能范式研究提供理论支撑。

3、引领数据科学与计算智能研究的应用：作为一门实践性强的学科，数据科学的发展离不开实际需求牵引与技术应用驱动。随着感知、计算、通信、控制等技术的发展及综合集成应用，“人-机-物”三元世界高度融合，在线形成了一个网络化的大数据系统，其内部包含了互联网、物联网连接而成的各类数据。这是一个高度复杂、强不确定性、持续动态演化的复杂系统，是“系统的系统”。

它既是智慧城市、智能制造、健康医疗等各个领域应用的空间载体，也为国家安全、社会治理、数字经济等领域的科学化、智能化发展提供了重要的数据资源供给。前文已提及，这个现实存在的大数据系统，除了具备高度复杂性、强不确定性等特性，人在回路也是其显著特征。针对这一现实系统的研究与应用，将有可能为数据科学的理论与技术发展带来机遇。针对这一复杂系统的典型场景展开研究，不仅有利于揭示数据的基本规律，也有可能因此而牵引未来新型智能范式的研究。其典型的应用场景有如下 4 种。

1、基于非确定数据的社会认知在社会系统中，我们搜集到的数据通常与真实的情况存在一定的偏差，大量的虚假内容、非确定性内容混杂在这些数据当中。如何能基于这样不完备的、非确定的大数据进行社会认知是一个非常有挑战的问题。社会认知具体包括真假判定、社会心理计算、舆情判定与导向等。而面向非确定数据的社会认知，其中一大关键在于如何对大量复杂的非确定数据进行假设建模，如何建立复杂社会系统中个人行为与群体社会认知之间的关联。演化智能、复杂系统仿真与模拟也许是解决这一问题的突破口。

2、基于开放环境的群智决策：互联网极大地方便了信息、知识和智慧的互联互通。在互联网中，已经有许多复杂问题可以通过群智决策的方式加以有效解决，如众包计算、人本计算等。那么，一方面，未来我们该如何设计或改进群智决策中的内部个体交互、融合与反馈方式，以人工构造的群体智能方式进一步提升互联网群智决策的智能上限？另一方面，从计算机的视角来看，该如何利用或者模拟这种人类的群智决策方式，来解决一些复杂的决策问题？考虑到智能系统的演化及复杂系统的仿真与模拟，对单个智能体及智能体之间复杂交互进行建模，也许是未来复杂问题求解的一个可能方向。

热点：pi 大数据数据智能化计算机黄金

« 上一条| 下一条 »