区块链和大数据属于顶级新兴技术,有望彻底改变多个行业,从根本上改变企业和组织的运营方式。人们可能会认为这些技术相互排斥:每项技术都开辟了独特的道路,并且彼此独立地应用。
但这种说法并不准确。
区块链就像数据科学一样,正在逐渐改变多个行业的运营方式。数据科学专注于利用数据进行妥善管理,而区块链则通过维护去中心化的账本确保数据的可信度。
现在的问题是,这两个概念是否有交集?
当同时应用这两种技术时,会取得什么成果?
简而言之,区块链如何颠覆数据科学?
要回答这些问题,先要更好地了解区块链和数据科学的区别。
区块链本质上是一种分布式账本,它记录经济交易,并且这些交易无法被操控。这项技术因人们对比特币和加密货币的兴趣而广为人知,但此后不仅用于记录加密货币交易,也适用于任何有价值的事物。了解了这种新兴技术的功能后,开发人员和技术爱好者已经开始着手设计区块链的多项用例。
过去几年,随着不同的区块链应用程序的项目不断涌现,对区块链开发人员的需求也不断增加。来自 UpWork 等自由职业平台的报告显示,区块链技能依然是最受欢迎的技能。同样,据说法律研究等其他领域的专业人员如果具备区块链技能或者至少对区块链技术有所了解,则具有重大优势。
数据科学致力于从结构化和非结构化数据中提取知识和洞察分析。该领域涵盖统计学、数据分析、机器学习以及用于理解和分析实际流程的其他先进方法。
在经济学术语中,数据通常被称为“新石油”,这也是包括著名的 GAFA(Google、Amazon、Facebook 和 Apple)在内的领先企业能够控制数据负载的原因。数据科学的一些常见应用包括互联网引擎协议、数字广告和推荐服务。数据分析是数据科学的一个关键方面,已被证明在以下行业中具有重要意义:在医疗保健行业中用于跟踪患者治疗和设备流动;在旅游业和游戏业中用于改善消费者体验;在能源管理以及许多其他行业中也有相关应用。
此外,市场对数据科学家的需求似乎永无止境,因为他们能通过数据提供更多洞察分析,帮助解决更多问题。在考虑大数据时,这一点更为明显。大数据是数据科学的高级方面,可处理传统数据处理方法无法处理的海量数据。
与区块链现在已非常熟悉的金融科技、医疗保健和供应链等领域不同,区块链在数据科学方面尚未得到广泛探索。对一些人来说,这两个概念之间的关系并不明确,甚至不存在。
首先,区块链和数据科学都处理数据:数据科学分析数据以获取可操作的洞察分析,而区块链记录并验证数据。两者都利用为管理与各种数据段的交互而创建的算法。您很快就会注意到一个共同的主题:“数据科学用于预测;区块链用于获得数据完整性。”
就像任何技术进步一样,数据科学也有其自身的挑战和局限性,只有解决这些问题,才能充分发挥其功能。数据科学的一些主要挑战包括数据无法访问、数据隐私问题和脏数据。
区块链技术可以在控制脏数据(或错误信息)方面对数据科学领域产生相当大的积极影响。根据 2017 年对 16,000 名数据专业人员的调查,包含重复或不正确数据等在内的脏数据被认为是数据科学面临的最大挑战。通过去中心化的共识算法和加密技术,区块链验证数据,由于需要大量的计算能力,使得数据几乎不可能被操控。
区块链技术再次通过其去中心化的系统,确保数据的安全性和隐私性。大多数数据存储在集中式服务器中,这些服务器常常成为网络攻击者的目标;多起黑客攻击和安全漏洞报告显示了威胁的严重程度。另一方面,区块链将数据控制权归还给了生成数据的个人,使网络罪犯难以大规模地访问和操控数据。
Janexter 的 Maria Weinberger 表示,如果说“大”(Big) 代表的是“数量”,那么区块链就是“质量”。由此可见,区块链专注于验证数据,而数据科学或大数据则涉及通过大量数据进行预测。
区块链带来了一种全新的数据管理和操作方式:不再是集中管理所有数据,而是以去中心化的方式,在各个设备的边缘进行数据分析。区块链与其他先进技术相结合,如云解决方案、人工智能 (AI) 和物联网 (IoT)。
此外,通过区块链技术生成的经验证数据结构完整且不可篡改,正如我们之前提到的。区块链生成的数据促进大数据发展的另一个重要领域是数据完整性,因为区块链通过其链接链确定数据的来源。
总体而言,区块链数据可以通过至少五种特定方式为数据科学家提供帮助。
记录在区块链上的数据值得信赖,因为它们必须经过确保其质量的验证过程。它还提供了透明度,因为区块链网络上发生的活动和交易可以追踪。
去年,联想展示了区块链技术在检测欺诈性文档和表格方面的用例。这些电脑巨头使用区块链技术来验证用数字签名编码的物理文档。数字签名由计算机处理,文档的真实性通过区块链记录进行验证。
大多数情况下,当有关数据块的来源和交互的详细信息存储在区块链上,并在对其进行操作之前自动确认(或验证)时,数据完整性就能得到保证。
因为区块链使用共识算法来验证交易,所以单个单元不可能对数据网络构成威胁。可以很容易地识别出行为异常的节点(或单元),并将其从网络中删除。
由于网络分布广泛,因此任何一方几乎不可能产生足够的计算能力来改变验证标准并允许系统中存在不需要的数据。要改变区块链规则,必须汇集大多数节点才能达成共识。这对于单个不良行为者是不可能实现的。
就像其他类型的数据一样,可以对区块链数据进行分析,以揭示对行为、趋势的洞察分析,因此可用于预测未来的结果。此外,区块链可以提供从个人或各个设备收集的结构化数据。
在预测性分析中,数据科学家基于大量数据,非常准确地确定与企业相关的社会事件的结果,例如客户偏好、客户终身价值、动态价格和客户流失率。然而,这并不局限于商业洞察分析,因为通过正确的数据分析几乎可以预测任何事件,无论是社会情绪还是投资标的。
由于区块链的分布式特性及其提供的巨大计算能力,即使在规模较小的组织中,数据科学家也可以开展广泛的预测性分析任务。这些数据科学家可以利用数千台连接在区块链网络上的计算机的计算能力作为基于云的服务,以一种原本无法实现的规模分析社会结果。
正如金融和支付系统所展示的那样,区块链可以实现实时跨境交易。由于区块链能够快速(实际上是实时)结算巨额资金且不受地域限制,因此许多银行和金融科技创新者现在都在深入了解区块链。
同样,需要对大规模数据进行实时分析的组织可以调用支持区块链的系统来实现。借助区块链,银行和其他组织可以实时观察数据的变化,从而能够快速做出决策,无论是阻止可疑交易还是跟踪异常活动。
在这方面,从数据研究获得的数据可以存储在区块链网络中。这样,项目团队就不会重复其他团队已经执行的数据分析,也不会错误地重复使用已经使用过的数据。此外,区块链平台可以帮助数据科学家通过交易存储在区块链平台上的分析结果来实现他们的工作变现。
正如前文所述,区块链仍处于起步阶段,尽管由于这项技术在短时间内获得了极大的关注,它可能看起来并非如此。人们可以预期,随着这项技术逐渐成熟和实现更多创新,将会发现并探索更多具体的用例:数据科学将成为一个可以从中获益的领域。
话虽如此,关于其在数据科学领域的影响,尤其是需要处理海量数据的大数据领域,也提出了一些挑战。一个令人担忧的问题是,区块链在这方面的应用将非常昂贵。这是因为与传统方式相比,区块链上的数据存储价格昂贵。与大数据和其他数据分析任务每秒收集的大量数据相比,区块链可处理相对较小的数据量。
如何发展区块链来解决这一问题并继续颠覆数据科学领域将特别有趣,因为正如我们所看到的,这项技术具有改变我们管理和使用数据方式的巨大潜力。
我们不时邀请行业思想领袖、学术专家和合作伙伴,在区块链脉搏博客上分享他们对区块链当前趋势的看法和见解。虽然这些博客文章中的观点代表作者个人意见,并不一定反映 IBM 的立场,但本博客力求欢迎所有观点参与讨论。
IBM Blockchain Platform 的 Hyperledger Fabric 支持版本为 Hyperledger Fabric 提供 SLA 和 24x7 全天候企业支持,Hyperledger Fabric 是 Linux 基金会企业区块链平台的事实标准。
IBM Blockchain 帮助供应链合作伙伴通过许可的区块链解决方案分享可信数据,提高透明度和信任度。
IBM Consulting 是一家全球咨询公司,始终与客户并肩协作,以便设计、打造和运营高绩效业务。