Industry: Industrial Products
解决方案: IT Infrastructure
Geography: APAC

视源电子携手 IBM 建立混合云数据湖,打通多源数据管道

项目简介

视源电子作为一家制造业企业,注重数据安全和业务连续性。为应对数据的爆发式增长、生产制造对系统连续性的要求、提升运维效率,降低运维风险和管理成本,视源电子携手 IBM 基于混合云打造现代化数据湖,实现了更加安全、稳健的底层数据的支撑平台。

项目优势

  • 灵活扩展,容量达 YB 级,访问带宽超过 2.5 TB/s,满足数据的高速增长对容量和性能的需求
  • 统一命名空间,简化运维,降低运维成本和运维风险
  • 数据自动化分层管理,随需调度,最大化资源利用率
  • 支持磁带或公有云转储,优化数据管理,降低超过 80% 的归档成本本

建立现代化数据湖,打通多源数据管道

为应对数据的爆发式增长、生产制造对系统连续性的要求、提升运维效率,降低运维风险和管理成本,视源电子携手 IBM 基于混合云打造现代化数据湖,实现了更加安全、稳健的底层数据的支撑平台。

视源电子信息中心总监罗威评论道:“视源电子采用了 Spectrum Scale 软件定义的方式部署,我们的数据平台可以按需灵活扩展,数据访问带宽超过 2.5 TB/s,获得超过 YB 的容量规模。同时,使用了纠删码的保护方式,使得集群本身对于整个组件,包括服务器、硬盘的故障都有非常好的容错能力。”

客户心声

视源电子信息中心总监罗威评价:“视源电子采用了 Spectrum Scale 软件定义的方式部署,我们的数据平台可以按需灵活扩展,数据访问带宽超过 2.5 TB/s,获得超过 YB 级的容量规模。同时,使用了纠删码的保护方式,使得集群本身对于整个组件,包括服务器、硬盘的故障都有非常好的容错能力。”

客户心声

视源电子信息中心总监罗威评价:“视源电子采用了 Spectrum Scale 软件定义的方式部署,我们的数据平台可以按需灵活扩展,数据访问带宽超过 2.5 TB/s,获得超过 YB 级的容量规模。同时,使用了纠删码的保护方式,使得集群本身对于整个组件,包括服务器、硬盘的故障都有非常好的容错能力。”

视源电子混合云数据湖建设着眼点

视源电子作为一家制造业企业,注重数据安全和业务连续性。近年来,像视源电子这样的制造业的企业,通过拥抱 IoT、工业互联网的新兴技术,让工业生产更加智能高效,但同时也导致了生产数据呈现爆发式的增长,这样就要求底层数据平台能够很灵活地进行横向扩展、在线扩容,从而应对数据量的高速增长。同时,生产制造对系统连续性的要求非常苛刻,几分钟甚至几秒钟的停线,带来的可能就是上千万的损失,所以要求底层数据平台能够具备双活甚至多活的部署能力,最大程度保证业务的连续性。

此外,生产制造的数据有非常强的时效性,为了最大化资源利用率,降低投入成本,要求数据能够进行生命周期管理,将冷、热不同的数据进行分级、分层管理,并能够实现自动的管理来提升运维效率。由于做区域产业园布局以及监管部门对数据期限的要求,要求底层数据平台能够支撑混合云架构,灵活地去调度和使用公有云的资源,来优化数据的管理成本和归档成本。除了好的数据支撑产品,视源电子也希望能够获得更加成熟、稳定的企业级软件服务,帮助大幅降低业务运营和业务管理的风险。

在进行数据湖产品选型时,鉴于以上业务的需求考虑,视源电子综合对比了国内外的主流数据湖产品,最终选择了 IBM 来提供解决方案。

搭建高可扩展、高可用的数据湖平台

视源电子作为 IBM 对象存储的一个老用户,使用 IBM Cloud Object Storage 已经超过了 4 年,而且中间经过了好几次的扩容,从最开始很小规模的去尝试性的使用,把一部分的研发或测试的数据存放在上面,到后面把绝大部分的生产应用数据都往对象存储上放。但随着现在一些新技术的应用,比如说容器、还有文件存储,以及在医疗影像的数据的存储需求,视源电子在 2020 年下半年上线了 IBM Spectrum Scale 数据湖平台,去扩容其存储能力。

视源电子的基础平台以 IBM Spectrum Scale 为核心来搭建。Spectrum Scale 是一个成熟的、有超过 20 年历史的分布式数据平台解决方案,可以扩展到 YB 级别的数据规模,同时,它还是一个高性能的分布式存储平台。视源电子信息中心总监罗威评论道:“视源电子采用了 Spectrum Scale 软件定义的方式部署,我们的数据平台可以按需灵活扩展,数据访问带宽超过 2.5 TB/s,获得超过 YB 的容量规模。同时,使用了纠删码的保护方式,使得集群本身对于整个组件,包括服务器、硬盘的故障都有非常好的容错能力。”

Spectrum Scale(下载免费试用版本)除了具有软件定义能力之外,还提供非常灵活的部署选项,比如 IBM ESS 软硬一体机,也可以部署在公有云上,现在和很多国内外公有云的服务商都有类似这样的合作,在国外像 AWS、Microsoft Azure,在国内像阿里云和腾讯。

Spectrum Scale 平台的搭建能够满足灵活的、高性能和扩展的数据平台的能力,另外还能够实现对于前端各种不同的数据业务的支撑,包括传统的、比较常见的像 NFS、SMB 这样的文件服务,还有现在比较热门的容器的接口 CSI,开源的 K8s 平台,或者是像商用的 Red Hat OpenShift,都可以对它提供很好的存储、资源的分配以及数据访问的支撑能力。同时,还可以针对像 Hadoop 这样的大数据的集群提供访问的支撑,可以无缝地、透明底实现 HDFS 接口,也就是说可以使用 Spectrum Scale 直接替换掉原有开源 Hadoop 集群当中的 HDFS 层,使得 HDFS 原有的一些痼疾,如扩展性、性能问题得以解决,让整个 Hadoop  数据分析集群,能够有一个更好的数据访问和存储底座,更好地进行性能和容量的支撑。

在后端,Spectrum Scale 具有强大的数据生命周期管理的能力。对于现在企业数据爆炸性增长的现状,如果没有一个很好的生命周期管理的能力,那么企业在存储成本上就会使是一个“无底洞”。有了 Spectrum Scale 数据生命周期的管理,它的集群在后台对于整个数据介质,可以管理到像闪存、普通硬盘、磁带、云存储、对象存储这样不同的存储资源,可以按需根据策略把数据根据不同的价值、不同的性能或者访问的要求,存放到不同的存储介质上面,获得一个最优的性价比和最灵活的部署方式,极大地降低整个数据环境的成本。

让混合云更简单,加速变现数据价值

除了 Spectrum Scale 这个平台,在整个视源混合云数据湖环境当中,还有另外两个很重要的组件:对象存储和元数据管理。IBM 对象存储具有非常高扩展性和可用性,可以在多站点的环境下,实现对于整个对象的基于 S3 对象那种访问的连续性和性能的保证。视源在对象存储的部署上面,采用了多站点的部署方式,获得了健壮的、鲁棒性非常好的对象存储的服务。Spectrum Scale 集群可以和 IBM Cloud Object Storage 对象存储群进行集成,实现数据的分层管理、生命周期的管理,实现整个企业数据分布最优化。

同时,视源电子采用了 IBM Spectrum Discover 元数据管理平台,可以把 Spectrum Scale 文件存储中的数据的元数据,比如文件名、修改日期、属性 (包括自定义的属性),集中地提炼到元数据平台进行统一的管理,也可以把对象存储系统的元数据和自定义元数据都能够提取出来,在元数据平台里面进行管理。那么怎么来管理?其实最主要的一点就是可以用它进行检索和再发现,所谓检索就是可以在平台中进行查找所需要的数据。未来企业的环境,文件数量可能是上亿、十亿甚至于更多。在这样的环境当中,如何能够快速地找到它、提取它、使用它,在整个 AI 的环境或者数据分析环境、在数据准备环节都是非常重要的一件事情,往往也是非常耗时的一件事情。Spectrum Discover 可以极大缩短在查找数据,找到所需要的数据这件事所花的时间。找到数据之后,还可以对它进行一些再加工,比如标签化处理,和其他 AI 平台进行集成、分类,文件分析等,这些都可以在 Spectrum Discover 上来完成。

所以,有三大组件帮助实现整个视源电子数据湖的建设,包括:一个统一的平台及支持多接口,一个对象存储来实现高可用的对象存储的服务,一个元数据的管平台,实现对于数据安全、访问和管理、成本以及数据治理等不同方面的优化。

视源电子信息中心总监罗威称,“整个混合云的数据湖,可以整合不同的介质,磁盘、磁带、云存储,在具有很强扩展能力同时,还可以具有很好的性能表现,实际上对于企业来讲这样的一个存储底座,对于上层的数据分析、数据治理、数据安全的保障、数据访问的支持,都是一个非常有力的一个支撑。”

通过整个方案的打通,视源电子实现了更加安全、稳健的一个底层数据的支撑平台。视源电子信息中心总监罗威评价道:“通过 IBM Spectrum Scale 统一的命名空间,可以来服务不同的应用场景,大幅降低运维、管理的复杂,我们的运维人员不需要去适配不同的管理平台或者不同的存储管理系统。” 。

通过数据的分层管理,视源电子可以在合理的成本控制范围之内,极大地去保证这种高并发的应用的 IO 的需求,把温数据和冷数据及时地往成本更低廉的介质,磁带或者公有云上面去做自动的转储,把 IO 性能更好的像 SSD 或者 SAS 磁盘来去保证高 IO 需求的应用。归档成节约超过 80%,实现低碳绿色存储。

借助 IBM Spectrum Discover 元数据管理,视源电子可以非常快地去定位和检索想要的数据。视源电子的生产、制造数据量非常大,像在网卡的 mac 地址管理这一项数据量就达到了上亿级,在这么大的数据量里面去做检索耗时是非常夸张的。通过 IBM Spectrum Discover 可以帮助快速地在海量的数据里面去定位数据,同时基于元数据管理的优势,也可以数据进行自动化的标签管理,解放管理员,让他们可以更加实时地去了解当前存储数据的增长趋势和增长类型,以及下一步需要扩容、在哪一个存储介质上面去做持续的优化。

结合软件一体机和云服务,IBM 软件定义存储可以满足灵活多样的企业数据管理要求。Spectrum Scale 本身的加速能力、数据管理能力、对多云、混合多云应用的支持能力,也能够帮助企业在各种各样的混合云应用平台上,从小处开始建立非常快速的发展,来构建企业级的数据存储平台。同时帮助实现应用现代化,支持现代化环境中的一些新的应用,无论是 AI、机器学习应用,还是混合云、容器应用。在这个过程中,借助于 IBM 本身的企业级数据管理的能力,可以兼顾安全性、数据的弹性,同时通过统一的数据访问服务和一些其他组件的结合,帮助企业更加简便地操作和管理数据。通过这个方式能够让混合云非常简单地变成高效的数据存储和服务平台,加速把数据转变成企业的业务应用价值。

现代化混合云数据湖

现代化混合云数据湖

视源电子信息中心总监罗威称,“整个混合云的数据湖,可以整合不同的介质,磁盘、磁带、云存储,在具有很强扩展能力同时,还可以具有很好的性能表现,实际上对于企业来讲这样的一个存储底座,对于上层的数据分析、数据治理、数据安全的保障、数据访问的支持,都是一个非常有力的一个支撑。”

视源电子

广州视源电子(CVTE,简称视源电子)成立于 2005 年,是一家制造业的研发型企业,目前主要产业涉及部件业务(如 TV 板卡)、未来教育、企业服务、健康医疗、人工智能以及孵化器。视源电子最初做硬件研发,后来转做软件,借助多年积累的软件的研发经验去布局智慧医疗,改变了传统医疗器材的通讯和检测方式,让器材更加智能,提升医护的工作效率,优化患者的就医体验。

LinkedIn