InfoSphere Biginsights 是企业级海量大数据存储和分析的平台,支持对结构化、半结构化和非结构化海量数据的存储和快速分析,提供多节点的分布式计算,可以随时增加节点提升数据处理能力。BigInsights 以 Apache Hadoop 及其相关开源项目作为核心组件,并在 Hadoop 开源框架的基础上进行了大量的开发和扩展,陆续将丰富的高级文本分析、机器学习、基于浏览器的可视化工具(BigSheets)、大规模并行处理 SQL 引擎(MPP SQL Engine,IBM Big SQL)等纳入其中,并增强了高可用性、可扩展性、安全性、性能、易用性、监控等,构建了一个完整的企业级大数据平台。

为什么选择 IBM for Hadoop?

IBM InfoSphere BigInsights 为企业带来了 Hadoop 的力量。Apache™ Hadoop® 是一个开源软件框架,可用于可靠地管理大量的结构化和非结构化数据。

IBM 使得利用 Hadoop 从大数据中获取价值并构建大数据应用程序变得更加简单。它增强了开源技术来应对企业的需求,添加了管理、发现、开发、配备、安全、支持和同类最佳的分析功能。结果,我们得到了一个面向复杂的大规模项目的、对用户更友好的解决方案。

面向 Hadoop 的 InfoSphere BigInsights 使得所有规模的企业都能够以具有成本效益的方式管理和分析大数据——消费者和业务人员每天创建的海量的、各种各样、快速生成的数据。InfoSphere BigInsights 通过以下方式帮助提高了操作效率:将您的数据仓库环境现代化,以便可以将其用作可查询的归档,并允许您存储和分析大量的多结构数据,不会给数据仓库带来压力。


如果您想了解 BigInsights 产品具体平台组件、下载版本等信息,请点击这里;如果您想了解 BigInsights 最新版本的功能特性,请点击这里;如果您想了解 BigInsights 最新版本的一大特色亮点——BigSQL,请点击这里

关键领域

内置分析

  • 文本分析:拥有一个庞大的提取器库的复杂文本分析,支持从海量的原生文本数据中获取可执行的指导建议。
  • 社交数据分析加速器:获取大量社交媒体数据并处理它们,生成重要的洞察,这些洞察可用于开发程序/应用程序,比如客户保留、客户获取、线索生成、品牌管理和营销活动效益。
  • 机器数据加速器:提供获取大量机器数据来源并处理它们的过程,这些数据来源包括 IT 机器、传感器、仪表、GPS 设备等。
  • Big R:Big R 支持使用 R 作为查询语言,从其 R 环境中浏览、可视化、转换和建模大数据,无需使用 MapReduce 或 Jaql 执行任何显式编程。

适用性

  • Big SQL:为 SQL on Hadoop 提供了无与伦比的简单性、性能和安全性。它为所有大数据提供了单点访问和视图,数据完全保留在原地。
  • BigSheets:基于 Web 的分析和可视化工具,具有人们所熟悉的、类似电子表格的界面,还包含 D3 图表,支持分析大量数据,帮助设计和管理长期运行的数据收集作业。
  • 开发工具:人们所熟悉的、基于 Eclipse 的开发环境,用于构建和部署分析应用程序,还提供了一组开发人员工具提取器和编辑器,以便实现快速采用,并减少编码和调试。
  • 管理控制台:审核有助于加强安全保护和访问控制,而监视提供了从一个集中的仪表板控制所有应用程序的能力。
  • 工作负载优化:自适应 MapReduce 会自动适应用户需求和系统工作负载,以便提高性能和简化运行的作业,而工作负载计划程序能够根据用户选择的度量指标对作业计划进行优化和控制。
  • GPFS:提供了兼容 POSIX 的、企业级的分布式文件系统支持,为 Hadoop 和 MapReduce 环境带来了已经成熟的大数据分布式文件系统功能。

企业性能和集成

  • 大数据集成:无需编码就可以创建数据集成逻辑和作业,创建它们后,可以通过受信息服务器支持的 ETL 作业在整个企业内重用它们。支持数据治理,包括数据沿袭(data lineage)、业务规则、策略管理和数据质量。
  • Hadoop 中的客户识别:利用主数据管理概率匹配,为存储在 Hadoop 中的客户信息建立惟一标识符,从而增强客户分析。
  • Data Privacy for Hadoop:降低查询敏感数据的风险。通过数据监视(在来源系统内和 Hadoop 上)维护可接受的风险容忍度。