实时技术的荣光,微软发布实时大数据分析产品!

跨云智能设备和并行技术的新编程模型是数字化转型的一个关键方面。从这些新的应用范式中产生的关键数据类型之一是遥测数据。遥测数据无处不在: 物联网传感器、应用程序日志、网络日志、基础设施日志、安全日志、指标、点击流、时间序列等等。从这些数据中释放出来的强大洞察力推动了消费者和企业每天依赖的联网设备的进步。
利用遥测数据需要一个灵活的适应性平台,它必须可以处理大量数据,并为用户提供实时的洞察,以改善他们的操作和创新。传统上,这些数据是在竖井系统中存储和管理的,缺乏实时可见性,具有规模的限制,维护成本很高。此外,将这些数据与企业业务进行普及化和关联是很复杂的。
Azure Synapse Data Explorer (数据浏览器)是什么? 实时技术的荣光,微软发布实时大数据分析产品!
文章图片

为了让客户能够充分利用日志和遥测数据,微软发布Azure Synapse Data Explorer(数据浏览器)的公开预览。为了补充现有的SQL池和Apache Spark引擎,微软从产品层面对新的数据浏览器运行时引擎进行了优化,使用强大的索引技术,自动索引自由文本和半结构化数据,让它可以近乎实时的速度查询大量的结构化、半结构化和自由文本遥测和时间序列数据,以下是一些使之成为可能的关键功能:

  • 强大的分布式查询引擎,索引所有数据,包括自由文本和半结构化数据。数据被自动压缩、索引、自动优化,缓存在SSD上,并持久化在存储上。计算和存储是分离的,这给了用户完全的弹性来自动伸缩,而不需要停机。
  • 直观的Kusto查询语言(KQL),使用Synapse数据浏览器的最佳文本索引来探索原始遥测和时间序列数据,用于高效的自由文本搜索、正则表达式和对跟踪\文本数据的解析。
  • 全面的JSON解析功能,用于查询半结构化数据,包括数组和嵌套结构。
  • 原生、高级时间序列支持创建、操作和分析多个时间序列,引擎内Python和R执行支持模型评分。
Azure Synapse数据浏览器的架构是什么样的? 数据资源管理器集群通过计算资源和存储资源分离来实现横向扩展的体系结构。这样,用户就可以独立扩展每种资源,例如,针对相同的数据运行多个只读计算。数据资源管理器集群包含一组计算引擎,该引擎负责自动索引编制、压缩、缓存和分布式查询服务。另外,数据资源管理器集群还有一组数据管理服务的计算引擎,该服务负责后台系统作业,以及托管和排队的数据引入。所有数据以压缩的分列格式保存在托管的 Blob 存储帐户上。
实时技术的荣光,微软发布实时大数据分析产品!
文章图片

数据资源管理器集群支持丰富的生态系统,可以使用连接器、SDK、REST API 和其他托管功能引入数据。用户可以通过多种方式使用临时查询、报告、仪表板、警报、REST API 和 SDK 的数据。
Azure Synapse数据浏览器有哪些创新和特色之处? 实时技术的荣光,微软发布实时大数据分析产品!
文章图片

无限流数据引入 - 数据资源管理器提供内置的集成用于实现无代码/少代码、高吞吐量数据引入以及从实时源缓存数据。可以从Event hub、Kafka、Azure Data Lake 之类的源、Fluentd/Fluent Bit 之类的开源代理以及各种跨云和本地数据源引入数据。
无界数据建模 - 如果使用数据资源管理器,无需生成复杂的数据模型,并且在使用数据之前无需编写复杂的脚本来转换数据。
无穷数据规模 - 数据资源管理器是一个分布式系统,其计算和存储可独立缩放,可以轻松实现PB 量级之上的数据分析。
【实时技术的荣光,微软发布实时大数据分析产品!】无需索引维护 - 无需执行维护任务即可优化数据以保持查询性能,并且无需维护索引。使用数据资源管理器时,所有原始数据立即可供使用,因此你可以针对流数据和永久性数据运行高性能、高并发的查询。可以使用这些查询生成准实时仪表板和警报,并将运营分析数据连接到数据分析平台的其余组件。
低延迟、高性能、高并发 - 数据资源管理器为半结构化数据 (JSON) 和非结构化数据(自由文本)编制索引,因此可以十分高效地对此类数据运行查询。默认情况下,在数据引入期间将为每个字段编制索引,并可以通过相应的选项使用低级别编码策略,以微调或禁用特定字段的索引编制。索引范围为单个数据分片。
标准数据分析 - 数据资源管理器通过直观的 Kusto 查询语言 (KQL) 标准化了自助式的大数据分析。KQL 兼备 SQL 的表达性和强大功能,以及 Excel 的简便性。KQL 经过高度优化,可以利用数据资源管理器的一流文本索引技术探索原始遥测数据和时序数据,实现高效的自由文本和正则表达式搜索,并提供全面的分析功能用于查询跟踪\文本数据和 JSON 半结构化数据(包括数组和嵌套结构)。KQL 提供高级时序支持用于创建、操作和分析多个时序,并为模型评分提供引擎内部的 Python 执行支持。
多元生态集成 - Azure Synapse Analytics 为数据资源管理器、Apache Spark 和 SQL 引擎之间的数据提供互操作性,使数据工程师、数据科学家和数据分析师能够轻松且安全地访问数据湖中的相同数据并就此展开协作。
Azure Synapse数据浏览器用以支撑的数字化业务场景有哪些? 实时技术的荣光,微软发布实时大数据分析产品!
文章图片

精准实时行为优化
Azure Synapse数据浏览器在客户的Azure混合云解决方案之间灵活工作。例如,一家铁路网络公司可以信任Azure Synapse数据浏览器来取代其本地日志管理解决方案。对于交通运输业来说,安全是首要考虑因素,因为人们的生活依赖于实时遥测数据。随着大规模的基础设施在全国范围内扩展,铁路管理公司需要一个能够快速获取大量时间序列和日志数据的平台,然后在Power BI中创建强大的洞察力和数据可视化。Azure Synapse数据浏览器让这家铁路公司有效地识别其庞大的运输网络中的行为模式或违规行为,从而使铁路系统更加安全。
实时供应链洞察
Azure Synapse数据浏览器可以对定制事件和日志数据构建实时的大数据分析,从而为企业节约时间和资源,专注于业务的核心价值。例如,如果一家互联网外卖公司想要改善他们的流程和业务,以提供一致和一流的客户体验,他们可能会被缓慢、复杂和昂贵的日志管理技术方案所阻碍。然而,使用Azure Synapse数据浏览器引擎,互联网外卖公司可以立即从更快的数据摄取、更高的并发性和更大的弹性中获益。这将使他们能够专注于自己的核心使命: 为人们提供美味的外卖和始终如一的客户服务。
复杂安全事件处理
面对数字化安全威胁,每一秒都很重要。客户端上线延迟、网络故障和查询超时可能是毁灭性的,但这些问题可能困扰网络安全和日志管理服务提供商。他们现有的技术解决方案可能会阻碍他们实现易访问性和透明度的核心价值主张的能力。在这种情况下,网络安全供应商可以使用Azure Synapse数据浏览器,这将为他们提供一个数据平台,为他们的客户提供关于威胁检测、情报警报和安全趋势的有价值的见解。因此,网络安全供应商可以与他们的用户建立更牢固的关系和更多的信任。
综上所述, Azure Synapse数据浏览器可以跨各种数据源和数据库创建有意义的连接。如今,各种数字化业务都被大量的时间序列、日志和遥测数据淹没,这些数据来自物联网设备、应用程序、网站和其他来源。这种实时的持续数据流对于IT基础设施可能是压倒性和缓慢的。使用Azure Synapse数据浏览器的分布式查询引擎,客户可以获得强大的洞察力,让他们专注于自己的核心业务,无论是创建一个更安全的世界,还是送出最好的外卖。
(由21世纪互联运营的Azure Synapse Analytics现已上市,点击阅读原文了解更多。)

    推荐阅读