spark日志分析的数据量

storm和spark的区别是基于spark地震-3分析的目的 。从速度上看,Spark继承了流行的MapReduce模型,可以更有效地支持多种类型的计算,比如交互式查询等等,特别是Spark可以在Hadoop集群上运行,可以访问任何Hadoop 数据 source,包括Cassandra 。
【spark日志分析的数据量】
1、SPARK在事件 日志扫描中使用Sigma规则适马是日志 file中用于威胁检测的规则格式 。对于日志数据,“Snort规则”适用于网络流量,“YARA签名”适用于文件数据 。很容易写和读 。编写适马规则只需要几分钟 。在右边,您可以看到一个简单的六适马规则,检查“系统”事件日志和密码转储活动的线索 。检测部分包含1 个标识符(选择、关键字、quarkspwdump),可以由规则作者自由定义 。

它还包含描述、参考、可能的误报和评级 。分析人们使用适马为他们的SIEM或日志管理解决方案生成搜索查询 。Sigmarepo包含一个转换器 , 它允许通用规则的转换 , 如弹性搜索、splunk、qradar、logpoint、Windows Defender (WDA TP)和ArcSight 。将于7月底发布的SPARK1.14版本1.14正是这么做的 。
2、 数据倾斜(一我相信大部分数据做的童鞋都会遇到数据倾斜 , 而数据倾斜会发生在数据发展的各个方面 。比如:1 。使用Hive计算数据时,reduce阶段卡在99.99% 。2.当使用SparkStreaming作为实时算法时,执行器总会出现OOM错误,但其余执行器的内存使用率很低 。3.这些问题经常困扰着我们 。我们就是等了几个小时都出不去数据 。我们有多难过 。

我先说说作者对数据数量的初步认识:数据量大就了不起?数据数量少 , 机器少,计算能力有限,所以难度是一样的 。为什么量大时数据倾斜,量小时数据倾斜?这种理解也有道理,但很片面 。我们来比较两个场景:公司1:五台服务器,总用户量1000万,64G内存 。公司2:10亿用户,1000台64G内存的服务器 。

3、Spark踩坑vlog——join时shuffle的大坑联接项目中的两个表 , 一个大表,一个小表,平时在200 Executor Core * 20 GexecutorMemory的资源下运行良好 。随着业务的增加数据,有一天,这个任务没有用完 , 每次重试五次都失败,最后任务报错;报错时两个米的情况如下:大米的数据约278亿 , 约1TB,另一个米的数据约480万,约4GB通过DAG图发现任务卡在两个表连接的阶段;使用SparkSQL连接两个表时,错误为:org.apache. spark. Shuffle . Metadata FetchFailedException:missingoutputlocation for Shuffle 0和org . Apache .spark 。洗牌 。FetchFailedException:FailedToConnecttoHostname:port使用rdd连接两个表时,错误为:warntaksetmanager:Lost Task 17.1 in Stage 4.1:Java 。

    推荐阅读