搜索 | 会员  
  • 大数据实时处理平台市场上产品众多,本文着重讨论spark与storm的比对,最后结合适用场景进行选型。
  • 每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中
  • 该文章是在hadoop环境搭建好的基础上进行的,主要是针对搭建过程中自己遇到的一些小问题。
  • 随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。ShruthiKumar和SiddharthPatankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。
  • 传统的离线计算会存在数据反馈不及时,很难保证很多急需实时数据做决策的场景。同时,如果各个业务方自己既负责开发实现各种实时计算程序,同时还需要维护一套实时计算软件环境
  • 当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因。在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请
  • 您听说过ApacheSpark,但您能把它解释清楚吗?它能解决哪些问题呢?它是怎样解决这些问题的?
  • 随着互联网技术的迅速发展,用户对于数据处理的时效性、准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战。
  • ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。
  • 本文以时间为线索来介绍我们在实时计算平台建设过程中做过的工作,遇到的问题,希望能给需要实时计算的公司和同学提供参考。
  • 本文主要介绍ApacheSpark如何实现苏宁中台商品价格信息的TB级别复杂业务数据处理运算,以及其中碰到的问题和解决方案。
  • 在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。
  • 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。
  • 当Sparkstreaming程序意外退出时,数据仍然再往Kafka中推送,然而由于Kafka默认是从latest的offset读取,这会导致数据丢失。为了避免数据丢失,那么我们需要记录每次消费的offset,以便下次检查
  • spark中的共享变量是我们能够在全局做出一些操作,比如record总数的统计更新,一些大变量配置项的广播等等。
相关主题
大家在关注
我们的推荐
最新的干货
  • 地图
  • 本站
  • 我们
  • 服务
  • 版权
  • 联系
  • 回馈
  • 博客