搜索 | 会员  
  • Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。......
  • 一直以来,微博都尝试通过机器学习来解决业务场景中遇到的各种挑战。本文为新浪微博吴磊在CCTC2017云计算大会Spark峰会所做分享《基于Spark的大规模机器学习在微博的应用》主题的一部分,介绍微......
  • 大数据技术领域正被越来越多的公司关注,而开源一直是大数据技术的灵魂。随着一些细分领域对大数据工具提出更高的期望和要求,一批更高效更有针对性的大数据工具先后诞生,以下将为您介绍几大引......
  • 要讲清楚这个算法,一堂课是远远不够的,所以今天仅仅站在创作者的角度来讲,方便短时间内给大家带来最大帮助,让创作者能明白我们的算法。......
  • 大数据实时处理平台市场上产品众多,本文着重讨论spark与storm的比对,最后结合适用场景进行选型。......
  • 每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中......
  • Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。这个独特的设计是什么样的呢?......
  • 该文章是在hadoop环境搭建好的基础上进行的,主要是针对搭建过程中自己遇到的一些小问题。......
  • 奥地利符号计算研究所(ResearchInstituteforSymbolicComputation,简称RISC)的ChristophKoutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科......
  • 推荐系统是通过挖掘用户与项目之间的二元关系,帮助用户从大量数据中发现其可能感兴趣的项目如网页、服务、商品、人等,并生成个性化推荐以满足个性化需求......
  • 随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。ShruthiKumar和SiddharthPatankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。......
  • 传统的离线计算会存在数据反馈不及时,很难保证很多急需实时数据做决策的场景。同时,如果各个业务方自己既负责开发实现各种实时计算程序,同时还需要维护一套实时计算软件环境......
  • 当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因。在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请......
  • 第一行是对所有分区的一个描述,然后每个分区都会对应一行,因为我们只有一个分区所以下面就只加了一行。leader:负责处理消息的读和写,leader是从所有节点中随机选择的.replicas:列出了所有......
  • 搭建了三个节点的Kafka集群,在主节点创建一个topic,作为生产者,两个从节点作为消费者分别看看能否接收数据,进行验证......
相关主题
大家在关注
我们的推荐
最新的干货