搜索 | 会员  
  • 从数仓建设的角度思考,数据仓库需要依赖于稳定和规范的数据源,数据需要经过采集加工后才能真正被数仓所使用。推动数据同步服务的平台化,才有可能从源头规范数据的产出。数据同步服务不像数据......
  • 在大数据系统中,我们往往无法直接对在线系统中的数据直接进行检索和计算。在线系统所使用关系型数据库、缓存数据库存储数据的方式都非常不同,很多存储系统并不适合分析型(OLAP)的查询,也不......
  • 现在很多想从事于机器学习的朋友都存在很多困惑,主要是很多相关的书看不懂,尤其是数学部分,机器学习的基础是数学。数学并非是一个可选可不选的理论方法,而是不可或缺的支柱。对于机器学习算......
  • spark已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及sparkstreaming之后,对spark技术的使用有一......
  • 在移动互联网迅速发展的今天,信息量爆发性增长,人们获取信息的途径越来越多,如何从大量的信息中获取我们想要的内容,成为了推荐系统研究的重点。随着大数据产业的不断壮大,推荐系统在企业也......
  • 世间的一切对象都可化为节点;世间一切关系都可化为节点间的一条线;从而组成了如梦幻泡影的图。将来的环球必定是图的世界。......
  • 在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了。而在这些公司中,也有很多家公司的日数据增长达到100TB+了。所以我们每天都要观察......
  • 本文我们则会推荐整体技术组件选型,对每个技术组件做出简单介绍,尤其对我们抽象并实现的四个技术平台(统一数据采集平台、统一流式处理平台、统一计算服务平台、统一数据可视化平台)着重介绍......
  • 大数据技术主要针对的是大规模数据的计算处理问题,那么要想解决的这一问题,首先要解决的就是大规模数据的存储问题。大规模数据存储要解决的核心问题有三个方面:......
  • 目前机器学习技术正在对世界各地的企业产生重大影响,但很多机构依然对在何时、何处最优的使用机器学习感到困惑。为了成功的运用这门技术,企业首先要明确,哪些问题最适合应用机器学习,并确保......
  • 数据科学家对优化算法和模型以进一步发掘数据价值的追求永无止境。在这个过程中他们不仅需要总结前人的经验教训,还需要有自己的理解与见地,虽然后者取决于人的灵动性,但是前者却是可以用语言......
  • 在机器学习建模问题中,合适特征的构造对于模型的性能至关重要,看到很多同学介绍特征工程,包括特征的预处理和特征筛选等,这些非常重要,但是特征预处理和特征筛选的前提是要有基础特征,而这......
  • 如果你问了错问题,你将会得到错误的答案。比如金融业中的欺诈识别问题,这个问题最初可能是“这个特定的交易是否存在欺诈”。为了确定这一问题,你将需要一个包含欺诈和非欺诈交易示例的数据集......
  • 标准的机器学习工作流:针对业务上产生的具体问题,我们把它转化成数据问题,或者评估它能否用数据来解决。将数据导入并过滤后,我们需要将数据与业务问题和目标进行相关性分析,并根据具体情况......
  • 深度学习的巨大成功,揭示了从人类自身启发,并形成算法的巨大价值;相反,从机器学习中,我们有什么值得学习和启发的东西吗?......
相关主题
大家在关注
我们的推荐
最新的干货