搜索 | 会员  
  • 在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了。而在这些公司中,也有很多家公司的日数据增长达到100TB+了。所以我们每天都要观察......
  • 本文我们则会推荐整体技术组件选型,对每个技术组件做出简单介绍,尤其对我们抽象并实现的四个技术平台(统一数据采集平台、统一流式处理平台、统一计算服务平台、统一数据可视化平台)着重介绍......
  • 大数据技术主要针对的是大规模数据的计算处理问题,那么要想解决的这一问题,首先要解决的就是大规模数据的存储问题。大规模数据存储要解决的核心问题有三个方面:......
  • 目前机器学习技术正在对世界各地的企业产生重大影响,但很多机构依然对在何时、何处最优的使用机器学习感到困惑。为了成功的运用这门技术,企业首先要明确,哪些问题最适合应用机器学习,并确保......
  • 数据科学家对优化算法和模型以进一步发掘数据价值的追求永无止境。在这个过程中他们不仅需要总结前人的经验教训,还需要有自己的理解与见地,虽然后者取决于人的灵动性,但是前者却是可以用语言......
  • 在机器学习建模问题中,合适特征的构造对于模型的性能至关重要,看到很多同学介绍特征工程,包括特征的预处理和特征筛选等,这些非常重要,但是特征预处理和特征筛选的前提是要有基础特征,而这......
  • 如果你问了错问题,你将会得到错误的答案。比如金融业中的欺诈识别问题,这个问题最初可能是“这个特定的交易是否存在欺诈”。为了确定这一问题,你将需要一个包含欺诈和非欺诈交易示例的数据集......
  • 标准的机器学习工作流:针对业务上产生的具体问题,我们把它转化成数据问题,或者评估它能否用数据来解决。将数据导入并过滤后,我们需要将数据与业务问题和目标进行相关性分析,并根据具体情况......
  • 深度学习的巨大成功,揭示了从人类自身启发,并形成算法的巨大价值;相反,从机器学习中,我们有什么值得学习和启发的东西吗?......
  • 「数据科学家比程序员擅长统计,比统计学家擅长编程。」本文介绍了数据科学家需要掌握的十大统计技术,包括线性回归、分类、重采样、降维、无监督学习等。......
  • 现在机器学习应用非常流行,了解机器学习项目的流程,能帮助我们更好的使用机器学习工具来处理实际问题。......
  • 为了应对随着数据量的增长、数据处理性能的可扩展性,许多企业纷纷转向Hadoop平台来搭建数据分析平台。Hadoop平台具有分布式存储及并行计算的特性,因此可轻松扩展存储结点和计算结点,解决数据......
  • 过去十年中人工智能的飞速增长刺激了当今就业市场对AI和ML技能的巨大需求。从金融到医疗保健,现在几乎所有行业都在使用基于ML的技术。本文将介绍一系列可用于构建机器学习模型的最佳框架和库。......
  • 深度学习在近几年里取得了巨大的进步,它已经或者是有望成功地被应用在我们许多生活场景中,比如自动驾驶、安防、翻译、医疗等等。可以说,计算机的计算和通信能力的大幅提升是促使深度学习成功......
  • 推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。个性化推荐已经在电商(Amazon,淘宝,京东等)、电影和视频(Youtube,Hulu,爱奇艺,腾讯视频)、个性化音乐(Spotify......
相关主题
大家在关注
我们的推荐
最新的干货