程序员需要关注的十个大数据技术-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

程序员需要关注的十个大数据技术

阅读量：6198 次

发布时间：2019-06-21

本文共 1225 字，大约阅读时间需要 4 分钟。

大数据已然成为当今最热门的技术之一，正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点最受欢迎的十大开源的大数据技术。

大数据

hadoop ——高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序。

Spark ——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统，成长迅速，对 microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

NiFi ——Apache NiFi是由美国国家安全局(NSA)贡献给Apache基金会的开源项目，其设计目标是自动化系统间的数据流。基于其工作流式的编程理念，NiFi非常易于使用、强大、可靠、高可配置。两个最重要的特性是其强大的用户界面和良好的数据回溯工具。堪称大数据工具箱里的瑞士军刀。

Apache Hive 2.1 ——Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。随着最新版本的发布，性能和功能都得到了全面提升，Hive已成为SQL在大数据上的最佳解决方案。

Kafka ——Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模网站中的所有动作流数据。它已成为大数据系统在异步和分布式消息之间的最佳选择。从Spark到NiFi再到第三方插件工具以至于Java到Scala，它都提供了强大的粘合作用。

Phoenix —是HBase的SQL驱动。目前大量的公司采用它，并扩大其规模。HDFS支持的NoSQL能够很好地集成所有工具。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。

Zeppelin ——Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

Sparkling Water ——H2O填补了Spark’s Machine Learning的缺口，它可以满足你所有的机器学习。

Apache Beam ——在Java中提供统一的数据进程管道开发，并且能够很好地支持Spark和Flink。提供很多在线框架，开发者无需学习太多框架。

Stanford CoreNLP ——自然语言处理拥有巨大的增长空间，斯坦福正在努力增进他们的框架。

本文转自d1net（转载）

你可能感兴趣的文章

学习记录（六）

一条没有鱼鳔的鱼

Linux定时任务

[NOIP2016day1T1] 玩具迷題(toy)

iOS UICollectionView 长按移动cell

PHP面试题之小杂鱼

django-restframework

Linux基础学习（7）--用户和用户组管理

Java操作XML文件

shell脚本编程数组

WordPress Gravatar国内加载缓慢解决办法

扩展欧几里德算法及其应用

linux OS一些基本概念

在Android java代码中如何改变文件的权限

MySQL 5.7 弱密码限制

spring4.0学习笔记（一）

CakeDC(cakephp company)Git workflow--适合于较大团队大型项目开发

Mysql主从配置+读写分离（转）

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-08 03:23:25 当前IP: 52.14.125.137 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我