题目内容
(请给出正确答案)
[主观题]
1,常用的大数据采集工具有哪些? 2,简要阐述数据预处理原理。 3,数据清洗油哪些方法? 4,阐述常用的ETL工具。
答案
(1)Apache Chukwa,一个针对大型分布式系统的数据采集系统,其构建在Hadoop之上,使用HDFS作为存储。 (2)Flume,一个功能完备的分布式日志采集、聚合和传输系统。在Flume中,外部输入称为Source(源),系统输出称为Sink(接收端),Channel(通道)将源和接收端链接在一起。 (3)Scrible,facebook开源的日志收集系统。 (4)Kafka,当下流行的分布式发布、订阅消息系统,也可用于日志聚合。不仅具有高可拓展性和容错性,而且具有很高的吞吐量。特点是快速的、可拓展的、分布式的、分区的和可复制的。
如搜索结果不匹配,请 联系老师 获取答案