Hbase学习之路(一)初识与扩展
产生背景Google 发表的三驾马车(既谷歌文件系统 GFS、MapReduce 和 BigTable)论文,被誉为计算机科学进入大数据时代的标志。因早期 Ha...
hive 常见报错以及解决方案
整理汇总hive使用过程中遇到的问题以及解决办法。 问题一: Hive 创建表时报错Error: Error while processing statement: FAILED: Execu...
Flume 学习之路(六)Flume 的监控
使用 Flume 实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注 Source、Channel、Sink 之间的消息传输是否正常...
大数据集群搭建 (一) hadoop 三节点分布式集群搭建
Hadoop大致可分为Apache Hadoop和第三方发行版Hadoop,考虑到Hadoop集群部署的高效,集群的稳定性,以及后期集中的配置管理,业界多使用...
Flume 学习之路(五)Flume 的部署安装
Flume 框架对 Hadoop 和 Zookeeper 的依赖只是在 jar 包上,并不要求 Flume 启动时必须将 Hadoop 和 Zookeeper 服务也启动。 Flume瞎子...
Flume 学习之路(三)Flume的Source类型
官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources Avro Source内置 Avro Server,可接受 Avro 客户端发送的数...
PySpark 设置python的版本
PySpark 在工作程序中都需要使用的为默认环境的python版本,怎样把python的版本切换成3的版本,您可以通过 PYSPARK_PYTHON 指定要使用的...
Flume 学习之路(二)Flume 高级组件(Interceptor,Channel Selector 和 Sink Processor)
除了 Source、channel、Sink外,Flume Agent 还允许用户设置其他组件更灵活地控制数据流,包括 Interceptor,Channel Selector 和 Sink ...