Hive创建自定义函数

Hive创建自定义函数

在Hive查询数据的时候,有些时候hive提供的函数并不能满足查询和统计的需求,就需要开发函数。在Hive中提供了三种方式实现自定义,分别是UDF、UDAF和UDTF三种方式,这三种方式基本上满足了对单行数据处理, 统计和其他的一些需求。
如何单独使用django orm框架

如何单独使用django orm框架

最近在学习python语言,然后自己用python写一些小的程序,然后从各个网站爬取一些数据,并把这些数据存放在mysql数据库中,然后又不想自己写sql, 因此了解到django中有orm的模块,但是django又必须在web项目中使用,但是我又不想运行web项目,因此考虑将orm框架提出来,单独能够操作数据库使用。
Hive客户端配置

Hive客户端配置

在安装完成hive metastore服务后,我们需要通过代码或者工具类访问hive并操作hive, 在hive中提供了hiveserver2的服务方便开发通过外部的方式访问hive, 这片文章就主要介绍配置hiveserver2并能够通过外部访问hive.
yarn集群配置

yarn集群配置

yarn作为hadoop中比较重要的组件,主要负责节点的管理,资源的申请和应用管理,是非常重要的,因此在这篇文章主要介绍了yarn高级群如何部署,如何在执行mapreduce任务的时候使用yarn进行调度,希望可以帮助到大家
hadoop

Hadoop HA集群搭建

本文主要记录了hadoop的高可用安装教程,主要是针对NameNode的高可用,其中主要使用了Zookeeper,JournalNode等配置,可以理解为是在之前DataNode主从复制上的一个扩展安装,保证了整个集群的高可用
hadoop

hadoop安装

hadoop支持伪分布式部署和集群的部署方法,这篇文章主要记录了dfs的集群配置方法,记录在配置过程中遇到的问题并解决问题,其中包含了dns解析问题,端口问题,防火墙问题等。希望可以帮助到又需要的同学。