Hive

Hive基础知识详解

Hive提供了多种操作数据的方式,但是一些操作比较耗费时间,性能较低,不能满足在写入数据时的性能要求,这篇文章主要介绍Hive的常规操作方式,以及在插入数据时如何能够快速将数据插入到Hive表中,提高写入数据的性能。
Hadoop节点交互流程

Hadoop基础概念详解

Hadoop中存在很多的名词,包括各个节点名称,每个节点的用处在这篇文章中都是有介绍了,同时也介绍了Hadoop的数据存储结果,数据存储涉及到的文件,每个文件中存储的内容,在本文章都有比较详细的介绍,同时也介绍了在分布式集群中每个节点的作用。
hadoop

Hadoop中MapReduce计算流程详解

在Hadoop中时常需要MapRed任务对已有的文件进行处理,Hadoop定义了MapReduce任务的执行过程,包括了读取文件,文件的Splits, Map任务,Partitioner分区,Sorter排序,Reudcer任务来完成目的,这一篇文章说明了MapReduce任务执行流程
Hive

Hive参数

Hive提供了三种能够设置参数的方法,这三种方法产生的作用于有一定的差别,在开发的过程中需要根据不同的需求设置参数,同时,Hive提供了分桶的操作,分桶能够将数据分布到不同的文件中,然后能够通过抽样的方式满足查询数据的需求。
Hive创建自定义函数

Hive创建自定义函数

在Hive查询数据的时候,有些时候hive提供的函数并不能满足查询和统计的需求,就需要开发函数。在Hive中提供了三种方式实现自定义,分别是UDF、UDAF和UDTF三种方式,这三种方式基本上满足了对单行数据处理, 统计和其他的一些需求。
如何单独使用django orm框架

如何单独使用django orm框架

最近在学习python语言,然后自己用python写一些小的程序,然后从各个网站爬取一些数据,并把这些数据存放在mysql数据库中,然后又不想自己写sql, 因此了解到django中有orm的模块,但是django又必须在web项目中使用,但是我又不想运行web项目,因此考虑将orm框架提出来,单独能够操作数据库使用。