Posted inhadoop hive 大数据 Hive基础知识详解 Hive提供了多种操作数据的方式,但是一些操作比较耗费时间,性能较低,不能满足在写入数据时的性能要求,这篇文章主要介绍Hive的常规操作方式,以及在插入数据时如何能够快速将数据插入到Hive表中,提高写入数据的性能。 Posted by 专注着 14 1 月, 2025No Comments Posted inhadoop hive 大数据 Hive为Hiveserver2客户端授权 hiveserver2为hive提供了远程客户端链接的方式,但是在配置hiveserver2的时候,需要使用用户信息帮助对用户操作进行授权,这篇文章就是说明在hive中如何创建用户并为用户授权,帮助在hive使用过程中进行权限控制,保证数据安全 Posted by 专注着 10 1 月, 2025No Comments Posted inhadoop hive 大数据 Hive Lateral View、视图和索引创建详解 - Lateral View 用于和UDTF函数(explode, split)结合来使用 - 首先通过UDTF函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表 - 主要解决在select使用UDTF做查询的过程中,查询只能包含单个UDTF, Posted by 专注着 6 1 月, 2025No Comments Posted inhadoop 大数据 Hadoop基础概念详解 Hadoop中存在很多的名词,包括各个节点名称,每个节点的用处在这篇文章中都是有介绍了,同时也介绍了Hadoop的数据存储结果,数据存储涉及到的文件,每个文件中存储的内容,在本文章都有比较详细的介绍,同时也介绍了在分布式集群中每个节点的作用。 Posted by 专注着 5 1 月, 2025No Comments Posted inhadoop 大数据 Hadoop中MapReduce计算流程详解 在Hadoop中时常需要MapRed任务对已有的文件进行处理,Hadoop定义了MapReduce任务的执行过程,包括了读取文件,文件的Splits, Map任务,Partitioner分区,Sorter排序,Reudcer任务来完成目的,这一篇文章说明了MapReduce任务执行流程 Posted by 专注着 2 1 月, 2025No Comments Hive参数 Hive提供了三种能够设置参数的方法,这三种方法产生的作用于有一定的差别,在开发的过程中需要根据不同的需求设置参数,同时,Hive提供了分桶的操作,分桶能够将数据分布到不同的文件中,然后能够通过抽样的方式满足查询数据的需求。 Posted by 专注着 23 12 月, 2024No Comments
Posted inhadoop hive 大数据 Hive为Hiveserver2客户端授权 hiveserver2为hive提供了远程客户端链接的方式,但是在配置hiveserver2的时候,需要使用用户信息帮助对用户操作进行授权,这篇文章就是说明在hive中如何创建用户并为用户授权,帮助在hive使用过程中进行权限控制,保证数据安全 Posted by 专注着 10 1 月, 2025No Comments Posted inhadoop hive 大数据 Hive Lateral View、视图和索引创建详解 - Lateral View 用于和UDTF函数(explode, split)结合来使用 - 首先通过UDTF函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表 - 主要解决在select使用UDTF做查询的过程中,查询只能包含单个UDTF, Posted by 专注着 6 1 月, 2025No Comments Posted inhadoop 大数据 Hadoop基础概念详解 Hadoop中存在很多的名词,包括各个节点名称,每个节点的用处在这篇文章中都是有介绍了,同时也介绍了Hadoop的数据存储结果,数据存储涉及到的文件,每个文件中存储的内容,在本文章都有比较详细的介绍,同时也介绍了在分布式集群中每个节点的作用。 Posted by 专注着 5 1 月, 2025No Comments Posted inhadoop 大数据 Hadoop中MapReduce计算流程详解 在Hadoop中时常需要MapRed任务对已有的文件进行处理,Hadoop定义了MapReduce任务的执行过程,包括了读取文件,文件的Splits, Map任务,Partitioner分区,Sorter排序,Reudcer任务来完成目的,这一篇文章说明了MapReduce任务执行流程 Posted by 专注着 2 1 月, 2025No Comments Hive参数 Hive提供了三种能够设置参数的方法,这三种方法产生的作用于有一定的差别,在开发的过程中需要根据不同的需求设置参数,同时,Hive提供了分桶的操作,分桶能够将数据分布到不同的文件中,然后能够通过抽样的方式满足查询数据的需求。 Posted by 专注着 23 12 月, 2024No Comments
Posted inhadoop hive 大数据 Hive Lateral View、视图和索引创建详解 - Lateral View 用于和UDTF函数(explode, split)结合来使用 - 首先通过UDTF函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表 - 主要解决在select使用UDTF做查询的过程中,查询只能包含单个UDTF, Posted by 专注着 6 1 月, 2025No Comments Posted inhadoop 大数据 Hadoop基础概念详解 Hadoop中存在很多的名词,包括各个节点名称,每个节点的用处在这篇文章中都是有介绍了,同时也介绍了Hadoop的数据存储结果,数据存储涉及到的文件,每个文件中存储的内容,在本文章都有比较详细的介绍,同时也介绍了在分布式集群中每个节点的作用。 Posted by 专注着 5 1 月, 2025No Comments Posted inhadoop 大数据 Hadoop中MapReduce计算流程详解 在Hadoop中时常需要MapRed任务对已有的文件进行处理,Hadoop定义了MapReduce任务的执行过程,包括了读取文件,文件的Splits, Map任务,Partitioner分区,Sorter排序,Reudcer任务来完成目的,这一篇文章说明了MapReduce任务执行流程 Posted by 专注着 2 1 月, 2025No Comments Hive参数 Hive提供了三种能够设置参数的方法,这三种方法产生的作用于有一定的差别,在开发的过程中需要根据不同的需求设置参数,同时,Hive提供了分桶的操作,分桶能够将数据分布到不同的文件中,然后能够通过抽样的方式满足查询数据的需求。 Posted by 专注着 23 12 月, 2024No Comments
Posted inhadoop 大数据 Hadoop基础概念详解 Hadoop中存在很多的名词,包括各个节点名称,每个节点的用处在这篇文章中都是有介绍了,同时也介绍了Hadoop的数据存储结果,数据存储涉及到的文件,每个文件中存储的内容,在本文章都有比较详细的介绍,同时也介绍了在分布式集群中每个节点的作用。 Posted by 专注着 5 1 月, 2025No Comments Posted inhadoop 大数据 Hadoop中MapReduce计算流程详解 在Hadoop中时常需要MapRed任务对已有的文件进行处理,Hadoop定义了MapReduce任务的执行过程,包括了读取文件,文件的Splits, Map任务,Partitioner分区,Sorter排序,Reudcer任务来完成目的,这一篇文章说明了MapReduce任务执行流程 Posted by 专注着 2 1 月, 2025No Comments Hive参数 Hive提供了三种能够设置参数的方法,这三种方法产生的作用于有一定的差别,在开发的过程中需要根据不同的需求设置参数,同时,Hive提供了分桶的操作,分桶能够将数据分布到不同的文件中,然后能够通过抽样的方式满足查询数据的需求。 Posted by 专注着 23 12 月, 2024No Comments
Posted inhadoop 大数据 Hadoop中MapReduce计算流程详解 在Hadoop中时常需要MapRed任务对已有的文件进行处理,Hadoop定义了MapReduce任务的执行过程,包括了读取文件,文件的Splits, Map任务,Partitioner分区,Sorter排序,Reudcer任务来完成目的,这一篇文章说明了MapReduce任务执行流程 Posted by 专注着 2 1 月, 2025No Comments Hive参数 Hive提供了三种能够设置参数的方法,这三种方法产生的作用于有一定的差别,在开发的过程中需要根据不同的需求设置参数,同时,Hive提供了分桶的操作,分桶能够将数据分布到不同的文件中,然后能够通过抽样的方式满足查询数据的需求。 Posted by 专注着 23 12 月, 2024No Comments
Hive参数 Hive提供了三种能够设置参数的方法,这三种方法产生的作用于有一定的差别,在开发的过程中需要根据不同的需求设置参数,同时,Hive提供了分桶的操作,分桶能够将数据分布到不同的文件中,然后能够通过抽样的方式满足查询数据的需求。 Posted by 专注着 23 12 月, 2024No Comments
Posted inLinux shell 基础概念 shell 是一个用C语言编写的程序, 它是用户使用linux的桥梁. Shell既是一种命令语言, 又是一种程序设计语言 shell 是指一种应用程序, 这个应用程序提供了一个界面, 用户通过这个界面访问操作系统内核的服务。 Posted by 专注着 18 11 月, 2024Tags: linux, shell
Posted inPython 使用selenium实现12306的自动登录 12306有自己的验证规则,比方说一天发送短信有次数的限制,因此不能无限制的尝试。但是在这个过程中,需要输入验证码,因此这里是不能完全实现自动化的。可以研究一下,只登录一次,然后将cookie等信息保存,以在下次使用,以此实现以此登录,做后续的操作。 Posted by 专注着 5 11 月, 2024Tags: python, selenium
Posted inPython 使用xpath+requests抓取猪八戒网站数据 使用代码实现根据关键字查询猪八戒相关信息,并讲网页信息进行打印和输出。该代码进攻学习记录,不做任何其他用处 Posted by 专注着 29 10 月, 2024Tags: lxml, python, requests, xpath
Posted inPython python使用xpath获取豆瓣电影排行榜数据 通过插件获取douban电影排行榜数据,主要是通过requests获取网页,并通过xpath对网页进行解析和获取,拿到我们想要的数据信息 Posted by 专注着 26 10 月, 2024Tags: lxml, python, requests, xpath
Posted inPython python xpath路径选择 python中使用lxml模块对xml节点进行选择查询,其中包含了匹配规则,属性,节点,计算等操作 Posted by 专注着 18 10 月, 2024Tags: lxml, xpath
Posted injava spring spring log4j2配置周期删除历史日志文件 在使用日志的时候,最近因为项目的缘故,使用的日志框架是log4j2,但是在配置日志的过程中,并没有删除历史日志的配置,因此导致了日志文件特别多,难以查找,因此记录log4j2删除历史日志文件配置信息。 Posted by 专注着 24 5 月, 2024Tags: log4j2, spring
Posted injava spring spring schedule线程池配置实现原理 最近在做项目的时候,需要用到spring的定时任务模块做任务的调度。之前看网上的文章说,spring在默认的配置中都是使用的单线程来跑任务,如果某一个任务执行时间比较长,那么将会影响后续的任务执行,因此,大致看了下对应的源码,记录下来。 Posted by 专注着 24 5 月, 2024Tags: schedule, spring, 线程池
Posted injava spring spring boot 项目中如何排除依赖包中的@Configuration配置类? 事情是这样的,在最近开发项目中,由于公司引入了一些内部开发的包,但是包中做了一个切面,切面的目的是拦截所有的service类中的所有的方法,并开启事务管理。这就导致了项目结构中,如果你想控制事务的粒度成了问题,并且在普通查询的时候,是不需要开启事务的。 Posted by 专注着 13 5 月, 2024Tags: configuration, spring boot
Posted injava spring spring 使用ForkJoinPool异步事件处理 最近在开发功能的时候,因为涉及到在做一个操作的时候,需要将之前已经有的数据做状态变更,但是由于单批次操作比较复杂,需要操作很多次数据库,因此在接口响应时间上超过了10s的时间,因此,将这部分耗时操作通过异步的方式来处理,这样的话,即可以保证数据的正确性,同时也可以在接口响应上缩短时间。 Posted by 专注着 10 5 月, 2024Tags: async, enableasync, ForkJoinPool
Posted injava ForkJoinPool中ForkJoinTask的fork()、join()和get()有什么区别? 最近在做项目的时候,发现数据统计请求接口很慢,因此考虑将多个任务并行跑,这里主要采用的ForkJoinPool来实现,这是因为这个线程池可以配合parallelStream()方法来做自定义线程池,做任务线程的隔离。 Posted by 专注着 19 4 月, 2024Tags: ForkJoinPool