9、Redis 高级数据结构 HyperLogLog 和事务

1. HyperLogLog

简介

HyperLogLog 是一种用于基数估计的概率数据结构。它并不是一种新的数据结构,而是 Redis 中的一种字符串类型。HyperLogLog 的主要优点是能够利用极少的内存空间完成对独立总数的统计,适用于统计大量数据的独立元素数量,例如统计网站的 UV(Unique Visitor)。

使用场景

假设你需要开发一个统计网站每天 UV 的模块。统计 PV(Page View)非常简单,每个网页一个独立的 Redis 计数器即可。但统计 UV 则需要去重,同一个用户一天内多次访问只计数一次。这就要求每个网页请求都要带上用户的 ID。

一种简单的方案是为每个页面一个独立的 set 集合来存储所有当天访问过此页面的用户 ID。当一个请求过来时,使用 SADD 命令将用户 ID 塞进去,通过 SCARD 命令取出集合的大小即可获得 UV 数据。然而,如果页面访问量非常大,这种方案会非常浪费内存。

HyperLogLog 的优点

HyperLogLog 提供了不精确的去重计数方案,虽然不精确但误差极小(0.81%)。这种精确度已经足以满足 UV 统计需求。例如,通过 HyperLogLog,可以用 12KB 的内存统计多达 2^64 个数据。

操作命令

  1. PFADD

    PFADD key element [element ...]
    

    向 HyperLogLog 添加元素。例如:

    PFADD 08-15:u:id "u1" "u2" "u3" "u4"
    
  2. PFCOUNT

    PFCOUNT key [key ...]
    

    计算一个或多个 HyperLogLog 的独立总数。例如:

    PFCOUNT 08-15:u:id
    
  3. PFMERGE

    PFMERGE destkey sourcekey [sourcekey ...]
    

    求出多个 HyperLogLog 的并集并赋值给 destkey。

原理概述

HyperLogLog 基于概率论中的伯努利试验,结合了极大似然估算方法,并做了分桶优化。具体来说,HyperLogLog 通过分桶、估算、调和平均数等方法实现了高效的基数估计。

  1. 数学原理

    通过 hash 函数将数据转为比特串,从而模拟抛硬币实验。比特串中的 0 和 1 分别代表硬币的反面和正面,通过统计出现正面的位置来估算实验次数。

  2. 结合实例理解实现原理

    通过 hash 函数,将用户 ID 转化为比特串,前 14 位用来分桶,剩下的比特位记录首次出现 1 的位置。每个桶中记录 k_max 值,然后通过调和平均数计算总体估算值。

  3. Redis 中的 HyperLogLog 实现

    Redis 的 HyperLogLog 实现中,采用 16384 个桶,每个桶 6 位,内存占用 12KB。具体实现中,value 被 hash 成 64 位,前 14 位用于分桶,剩下 50 位记录首次出现 1 的位置。通过多次估算并求平均值,可以得出较为精确的统计结果。

2. Redis 事务

简介

Redis 提供了简单的事务功能,允许将一组命令作为一个整体执行,要么全部执行,要么全部不执行。这对于需要原子性操作的场景非常重要。

事务的基本命令

  1. MULTI

    开始事务。例如:

    MULTI
    
  2. EXEC

    提交事务,执行事务中的所有命令。例如:

    EXEC
    
  3. DISCARD

    取消事务,丢弃事务中的所有命令。例如:

    DISCARD
    

事务中的命令错误处理

  1. 命令错误

    如果事务中的命令有语法错误(如将 SET 写成 SETT),整个事务不会执行。

  2. 运行时错误

    如果事务中的命令有运行时错误(如将 SADD 写成 ZADD),事务会执行正确的部分,错误部分会返回错误,但不会回滚已经执行的命令。

WATCH 命令

为了确保事务中的 key 没有被其他客户端修改,可以使用 WATCH 命令。WATCH 命令会监视指定的 key,如果在事务执行之前 key 被修改,事务将不会执行。例如:

WATCH key
MULTI
SET key value
EXEC

如果在 MULTI 和 EXEC 之间,其他客户端修改了 key,则 EXEC 将不会执行,返回 nil

Pipeline 和事务的区别

  1. Pipeline

    Pipeline 是客户端的行为,通过将多个命令一起发送,减少网络延迟。服务器无法区分命令是否通过 pipeline 发送,因此无法保证命令的原子性。

  2. 事务

    事务是在服务器端实现的,通过 MULTI 和 EXEC 命令保证一组命令的原子性执行。事务中的命令会被服务器缓存,直到 EXEC 命令执行时,才依次执行缓存的命令。

结合使用

可以将事务和 pipeline 结合使用,减少事务命令在网络上的传输时间,提高 Redis 处理查询请求的能力。

3. Redis 7.0 前瞻

Redis 7.0 引入了多个性能优化和新功能,包括降低写入时复制内存的开销、提升内存效率、改进 fsync 避免大量磁盘写入、优化延迟表现、Redis 函数、细粒度权限、改进子命令处理和 Lua 脚本等。

Redis 主从复制原理

  1. 全量同步

    主库通过 fork 子进程生成内存快照,将数据序列化为 RDB 格式同步到从库。

  2. 命令传播

    主从完成全量同步后,主库将变更数据的命令发送到从库,使从库数据与主库保持一致。

Redis 复制缓存区相关问题分析

  1. 多从库时主库内存占用过多

    主库为每个从库分配独立的复制缓冲区,导致内存占用过多。

  2. OutputBuffer 拷贝和释放的堵塞问题

    OutputBuffer 数据量大时,拷贝和释放操作可能造成堵塞,影响性能。

  3. ReplicationBacklog 的限制

    ReplicationBacklog 是实现部分重同步的基础,但其大小限制和拷贝问题需要解决。

Redis 7.0 共享复制缓存区的设计与实现

Redis 7.0 引入共享复制缓存区方案,通过将复制数据放在全局的缓冲区中,多个从库共享这份数据,减少内存占用。

  1. ReplicationBuffer 的裁剪和释放

    Redis 通过减少引用计数来裁剪和释放 ReplicationBuffer。具体来说,当从库使用完某个数据块时,减少其引用计数,引用计数为 0 时释放数据块。

  2. 数据结构的选择

    Redis 7.0 使用 rax 树实现 replBufBlock 的索引,提高查询效率。rax 树占用内存少,查询效率高,适用于大规模数据的索引和查询。

4. 总结

HyperLogLog 和事务是 Redis 中两个重要的高级功能。HyperLogLog 提供了高效的基数估计算法,适用于大数据场景的去重统计。Redis 事务提供了简单的原子性操作,适用于需要保证数据一致性的场景。通过 Redis 7.0 的优化和新功能,Redis 的性能和扩展性进一步提升,适用于更多复杂的应用场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/782543.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

塑料法兰的标准

塑料法兰的标准包括国标GB/T9112-2010、化工部标准HG5010-52~HG5028-58、机械部标准JB81-59~JB86-59、以及船用生活给排水塑料管法兰的标准CB/T 4138-2011和CB/T 4454-2017。这些标准涵盖了从国家标准到特定用途(如船用)的详细规范…

KVM把新添加的磁盘扩容到根目录

1、对新增的磁盘进行分区(注:可省略) PS:使用fdisk或gdisk(大于2T时使用)对新增磁盘进行分区。 [rootkvm-clinet ~]# fdisk/dev/sdb Welcome to fdisk (util‐linux 2.23.2).4 Changes will remain in …

Python28-8 GBM梯度提升算法

梯度提升算法(Gradient Boosting Machine,GBM)是一种集成学习方法,通过逐步构建一系列简单模型(通常是决策树),并结合这些模型来提高整体预测性能。GBM广泛用于回归和分类任务,因为它…

【计算机毕业设计】017基于微信小程序的学生公寓电费信息管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

51单片机嵌入式开发:1、STC89C52环境配置到点亮LED

STC89C52环境配置到点亮LED 1 环境配置1.1 硬件环境1.2 编译环境1.3 烧录环境 2 工程配置2.1 工程框架2.2 工程创建2.3 参数配置 3 点亮一个LED3.1 原理图解读3.2 代码配置3.3 演示 4 总结 1 环境配置 1.1 硬件环境 硬件环境采用“华晴电子”的MINIEL-89C开发板,这…

在iPhone / iPad上轻松模拟GPS位置 AnyGo for Mac

在iPhone / iPad上轻松模拟GPS位置 AnyGo for Mac AnyGo for Mac是一款专为Mac电脑用户设计的虚拟定位工具。它可以模拟你的GPS位置,让你的设备显示你在任何世界上的任何地方。无论你是想在游戏中虚拟移动,还是在社交媒体上分享虚拟的旅行照片&#xff0…

基础权限存储

一丶要求 建立用户组shengcan,其id为 2000建立用户组 caiwu,其id 为2001建立用户组 jishu,其id 为 2002建立目录/sc,此目录是 shengchan 部门的存储目录,只能被 shengchan 组的成员操作4.其他用户没有任何权限建立目录/cw,此目录…

第二周:李宏毅机器学习笔记

第二周学习周报 摘要Abstract一、深度学习1.Backpropagation(反向传播)1.1 链式法则1.2 Forward pass(前向传播)1.3 Backward pass(向后传播)1.4 总结 2. Regression(神奇宝贝案例)2…

Bug记录:【com.fasterxml.jackson.databind.exc.InvalidDefinitionException】

bug记录 序列化错误 异常com.fasterxml.jackson.databind.exc.InvalidDefinitionException: 完整错误(主要是FAIL_ON_EMPTY_BEANS) 00:15:20.250 [http-nio-3000-exec-1] ERROR org.apache.catalina.core.ContainerBase.[Tomcat].[localhost].[/].[dispatcherServlet] - S…

【漏洞复现】TerraMaster TOS exportUser.php 远程命令执行

免责声明: 本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测…

Windows编程[下]

Windows编程[下] 一、线程1. 内核对象2.多线程群聊服务器3.多线程群聊客户端4.线程同步之事件对象常用函数和参数解释 二、进程三、Qt1.第一个Qt项目2.Qt助手的使用3.QPushButton简介4.Qt对象树对象树的基本概念使用对象树模式的好处对象树的问题 5.信号与槽5.1 自定义信号和槽…

通用的职位招聘小程序ui模板

蓝色简单的校园招聘,行业招聘,职位招聘手机小程序页面模板。包含:职位列表、职位详情、基本信息填写、登录、个人主页、消息页面等功能 通用的职位招聘小程序ui模板

InvalidVersionSpecError: Invalid version spec: =2.7解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

驾校管理系统的全面革新与升级

智慧驾校系统是一款专为现代驾校量身定制的综合性管理平台,它深度融合了云计算、大数据、物联网及人工智能等前沿技术,旨在为驾校打造一个高效、智能、便捷的运营生态系统。该系统通过数字化、信息化的手段,彻底革新了传统驾校的管理模式,不仅极大地提升了驾校的运营效率,…

初识Spark

一、简介 官网:Apache Spark™ - Unified Engine for large-scale data analytics Apache的顶级项目,用于大规模数据处理的统一分析引擎。 支持语言:Java、Scala、Python和R (源码为Scala) 高级工具: 1、SparkSQL用于SQL和结构…

ARM汇编与机器码、汇编指令

文章目录 1. CISC与RISC指令集 2. ARM汇编指令 3. 汇编与机器码 4. 汇编指令格式 5. MOV指令 6. BL指令 7. B指令 8. ADD/SUB指令 9. LDR/STR指令 1. CISC与RISC指令集 根据指令的复杂度,所有CPU可以分为两类: CISC(Complex Instr…

破局 AI 2.0 时代:利用 AI 提升自我核心竞争力

文章目录 破局 AI 2.0 时代:利用 AI 提升自我核心竞争力1. AI 2.0 时代1.1 特点1.2 发展1.3 影响 2. AI 2.0 时代的机遇 & 挑战2.1 AI 对行业市场的冲击2.2 挑战变为机遇2.3 不同场景下的 AI 效能提升2.3.1 自动化办公任务2.3.2 提升学习效率2.3.3 创意生成与内…

SpringBoot彩蛋之定制启动画面

写在前面 在日常开发中,我们经常会看到各种各样的启动画面。例如以下几种 ① spring项目启动画面 ② mybatisplus启动画面 ③若依项目启动画面 还有很多各式各样好看的启动画面,那么怎么定制这些启动画面呢? 一、小试牛刀 ① 新建一个Spr…

【分布式系统三】监控平台Zabbix对接grafana(截图详细版)

目录 一.安装grafana并启动 二.浏览器访问 三.导入zabbix数据,对接grafana 四.如何导入模版 以前两篇博客为基础 【分布式系统】监控平台Zabbix介绍与部署(命令截图版)-CSDN博客 【分布式系统】监控平台Zabbix自定义模版配置-CSDN博客 …

前端面试题(CSS篇五)

一、设备像素、css 像素、设备独立像素、dpr、ppi 之间的区别? 设备像素指的是物理像素,一般手机的分辨率指的就是设备像素,一个设备的设备像素是不可变的。 css像素和设备独立像素是等价的,不管在何种分辨率的设备上,…