微信 SQLite 数据库修复实践

wmwmnss 7 字体: 放大 缩小

1、前言众所周知,微信在后台服务器不保存聊天记录,微信在移动客户端所有的聊天记录都存储在一个 SQLite 数据库中,一旦这个数据库损坏,将会丢失用户多年的聊天记录。而我们监控到现网的损坏率是0.02%,也就是每 1w 个用户就有 2 个会遇到数据库损坏。考虑到微信这么庞大的用户基数,这个损坏率就很严重了。更严重的是我们用的官方修复算法,修复成功率只有 30%。损坏率高,修复率低,这两个问题都需要我们着手解决。

2、SQLite 损坏原因及其优化我们首先来看 SQLite 损坏的原因,SQLite官网(http://www.sqlite.org/howtocorrupt.html)上列出以下几点:

文件错写

文件锁 bug

文件 sync 失败

设备损坏

内存覆盖

操作系统 bug

SQLite bug

但是我们通过收集到的大量案例和日志,分析出实际上移动端数据库损坏的真正原因其实就3个:

空间不足

设备断电

文件 sync 失败

我们需要针对这些原因一一进行优化。

2.1、优化空间占用首先我们来优化微信的空间占用问题。在这之前微信的部分业务也做了空间清理,例如朋友圈会自动删除7天前缓存的图片。但是总的来说对文件空间的使用缺乏一个全局把控,全靠各个业务自觉。我们需要做得更积极主动,要让开发人员意识到用户的存储空间是宝贵的。我们采取以下措施:

业务文件先申请后使用,如果某个文件没有申请就使用了,会被自动扫描出来并删除;

每个业务文件都要申明有效期,是一天、一个星期、一个月还是永久存储;

过期文件会被自动清理。

对于微信之外的空间占用,例如相册、视频、其他App的空间占用,微信本身是做不了什么事情的,我们可以提示用户进行空间清理:

2.2、优化文件 sync2.2.1、synchronous = FULL设置SQLite的文件同步机制为全同步,亦即要求每个事物的写操作是真的flush到文件里去。

2.2.1、fullfsync = 1通过与苹果工程师的交流,我们发现在 iOS 平台下还有 fullfsync (https://www.sqlite.org/pragma.html#pragma_fullfsync) 这个选项,可以严格保证写入顺序跟提交顺序一致。设备开发商为了测评数据好看,往往会对提交的数据进行重排,再统一写入,亦即写入顺序跟App提交的顺序不一致。在某些情况下,例如断电,就可能导致写入文件不一致的情况,导致文件损坏。

2.3、优化效果多管齐下之后,我们成功将损坏率降低了一半多;DB损坏还是无法完全避免,我们还是得提高修复成功率。

3、SQLite 修复逻辑优化3.1、master 表首先我们来看 SQLite 的架构。SQLite 使用 B+树 存储一个表,整个 SQLite 数据库就是这些 B+树 组成的森林。对于每个表的元数据(表名、根节点地址、表 scheme 等),都记录在一个叫 sql_master 的表中。这个 sql_master 表(下简称 master 表) 本身也是一个 B+树 存储的普通表。

3.2、官方修复算法率低下原因官方修复算法是这样一个流程:从 master 表中读出一个个表的信息,根据根节点地址和创表语句来 select 出表里的数据,能 select 多少是多少,然后插入到一个新 DB 中。要注意的是 master 表他本身也是一个 B+树 形式的普通表,DB 第0页就是他的根节点。那么只要 master 表某个节点损坏,这个节点下面记录的表就都恢复不了。更坏的情况是 DB 第0页损坏,那么整个 master 表都读不出来,就导致整个DB都恢复失败。这就是官方修复算法成功率这么低的原因,太依赖 master 表了。

3.3、备份 master 表那么最自然的想法,自然是另外备份一份 master 表了,也不需要用B+树,直接用数组序列化存储就好。我们只需要每隔一段时间轮询 master 表,看看最近有没有增删 table,有的话就全量备份。

3.3.1、备份时机这里有个担忧,就是普通数据表的插入会不会导致表的根节点发生变化,也就是说 master 表会不会频繁变化,如果变化很频繁的话,我们就不能简单地进行轮询方案了。通过分析源码,我们发现 SQLite 里面 B+树 算法的实现是 向下分裂 的,也就是说当一个叶子页满了需要分裂时,原来的叶子页会成为内部节点,然后新申请两个页作为他的叶子页。这就保证了根节点一旦定下来,是再也不会变动的。实际的代码调试也证实了我们这个推论。所以说 master 表只会在新创建表或者删除一个表时才会发生变化,我们完全可以采用定时轮询方案。

3.3.2、备份文件有效性接下来的难题是既然 DB 可以损坏,那么这个备份文件也会损坏,怎么办呢?我们采用了 双备份 的机制。具体来说就是会有新旧两个备份文件,每个文件头都加上 CRC 校验;每次备份时,从两个备份文件中选出一个进行覆盖。具体怎么选呢?优先选损坏那个备份文件,如果两个都有效,那么就选相对较旧的。这就保证了即使本次写入导致文件损坏,还有另外一份备份可以用。这个做法跟 Realm 标榜的 MVCC(多版本并发控制)的做法有异曲同工之妙,相当于确认新写入的文件有效之后,才使用新写入的文件,否则还是继续用旧的有效的文件。

前面提到 DB 损坏的一个常见场景是空间不足,这种情况下还要分配文件空间给备份文件也是会失败的。为了解决这个问题,我们采取 预先分配空间 的做法,初始值是 32K,大约可存 750 个表的元信息,后续则按照32K的倍数进行增长。

3.4、优化效果通过备份 master 表,我们成功将修复成功率提高了一倍多。

4、其他通过这些优化,我们提高了微信聊天记录存储的可靠性。这些优化实践,会同之前在并发性能方面的优化实践(微信iOS SQLite源码优化实践),将会合并到微信即将开源的 WCDB(WeChat Database)组件中。我们正在进行紧张的代码整理工作,争取在 2017 年年中开源 WCDB。

「点点赞赏,手留余香」

赞赏

  • 嘟嘟宝宝心儿
  • 皯襾杀
  • 2人赞过
2
0
0
评论 0 请文明上网,理性发言

相关文章

  • 声音 案例 其他 随笔 知识 编者按 sqlite数据库已经成为手机端APP管理数据的第一选择,在取证工作中加强对其研究很有意义。 前不久,某地在办理一起电信诈骗案件中遇到一个技术问题。犯罪嫌疑人通过"59同城"APP与受害者交流信息。根据办案需要,需要把主账号与其他账号之间的交流信息汇总起来。由于"59同城"APP设
    那么恨2c1 8 0 0 条评论
  • SQLite是一个被大家低估的数据库,但有些人认为它是一个不适合生产环境使用的玩具数据库。事实上,SQLite是一个非常可靠的数据库,它可以处理TB级的数据,但它没有网络层。接下来,本文将与大家共同探讨SQLite在过去一年中最新的SQL功能。 作者|MarkusWinand 译者|彼得 责编|屠敏 出品|CSDN(
    青疼子 8 0 0 条评论
  • 作者|章鱼猫 来源|https://mp.weixin.qq.com/s/i2efmzL0ZiQ5NGLZ2cBwaQ大家好,我是章鱼猫。 SQLite大家应该都知道吧,SQLite是一款轻型的数据库,是遵守ACID的关系型数据库管理系统,它包含在一个相对小的C库中。它的设计目标是嵌入式的,而且已经在很多嵌入式产品中
    何_以_界只有海 3 1 0 条评论
  • 原文:LearningPentestingforAndroidDevices 作者:AdityaGupta 转自:看雪学院(ID:ikanxue) 编译:飞龙使者 SQLite是一个开源数据库,具有许多类似于其他关系数据库(如SQL)的功能。如果你是应用程序开发人员,你可能还会注意到SQLite查询看起来或多或少像SQ
    geminiaxyz 6 1 0 条评论
  • 作者|JamesLong译者|弯月 出品|CSDN(ID:CSDNnews)最近我开发了一款名为absurd-sql的SQLite后端。在这款工具的帮助下,你无需将整个数据库加载到内存中,而且写入的数据还可以永久保存下来。在文本中,我将介绍一下这款Web存储API(主要是IndexedDB),展示如何将SQLite的性
    汪蚁下嚎牌 8 3 0 条评论
  • 新媒体管家 关键时刻,第一时间送达! SQLite介绍 SQLite一个非常流行的嵌入式数据库,它支持SQL语言,并且只利用很少的内存就有很好的性能。此外它还是开源的,任何人都可以使用它。许多开源项目((Mozilla,PHP,Python)都使用了SQLite. SQLite由以下几个组件组成:SQL编译器、内核、后
    猎鹰CSGO 4 4 0 条评论
  • SQLite是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的SQL数据库引擎。它是一个零配置的数据库,这意味着与其他数据库不一样,你不需要在系统中配置。 SQLite数据库的特点是它每一个数据库都是一个文件,当你查询表的完整信息时会得到创建表的语句,基本和mysql差不多。 SQLite语法 1. 这
    hzmyvwmk71 3 3 0 条评论
  • 什么是SQLite?SQLite是一个C语言实现的小型、快速、自包含、高可靠性、功能全面的SQL数据库引擎。 起因:刚好项目上有个需求,需要使用VS2019+.Netfamework4.6.1+SQLite完成数据层。 System.Data.SQLite库先尝试了官方的System.Data.SQLite包。 首先,
    椰树林菜菜 3 0 0 条评论
  • 点击上方"Java基基",选择"设为星标" 做积极的人,而不是积极废人! 每天14:00更新文章,每天掉亿点点头发... 源码精品专栏 原创|Java2021超神之路,很肝~ 中文详细注释的开源项目 RPC框架Dubbo源码解析 网络应用框架Netty源码解析 消息中间件RocketMQ源码解析 数据库中间件Shard
    是膏盆 4 3 0 条评论
  • 前言 RSQLite包支持在R中的非常方便地创建和使用sqlite数据库,sqlite是单文件数据库,不需要预先安装,可内嵌在程序代码中。RSQLite的主要数据库操作依赖于DBI包,DBI是R语言中关系型数据库的底层接口包,除了支持RSQLite,还支持RMySQL,RPostgreSQL等连接其他数据库的包。RS
    张曼mandy 3 0 0 条评论