亿级数据量系统优化思考

技术层面 【配置项】抽离主库,或永久放置于缓存中(推荐),guava或redis或二者同时使用皆可,在配置项发生变化时刷新缓存,可透过广播(Dubbo)通知所有实例刷新本地缓存,以降低C端接口调用时间 【数据库】视业务情况,配置数据库链接最大数等于初始量,即程序运行过程中不进行新申请数据库链接的行为,可避免在高并发情况下,大量请求同时获取数据库链接导致的竞争耗时 【SQL】在大数据量情况下,当索引对应过多数据会导致索性性能下降,甚至全表扫描,在内存情况允许时(即运行实例可以承受的内存空间),可用代码过滤来代替数据库级别筛选,提高数据库层面查询效率;在coding时应慎重使用not in条件,同时时间类型查询条件可以考虑通过主键进行筛选(业务允许时) 【数据归档】结合实际业务情况,将数据归档,例如半年、一年前的订单数据,两年前已过期的积分流水等非高频数据;可结合数仓,如hive,es等进行冷数据查询 【使用从库】结合实际业务情况,可利用从库完成某些复杂报表统计,当从库延时满足业务接受最大延时的条件下,可完全读取从库数据,如T-1账单,积分统计,门店业绩统计等 业务层面 【数据时效性】引导产品深入分析业务需求,确定业务接受的最大数据延时,例如报表,或C端数据概览,确立数据时间边界,规避非刚需的实时数据查询 【业务合理性】从功能层面推动业务需求,并非所有需求都是业务决定,当面临大体量数据带来的系统压力,可以考虑从业务角度出发,先将所需处理的数据分解,再拼凑,规避系统性能瓶颈,例如预约数据,可通过发送邮件、生成报表提供下载等形式代替实时生成,在不影响用户体验的情况下,尽可能节约系统性能

    推荐阅读