Quentin Code

大文件下载中断问题的全链路排查与稳定性优化

现象 https://oss.example.com/storages/<storage_id>//firmware.zip 1）在浏览器下载固件文件经常出现中断，原本3g的文件，每次都在1g左右下载完成，文件不完整。 2）内网下载速度较慢，插网线为 20M/s 左右，WIFI 状态下为 8M/s 左右。 ...

OOMKilled 深度排查：内存、PageCache 与 I/O 的联合分析

1、现象收到Memory hit original limit内存告警与CPU容量水位告警，随后发生OOM，容器无限重启 2、应急解决方案最重要的事情是先保证生产可用，并增加JVM参数用来观测，做完以下调整后对容器状态进行观察。 ...

从告警泛滥到高效定位：MCP 异常分析实践

背景为提高后台整体质量，目前大部分后台系统都接入了 Error 日志监控告警，接入初期产生了非常多的告警，消耗了我们大量的时间去排查。当前线上异常日志排查主要存在以下痛点： ...

MySQL 死锁问题的系统化排查与并发优化

现象补全翻译接口（填充空白的语料）接口执行失败，MySQL 检测到死锁快速抛异常，接口执行耗时 426ms。无论是从接口、具体表现、根因，都与上个问题有明显区别。 ...

SSE 流式响应在 Nginx 下失效的排查与修复实践

背景与现象背景：在C知汇项目（GPT私有库问答系统）中，我们期望GPT的回答通过流式返回，采用了SSE（Server-Sent Events）的服务端推送技术做流式传输。现象：本地运行没有问题，但是上线之后发现有时是流式，有时是一次性返回。产品界面分析过程 1、首先确认技术选型是否存在问题。流式响应有常见的两种方案，WebFlux和SSE，我们使用WebFlux响应式编程技术替代SSE，写最小demo排除业务的影响，发现仍然有问题。可以暂时排除代码层面的问题。 ...

微软 Hybrid Identity 混合身份认证实践

前言在企业信息化建设中，一个常见诉求是：员工继续使用本地 AD 域账号，同时能够无缝访问 Office 365、Teams 等云端应用，并在统一策略下完成认证与权限控制。 ...

《大型系统应用架构实践》笔记：全球区域化部署与多层路由设计

书籍链接：https://book.douban.com/subject/34782232/ 主要针对第二章的全球区域化部署技术 1 总体架构基本原则问题 ...

长轮询在配置平台的工程化实践与性能权衡

长轮询在配置平台的应用 1. 配置平台简介略 2. 长轮询简介传统的短轮询方式存在一个严重缺陷：程序在每次请求时都会新建一个HTTP请求，然而并不是每次都能返回所需的新数据。当同时发起的请求达到一定数目时，会对服务器造成较大负担。这时我们可以采用长轮询方式解决这个问题。 ...

从数据结构理解 MySQL 联合索引

从数据结构理解 MySQL 联合索引前言索引的本质是一种通过特定数据结构来优化数据检索速度的机制。是我们开发岗接触 MySQL 最重要的概念之一，与我们的应用开发息息相关。结合应用思考 1）在语料平台中的 Item 表中，假设我们的目标是快速搜索 key，只考虑完全匹配的情况下，如何建立索引？ ...

分布式锁实战踩坑与避坑

背景在我们的一个 Web 课堂系统中，开启课堂会调用接口发送邀请链接公告，后台要限制一个课堂只能发送一次。一旦重复发送，用户会看到多条重复公告，直接影响课堂体验。 ...