24.9.15
更换了受损的阵列卡, 服务重新上线.
损失报告:
- 论坛文件与数据库均回滚到9.12
- 莫盘文件与数据库均回滚到9.12
- 莫盘文件可能存在受损, 暂未见案例. 如果下载的文件出现问题请向我报告
- dcc wiki数据库回滚到9.12 文件回滚到9.6
- dcc chat文件与数据库回滚到9.6
- 一个其它相关论坛文件与数据库回滚到9.12
- p盘及相关服务文件与数据回滚到9.12
- 所有回滚预计将于今天完成
这次故障可以说是一年多以来最吓人的一次. 虽然fsck和冗余校验救下了大多数数据, 但还是造成了大量完整性错误, 我仍然在清理修复.
我已经在策划购入一台新的在线SAN, 用于与关键业务执行互相备份和紧急响应.
集群完整性重构可能持续数天, 在此期间相关服务响应速度和延迟表现会有略微下降.
虽然我不能假设大家会体谅, 但我还是要请大家体谅: 我一个人的时间精力对于运维如此复杂的集群几乎是不可能够的.
如果你对服务集群建设与运维有好的建议或帮助, 也可以联系我.