OSChina 的 Git 平台一直在云平台上,今年年中的时候数据增长迅猛,特别是在存储的容量上成倍的增长。我们跟几个云平台的深入聊过,目前的环境下没有解决方案,难以在容量和性能上都同时满足。于是才做出建立独立服务器的决定。然后是几个月的硬件准备和软件架构的准备,特别是在 Ceph 存储上的研究花了很长时间。很不幸的是,当我们开始迁移并迁移结束后的第一个高峰期到来时,因为存储的对各种大小文件处理性能奇差导致系统访问故障。于是紧急上线独立存储设备,将 Ceph 上的数据拷贝到独立存储设备上。希望在拷贝完成之后暂停使用 Ceph。
可是数据尚未完全拷贝完成的时候 Ceph 挂了! Ceph 输出的块设备无法正常的 mount 到文件系统中。直接导致尚未拷贝到独立存储的项目无法访问。寻求了一些有丰富 Ceph 应用经验的人士后并没有什么快速的解决办法。
为了不影响正常项目的访问,我们决定先把服务启动,确保已迁移的项目可以正常访问。然后再花时间恢复数据。
一位大师说过,存储是云计算的基石!经此一劫,更加深以为然。接下来我们会完全采用可靠的硬件来解决存储的问题,暂且搁置集群文件存储。目前在 Git 上做的任何更新、提交等等,数据都是存储在做了 RAID 的专用存储服务器上。
说心里话,遇到这样的问题,不敢指望大家能理解和体谅,只能尽最大的努力让受影响的部分项目尽快恢复。如果你的项目有任何问题,可以随时 @红薯 或者 @zoker 。
崩溃的时候,巨大的压力让自己偶尔会萌生退意,可清醒过来还得全力以赴,不为别的,就因为深深的爱着 OSC!
这两天 Git 项目组的同事们,你们辛苦了!
--------------------------------
20日23:20分最新更新:
经过 @oscfox 的努力,#Ceph# 的数据恢复进入只读模式,目前我们正在全速拷贝数据到仓库中!