2010年6月30日 星期三

東西總會在最需要的時候壞掉(誤)

話說周末都宅在住的地方,因為外面實在太熱了,雖然說來台南的時候就有所覺悟...
但是陽光真的太刺眼了,外加一整個悶熱,就整天宅在房間看電視
想說周一又是一周的開始要有點衝勁,於是七點多就跑到公司
沒想到...當我坐在早餐店拿起漢堡要咬下去的那個[摩門特]手機響起

客戶反映mail系統不能用,於是馬上打包早餐回公司去
周一一大早mail就故障,電話湧進計中(真是令人振奮的一個早晨)
後來發現是負責認證的LDAP發生了點問題CPU吃到200%不曉得在處理什麼
重新啟動LDAP服務就好了

接著因為要做ISMS的事件報告所以開始追問題
因為LDAP沒有開啟log所以從系統的message開始看
發現有warning: cannot open /etc/hosts.allow: Too many open files的訊息
往前追第一次出現這個問題是在凌晨0時,也就是整個系統已經無法運作達8個小時(驚)

對照SMTP的log後,推測問題應該是太多查詢導致有些查詢失敗
SMTP又不斷的重試查詢,造成越來越多的查詢延遲,直到最後整個卡死

結論就是....禮拜一要特別小心早上的電話(誤)