MegaRAIDでUnexpected sense, Command timeoutとかが出てた

知人から「なんかサーバのHDDがオレンジになってるんだけど…」という一報があった。

恐る恐るMegaRAID Storage Managerで状態を見てみると、Unexpected senseやらCommand timeoutやらPower on, reset, or bus device reset occurredやらが出てアレイがデグレってた:( ;´꒳`;):。マシンはDELL PowerEdge T330, PERC H730で、アレイはMD050ACA800×4, WD80EFAX×4でRAID-6からVDを2つ切り出してるという構成。稼働してまだ10カ月くらい。そのうち1つのWD80EFAXが切り離されていた。ログは↓な感じで。

 ID | TIME                | MESSAGE
----+---------------------+---------------------
267 | 2019-10-30 08:51:57 | Controller ID:  0  Command timeout on PD:   PD       =   -:-:5 No addtional sense information,   CDB   =    0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xb9 0x00 0x00 0x00 0x00 0x80 0x00 0x00    ,   Sense   =   ,   Path   =       0x4433221103000000
267 | 2019-10-30 08:51:57 | Controller ID:  0  Command timeout on PD:   PD       =   -:-:5 No addtional sense information,   CDB   =    0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xba 0x00 0x00 0x00 0x00 0x80 0x00 0x00    ,   Sense   =   ,   Path   =       0x4433221103000000
268 | 2019-10-30 08:51:57 | Controller ID:  0  PD Reset:   PD       =   -:-:5,   Critical       =   3,   Path   =       0x4433221103000000
267 | 2019-10-30 08:52:09 | Controller ID:  0  Command timeout on PD:   PD       =   -:-:5 No addtional sense information,   CDB   =    0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xbc 0x80 0x00 0x00 0x00 0x80 0x00 0x00    ,   Sense   =   ,   Path   =       0x4433221103000000
268 | 2019-10-30 08:52:09 | Controller ID:  0  PD Reset:   PD       =   -:-:5,   Critical       =   3,   Path   =       0x4433221103000000
113 | 2019-10-30 08:52:13 | Controller ID:  0   Unexpected sense:   PD       =   -:-:5 Logical unit not ready, cause not reportable,   CDB   =    0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xbc 0x80 0x00 0x00 0x00 0x80 0x00 0x00    ,   Sense   =    0x70 0x00 0x02 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x04 0x00 0x00 0x00 0x00 0x00
113 | 2019-10-30 08:52:14 | Controller ID:  0   Unexpected sense:   PD       =   -:-:5 Power on, reset, or bus device reset occurred,   CDB   =    0x1b 0x01 0x00 0x00 0x01 0x00    ,   Sense   =    0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
113 | 2019-10-30 08:52:15 | Controller ID:  0   Unexpected sense:   PD       =   -:-:5 Power on, reset, or bus device reset occurred,   CDB   =    0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xbc 0x80 0x00 0x00 0x00 0x80 0x00 0x00    ,   Sense   =    0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
267 | 2019-10-30 08:52:36 | Controller ID:  0  Command timeout on PD:   PD       =   -:-:5 No addtional sense information,   CDB   =    0x1b 0x01 0x00 0x00 0x01 0x00    ,   Sense   =   ,   Path   =       0x4433221103000000
268 | 2019-10-30 08:52:36 | Controller ID:  0  PD Reset:   PD       =   -:-:5,   Critical       =   3,   Path   =       0x4433221103000000
87  | 2019-10-30 08:52:37 | Controller ID:  0   PD Error:   -:-:5      ( Critical   240)
114 | 2019-10-30 08:52:37 | Controller ID:  0   State change:   PD       =   -:-:5  Previous   =   Online      Current   =   Failed
81  | 2019-10-30 08:52:37 | Controller ID:  0   State change on VD:   0      Previous   =   Optimal  Current   =       Partially Degraded
250 | 2019-10-30 08:52:37 | Controller ID:  0  VD is now PARTIALLY DEGRADED   VD   0
81  | 2019-10-30 08:52:37 | Controller ID:  0   State change on VD:   1      Previous   =   Optimal  Current   =       Partially Degraded
250 | 2019-10-30 08:52:37 | Controller ID:  0  VD is now PARTIALLY DEGRADED   VD   1
113 | 2019-10-30 08:52:37 | Controller ID:  0   Unexpected sense:   PD       =   -:-:5 Power on, reset, or bus device reset occurred,   CDB   =    0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xc2 0x00 0x00 0x00 0x00 0x80 0x00 0x00    ,   Sense   =    0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
114 | 2019-10-30 10:45:49 | Controller ID:  0   State change:   PD       =   -:-:5  Previous   =   Failed      Current   =   Online
81  | 2019-10-30 10:45:49 | Controller ID:  0   State change on VD:   0      Previous   =   Partially Degraded  Current   =       Optimal
249 | 2019-10-30 10:45:49 | Controller ID:  0  VD is now OPTIMAL   VD   0
81  | 2019-10-30 10:45:49 | Controller ID:  0   State change on VD:   1      Previous   =   Partially Degraded  Current   =       Optimal
249 | 2019-10-30 10:45:49 | Controller ID:  0  VD is now OPTIMAL   VD   1
113 | 2019-10-30 10:45:49 | Controller ID:  0   Unexpected sense:   PD       =   -:-:5 Power on, reset, or bus device reset occurred,   CDB   =    0x8a 0x00 0x00 0x00 0x00 0x00 0x00 0x12 0x51 0x28 0x00 0x00 0x00 0x38 0x00 0x00    ,   Sense   =    0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00

それらしい単語でググってみると、何やらファームの良く知られたちょっとしたバグ?らしく、無視しておkとのこと。タイムアウトでHDDが切り離されちゃってるのは気になるところだけど…。

サーバは遠隔地にあるため実物は確認できてないが、HDDそのものは動いてはいるようなので、オンラインにしてConsistency Checkを掛けた。今のところ問題なく動いているようだ。

なおパリティの再構成時間は、200GB(内22GB使用中)のVDで4分(196か所訂正)、54TB(内21.6TB使用中)のVDで17時間(11953か所訂正)だった。

参考サイト