HDDの一時的物理トラブルの解消

2015年4月19日

今更ながらLinuxのカテゴリーが無かったのだなという事で、HDDのトラブルに関しての記事を追加。

今朝がたエンコードの進展を眺めていたらこんな表示が…。

single avs
x264.exe -o leviathan_10_temp.mp4 20130908[sun]2535_leviathan_10.ts.org.avs
avs [info]: 1280x720p 0:0 @ 24000/1001 fps (cfr)
x264 [info]: using cpu capabilities: MMX2 SSE2Fast SSSE3 SSE4.1 Cache64
x264 [info]: profile High, level 4.0
WARNING: Your hard drive is failing513.83 kb/s, eta 4:38:43  
Device: /dev/sde [SAT], not capable of SMART self-check
WARNING: Your hard drive is failing462.55 kb/s, eta 4:33:49  
Device: /dev/sde [SAT], failed to read SMART Attribute Data
WARNING: Your hard drive is failings, 1577.69 kb/s, eta 0:21:10  
Device: /dev/sde [SAT], unable to open device
x264 [info]: frame I:301   Avg QP:15.97  size: 82563                           
x264 [info]: frame P:10036 Avg QP:18.78  size: 16386
x264 [info]: frame B:25269 Avg QP:23.35  size:  3693
x264 [info]: consecutive B-frames:  2.6%  4.6% 11.5% 81.3%

 突然HDDのSMARTの値が読めなくなったようで/var/log/messagesを見てみたところこんな感じに…。

Sep 18 00:01:52 fedora kernel: [496809.759044] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Sep 18 00:01:52 fedora kernel: [496809.759053] ata4.00: failed command: READ DMA EXT
Sep 18 00:01:52 fedora kernel: [496809.759057] ata4.00: cmd 25/00:00:00:08:d2/00:02:ba:00:00/e0 tag 0 dma 262144 in
Sep 18 00:01:52 fedora kernel: [496809.759057]          res 40/00:00:00:4f:c2/00:00:00:00:00/40 Emask 0x4 (timeout)
Sep 18 00:01:52 fedora kernel: [496809.759060] ata4.00: status: { DRDY }
Sep 18 00:01:52 fedora kernel: [496809.759067] ata4: hard resetting link
Sep 18 00:01:58 fedora kernel: [496815.266018] ata4: link is slow to respond, please be patient (ready=0)
Sep 18 00:02:02 fedora kernel: [496819.805023] ata4: SRST failed (errno=-16)
Sep 18 00:02:02 fedora kernel: [496819.805034] ata4: hard resetting link
Sep 18 00:02:08 fedora kernel: [496825.310023] ata4: link is slow to respond, please be patient (ready=0)
Sep 18 00:02:12 fedora kernel: [496829.852021] ata4: SRST failed (errno=-16)
Sep 18 00:02:12 fedora kernel: [496829.852031] ata4: hard resetting link
Sep 18 00:02:18 fedora kernel: [496835.357037] ata4: link is slow to respond, please be patient (ready=0)
Sep 18 00:02:47 fedora kernel: [496864.889023] ata4: SRST failed (errno=-16)
Sep 18 00:02:47 fedora kernel: [496864.889032] ata4: limiting SATA link speed to 1.5 Gbps
Sep 18 00:02:47 fedora kernel: [496864.889037] ata4: hard resetting link
Sep 18 00:02:53 fedora kernel: [496869.935020] ata4: SRST failed (errno=-16)
Sep 18 00:02:53 fedora kernel: [496869.945661] ata4: reset failed, giving up
Sep 18 00:02:53 fedora kernel: [496869.945664] ata4.00: disabled
Sep 18 00:02:53 fedora kernel: [496869.945679] ata4.00: device reported invalid CHS sector 0
Sep 18 00:02:53 fedora kernel: [496869.945692] ata4: EH complete
Sep 18 00:02:53 fedora kernel: [496869.945723] sd 3:0:0:0: [sde] Unhandled error code
Sep 18 00:02:53 fedora kernel: [496869.945729] sd 3:0:0:0: [sde]  
Sep 18 00:02:53 fedora kernel: [496869.945732] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Sep 18 00:02:53 fedora kernel: [496869.945734] sd 3:0:0:0: [sde] CDB: 
Sep 18 00:02:53 fedora kernel: [496869.945735] Read(16): 88 00 00 00 00 00 ba d2 08 00 00 00 02 00 00 00
Sep 18 00:02:53 fedora kernel: [496869.945744] end_request: I/O error, dev sde, sector 3134326784
Sep 18 00:02:53 fedora kernel: [496869.945853] sd 3:0:0:0: [sde] Unhandled error code
Sep 18 00:02:53 fedora kernel: [496869.945856] sd 3:0:0:0: [sde]  
Sep 18 00:02:53 fedora kernel: [496869.945857] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK

ata4.00 : disabled が出た時点でシステムから見放されてしまった事になり、以後はエラーの嵐。
マウントされているのにマウントポイントは真っ白、この状態ではアンマウントも出来ないので

echo 1 > /sys/class/scsi_device/3:0:0:0/delete
こうする事で/dev/sdeが消滅
echo “- – -" > /sys/class/scsi_host/host3/scan
としたところ /dev/sdfとして再認識したので念のためにread onlyでマウントしファイルシステムが無事な事を確認。

事前にSMART値の変化もなく、突然読めなくなった事から、hostコントローラーかケーブルか、一時的な電源トラブルか…。疑いだすと切が無いのだけれども、あとはバックアップを取って運用を続けて様子を見るとしましょうか。

覚書: fuser -mv /mnt でマウントポイントを使用しているユーザーの確認。

LinuxHDDのトラブル

Posted by redchat