HDDの一時的物理トラブルの解消
今更ながらLinuxのカテゴリーが無かったのだなという事で、HDDのトラブルに関しての記事を追加。
今朝がたエンコードの進展を眺めていたらこんな表示が…。
single avs x264.exe -o leviathan_10_temp.mp4 20130908[sun]2535_leviathan_10.ts.org.avs avs [info]: 1280x720p 0:0 @ 24000/1001 fps (cfr) x264 [info]: using cpu capabilities: MMX2 SSE2Fast SSSE3 SSE4.1 Cache64 x264 [info]: profile High, level 4.0 WARNING: Your hard drive is failing513.83 kb/s, eta 4:38:43 Device: /dev/sde [SAT], not capable of SMART self-check WARNING: Your hard drive is failing462.55 kb/s, eta 4:33:49 Device: /dev/sde [SAT], failed to read SMART Attribute Data WARNING: Your hard drive is failings, 1577.69 kb/s, eta 0:21:10 Device: /dev/sde [SAT], unable to open device x264 [info]: frame I:301 Avg QP:15.97 size: 82563 x264 [info]: frame P:10036 Avg QP:18.78 size: 16386 x264 [info]: frame B:25269 Avg QP:23.35 size: 3693 x264 [info]: consecutive B-frames: 2.6% 4.6% 11.5% 81.3%
突然HDDのSMARTの値が読めなくなったようで/var/log/messagesを見てみたところこんな感じに…。
Sep 18 00:01:52 fedora kernel: [496809.759044] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen Sep 18 00:01:52 fedora kernel: [496809.759053] ata4.00: failed command: READ DMA EXT Sep 18 00:01:52 fedora kernel: [496809.759057] ata4.00: cmd 25/00:00:00:08:d2/00:02:ba:00:00/e0 tag 0 dma 262144 in Sep 18 00:01:52 fedora kernel: [496809.759057] res 40/00:00:00:4f:c2/00:00:00:00:00/40 Emask 0x4 (timeout) Sep 18 00:01:52 fedora kernel: [496809.759060] ata4.00: status: { DRDY } Sep 18 00:01:52 fedora kernel: [496809.759067] ata4: hard resetting link Sep 18 00:01:58 fedora kernel: [496815.266018] ata4: link is slow to respond, please be patient (ready=0) Sep 18 00:02:02 fedora kernel: [496819.805023] ata4: SRST failed (errno=-16) Sep 18 00:02:02 fedora kernel: [496819.805034] ata4: hard resetting link Sep 18 00:02:08 fedora kernel: [496825.310023] ata4: link is slow to respond, please be patient (ready=0) Sep 18 00:02:12 fedora kernel: [496829.852021] ata4: SRST failed (errno=-16) Sep 18 00:02:12 fedora kernel: [496829.852031] ata4: hard resetting link Sep 18 00:02:18 fedora kernel: [496835.357037] ata4: link is slow to respond, please be patient (ready=0) Sep 18 00:02:47 fedora kernel: [496864.889023] ata4: SRST failed (errno=-16) Sep 18 00:02:47 fedora kernel: [496864.889032] ata4: limiting SATA link speed to 1.5 Gbps Sep 18 00:02:47 fedora kernel: [496864.889037] ata4: hard resetting link Sep 18 00:02:53 fedora kernel: [496869.935020] ata4: SRST failed (errno=-16) Sep 18 00:02:53 fedora kernel: [496869.945661] ata4: reset failed, giving up Sep 18 00:02:53 fedora kernel: [496869.945664] ata4.00: disabled Sep 18 00:02:53 fedora kernel: [496869.945679] ata4.00: device reported invalid CHS sector 0 Sep 18 00:02:53 fedora kernel: [496869.945692] ata4: EH complete Sep 18 00:02:53 fedora kernel: [496869.945723] sd 3:0:0:0: [sde] Unhandled error code Sep 18 00:02:53 fedora kernel: [496869.945729] sd 3:0:0:0: [sde] Sep 18 00:02:53 fedora kernel: [496869.945732] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Sep 18 00:02:53 fedora kernel: [496869.945734] sd 3:0:0:0: [sde] CDB: Sep 18 00:02:53 fedora kernel: [496869.945735] Read(16): 88 00 00 00 00 00 ba d2 08 00 00 00 02 00 00 00 Sep 18 00:02:53 fedora kernel: [496869.945744] end_request: I/O error, dev sde, sector 3134326784 Sep 18 00:02:53 fedora kernel: [496869.945853] sd 3:0:0:0: [sde] Unhandled error code Sep 18 00:02:53 fedora kernel: [496869.945856] sd 3:0:0:0: [sde] Sep 18 00:02:53 fedora kernel: [496869.945857] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
ata4.00 : disabled が出た時点でシステムから見放されてしまった事になり、以後はエラーの嵐。
マウントされているのにマウントポイントは真っ白、この状態ではアンマウントも出来ないので
echo 1 > /sys/class/scsi_device/3:0:0:0/delete
こうする事で/dev/sdeが消滅
echo “- – -" > /sys/class/scsi_host/host3/scan
としたところ /dev/sdfとして再認識したので念のためにread onlyでマウントしファイルシステムが無事な事を確認。
事前にSMART値の変化もなく、突然読めなくなった事から、hostコントローラーかケーブルか、一時的な電源トラブルか…。疑いだすと切が無いのだけれども、あとはバックアップを取って運用を続けて様子を見るとしましょうか。
覚書: fuser -mv /mnt でマウントポイントを使用しているユーザーの確認。
ディスカッション
コメント一覧
まだ、コメントがありません