오늘 오후 9시 15분경 en 다운

오늘 오후 9시 15분~20분 사이에 운영중인 엔드포인트 노드가 모두 다운되었습니다.

INFO[08/27,12:20:07 Z] [5] Inserted a new block number=68343933 hash=f8b3f0…3ea034 txs=42 gas=4226248 elapsed=69.575ms processTxs=63.982ms finalize=2.012ms validateState=187.86µs totalWrite=3.039794ms trieWrite=2.491637ms
INFO[08/27,12:20:07 Z] [5] Imported new chain segment number=68343933 hash=f8b3f0…3ea034 blocks=6 txs=771 elapsed=3.246s trieDBSize=22.32mB mgas=80.089 mgasps=24.669 age=1m51s942ms
INFO[08/27,12:20:28 Z] [34] Removed the node without any response Discover=Simple StorageName=PN NodeID=a534d5493c1f8754 NodeType=PN
WARN[08/27,12:20:41 Z] [33] ProtocolManager failed to read msg id=facc5f5589383356 conn=inbound err=EOF
WARN[08/27,12:20:44 Z] [33] ProtocolManager failed to read msg id=b6f02f4508e63432 conn=inbound err=EOF
INFO[08/27,12:20:48 Z] [33] Disconnected a multichannel P2P Peer id=facc5f5589383356 conn=inbound peerID=facc5f5589383356 peerName=Klaytn/v1.6.2+38c63d495d/linux-amd64/go1.15.7 err=EOF
INFO[08/27,12:20:51 Z] [33] Disconnected a multichannel P2P Peer id=b6f02f4508e63432 conn=inbound peerID=b6f02f4508e63432 peerName=Klaytn/v1.6.2+38c63d495d/linux-amd64/go1.15.7 err=EOF
WARN[08/27,12:21:27 Z] [40] Failed doConnTypeHandshake addr=3.34.142.246:1524 conn=inbound conntype=-1 err=“read tcp 172.31.61.254:32323->3.34.142.246:1524: i/o timeout”
WARN[08/27,12:21:45 Z] [33] ProtocolManager failed to read msg id=35577a66d503a94c conn=dyndial err=EOF
WARN[08/27,12:21:45 Z] [40] Failed doConnTypeHandshake addr=61.74.62.229:40334 conn=inbound conntype=-1 err=“read tcp 172.31.61.254:32323->61.74.62.229:40334: i/o timeout”
WARN[08/27,12:21:53 Z] [33] ProtocolManager failed to read msg id=dca13101acd0950f conn=dyndial err=EOF
WARN[08/27,12:21:55 Z] [33] ProtocolManager failed to read msg id=ef0295966851c08d conn=inbound err=EOF
WARN[08/27,12:21:53 Z] [33] ProtocolManager failed to read msg id=ef0295966851c08d conn=inbound err=EOF
WARN[08/27,12:22:01 Z] [40] Failed doConnTypeHandshake addr=15.165.37.106:43726 conn=inbound conntype=-1 err=“read tcp 172.31.61.254:32323->15.165.37.106:43726: i/o timeout”
WARN[08/27,12:22:04 Z] [33] ProtocolManager failed to read msg id=5c9a322e53582ff5 conn=inbound err=EOF
INFO[08/27,12:22:11 Z] [33] Disconnected a multichannel P2P Peer id=35577a66d503a94c conn=dyndial peerID=35577a66d503a94c peerName=Klaytn/v1.6.2+38c63d495d/linux-amd64/go1.15.7 err=EOF
WARN[08/27,12:22:11 Z] [33] ProtocolManager failed to read msg id=8beb639e5d7b6160 conn=trusted-staticdial err=EOF
WARN[08/27,12:22:11 Z] [33] ProtocolManager failed to read msg id=8beb639e5d7b6160 conn=trusted-staticdial err=EOF
WARN[08/27,12:22:16 Z] [33] ProtocolManager failed to read msg id=772b3b5ed369641d conn=trusted-staticdial err=EOF
WARN[08/27,12:22:15 Z] [33] ProtocolManager failed to read msg id=772b3b5ed369641d conn=trusted-staticdial err=EOF
INFO[08/27,12:22:22 Z] [33] Disconnected a multichannel P2P Peer id=dca13101acd0950f conn=dyndial peerID=dca13101acd0950f peerName=Klaytn/v1.5.3/linux-amd64/go1.14.6 err=EOF
INFO[08/27,12:22:26 Z] [34] Removed the node without any response Discover=Simple StorageName=BN NodeID=94cc15e2014b8658 NodeType=BN
INFO[08/27,12:22:36 Z] [33] Disconnected a multichannel P2P Peer id=ef0295966851c08d conn=inbound peerID=ef0295966851c08d peerName=Klaytn/v1.6.0/linux-amd64/go1.15.7 err=EOF
INFO[08/27,12:22:42 Z] [33] Disconnected a multichannel P2P Peer id=5c9a322e53582ff5 conn=inbound peerID=5c9a322e53582ff5 peerName=Klaytn/v1.6.3/linux-amd64/go1.15.7 err=EOF
INFO[08/27,12:22:49 Z] [33] Disconnected a multichannel P2P Peer id=8beb639e5d7b6160 conn=trusted-staticdial peerID=8beb639e5d7b6160 peerName=Klaytn/v1.6.2/linux-amd64/go1.15.7 err=EOF
INFO[08/27,12:22:54 Z] [33] Disconnected a multichannel P2P Peer id=772b3b5ed369641d conn=trusted-staticdial peerID=772b3b5ed369641d peerName=Klaytn/v1.6.2/linux-amd64/go1.15.7 err=EOF
INFO[08/27,12:23:54 Z] [33] [Dial] Add dial candidate from static nodes id=8beb639e5d7b6160 NodeType=2 ip=183.110.37.121 mainPort=32323 port="[32323 32324]"
WARN[08/27,12:24:41 Z] [40] Failed doConnTypeHandshake addr=52.76.165.12:58698 conn=inbound conntype=-1 err=“write tcp 172.31.61.254:32323->52.76.165.12:58698: i/o timeout”
INFO[08/27,12:25:15 Z] [33] [Dial] Add dial candidate from static nodes id=772b3b5ed369641d NodeType=2 ip=52.79.95.186 mainPort=32323 port="[32323 32324]"
WARN[08/27,12:26:37 Z] [40] Failed doConnTypeHandshake addr=13.124.58.33:24608 conn=inbound conntype=-1 err=“write tcp 172.31.61.254:32323->13.124.58.33:24608: write: broken pipe”

혹시 어떤 이유로 장애가 발생한걸까요?
재발을 방지할 수 있는 방법이 있을까요?

(AUTO_RESTART=1 플래그를 사용하고 있었지만 노드가 재실행되지 않았습니다.)

안녕하세요.
우선 log만 보면, handshake 과정에서 timeout이 발생하여
node가 incoming message를 받지 못한 것으로 판단됩니다.
재연을 할 수 없어서 더 정확한 이유는 판단이 어려운데요.
혹시 다운된 en 들이 모두 동일한 네트워크 환경에서 작동 중이었을까요?

@11156 안녕하세요, 문제가 해결 되셨을까요??

추가적으로 답변드리면, 해당 로그 상으로는 EN이 다운된 것 같지는 않아보입니다.
인터넷 연결이 끊기거나 다른 네트워크 이슈등으로 연결을 못하고 있는 것 같습니다.
보내주신 로그 이후에 지속적으로 연결시도를 하고 있을것으로 예상됩니다만,
프로세스가 중지된 것이라면 (로그가 더 이상 출력이 되지않았다면)
시스템 로그를 확인해 볼 필요가 있을 것 같습니다.

추가적으로, AUTO_RESTART flag는 노드 종료시 재시작을 의미 하지 않습니다.
플래그 설정 시, 최신 블록을 일정 기간(default 15분)동안 갱신하지 못할 경우 재시작합니다.
ken --help | grep autorestart 로 관련 옵션들을 확인하실 수 있습니다.