https://github.com/icsdataset/hai
HAI 데이터셋은 스팀 터빈 발전과 양수 저장 수력 발전을 에뮬레이션(모방?)하는 Hardware-In-the-Loop (HIL)시뮬레이터로 강화된 현실적인 산업 제어 시스템(ICS) 테스트베드(새로운 기술, 제품, 이론 등을 시험하고 검증하기 위해 만들어진 환경이나 플랫폼)에서 수집되었다.
버전
- HAI 1.0: 2020.02 발표, 38개의 공격에 대한 normal/abnormal 상황의 ICS 운영 데이터가 포함
- HAI 20.07: 2020.08 발표, HAICon 대회 위해 출시
- HAI 21.03: 2021 발표, 추가 공격으로 더 명확한 공격 효과를 생성하기 위해 더 긴밀하게 결합된 HIL 시뮬레이터 기반
- HAI 22.04: 이전 버전보다 탐지하기 훨씬 더 어려운 정교한 공격 포함
- HAI/HAIEnd 23.05: ICS 엔트포인트 위협 탐지를 위해 개발
HAI Testbed
- 4개 프로세스; boiler process, turbine process, water treatment process, HIL simulation
- 보일러 공정(P1): 저압과 적당한 온도에서 물에서 물로의 열 전달 포함
- 터빈 공정(P2): 실제 회전 기계의 동작을 면밀히 시뮬레이션하는 rotor kit 공정
- 수처리 공정(P3): 상부 저수지로 물을 펌핑하고 하부 저수지로 다시 방출하는 것 포함
- HIL 시뮬레이션(P4): 보일러와 터빈 공정은 가상 증기 터빈 발전 모델의 회전 속도와 동기화하기 위해 상호 연결
데이터 구조
- 각 데이터셋은 여러 CSV 파일로 구성, 시간 연속성 만족하는 시계열 데이터
- 첫 번째 열은 "yyyy-MM-dd hh:mm:ss" 형식의 관측 시간을 나타내며, 나머지 열은 기록된 SCADA 데이터 포인트 제공
- 마지막 네 개의 열은 공격이 발생했는지 여부에 대한 데이터 라벨(정상 0, 공격 1) 제공, 공격 열은 모든 프로세스에 적용, 다른 세 개의 열은 해당 제어 프로세스에 적용