เมื่อภัยคุกคามทางไซเบอร์ที่มุ่งเป้าไปที่ระบบ OT เพิ่มขึ้นอย่างต่อเนื่อง คำถามไม่ใช่ “จะถูกโจมตีไหม?” แต่เป็น “เมื่อถูกโจมตี โรงงานจะตอบโต้องได้เร็วและมีประสิทธิภาพแค่ไหน?” Security Incident Response Plan (IRP) สำหรับระบบ OT คือแผนปฏิบัติการที่ช่วยลดผลกระทบจากการโจมตี และเร่งฟื้นฟูการผลิตกลับสู่ภาวะปกติ
ต่างจาก IRP สำหรับ IT ที่อาจใช้แนวทาง “Isolate and Rebuild” ได้ทันที ใน OT ต้องคำนึงถึง ความปลอดภัยของบุคลากร (Safety) และ ความต่อเนื่องของการผลิต (Production Continuity) เป็นอันดับแรก
โครงสร้าง IRP สำหรับ OT — 6 ขั้นตอนตาม NIST SP 800-61
โครงสร้าง IRP ที่แนะนำสำหรับ OT อ้างอิงจาก NIST SP 800-61 Rev. 3 และ IEC 62443 ประกอบด้วย 6 ขั้นตอนหลัก:

ขั้นตอนที่ 1: Preparation — เตรียมพร้อมก่อนเกิดเหตุ
การเตรียมพร้อมคือหัวใจของ IRP ที่มีประสิทธิภาพ:
- สร้าง CSIRT สำหรับ OT: Computer Security Incident Response Team ที่ประกอบด้วย OT Engineer, IT Security, Plant Manager, Safety Officer และ Communications
- ระบุบทบาทและความรับผิดชอบ: ใครเป็น Incident Commander, ใคร Analyze, ใคร Communicate, ใครตัดสินใจ Shutdown
- เตรียมเครื่องมือ: Forensic Toolkit, Network Capture, Offline Backup ของ PLC Program, SCADA Config
- ช่องทางสื่อสารฉุกเฉิน: ระบบสื่อสารแยกจากเครือข่ายที่อาจถูกโจมตี (เช่น วิทยุ, โทรศัพท์มือถือแยก)
- ข้อตกลงกับ Third Party: Incident Response Retainer กับผู้ให้บริการด้าน OT Security
⚠️ ข้อสำคัญ: ใน OT การ Shutdown ระบบควบคุมอาจสร้างความเสี่ยงด้าน Safety มากกว่าการโจมตีเอง ดังนั้น IRP ต้องมี Decision Matrix ที่ชัดเจนว่าเมื่อไหร่ควร Isolate, เมื่อไหร่ควร Shutdown, และเมื่อไหร่ให้ระบบทำงานต่อไปพร้อม Monitor
ขั้นตอนที่ 2: Detection & Analysis — ตรวจจับและวิเคราะห์
การตรวจจับใน OT ท้าทายกว่า IT เนื่องจาก:
- อุปกรณ์จำนวนมากใช้ Protocols ที่ไม่มี Encryption (Modbus RTU, DNP3, Profinet)
- Passive Monitoring เป็นวิธีหลัก เพราะ Active Scan อาจรบกวนระบบ Real-time
- ต้องแยกระหว่าง Security Incident กับ Operational Issue (เช่น Sensor Fault vs. Malicious Command)
ตัวบ่งชี้ที่ควรตรวจจับ:
- การเปลี่ยนแปลง PLC Logic ที่ไม่ได้รับอนุญาต
- การเชื่อมต่อจาก IP Address ที่ไม่รู้จักไปยัง SCADA Server
- ปริมาณ Network Traffic ผิดปกติระหว่าง IT และ OT Network
- การเข้าถึง Engineering Workstation นอกเวลาปกติ
- File Encryption Activity บน HMI หรือ SCADA Server
ขั้นตอนที่ 3: Containment — จำกัดขอบเขต
เป้าหมายคือหยุดการลามของการโจมตีโดยไม่กระทบ Safety:
- Network Isolation: ตัดการเชื่อมต่อระหว่าง IT และ OT ทันที (ปิด Firewall Rule, ถอดสาย Uplink)
- System-level Isolation: แยกอุปกรณ์ที่ถูกโจมตีออกจาก Network Segment
- Preserve Evidence: จับ Network Capture (PCAP), Memory Dump, Log ก่อนทำความสะอาด
- Maintain Safe Operation: หากเป็นไปได้ ให้ระบบควบคุมทำงานในโหมด Manual Override
ขั้นตอนที่ 4: Eradication — กำจัดภัยคุกคาม
- วิเคราะห์ Root Cause ของการโจมตี (Phishing? Vulnerability? Insider?)
- ลบ Backdoor และ Malware จากทุกระบบที่ได้รับผลกระทบ
- ตรวจสอบ Integrity ของ PLC Program เปรียบเทียบกับ Known-good Backup
- เปลี่ยน Password ทุก Account ที่อาจถูก Compromise
- อัปเดต Firmware และ Patch ช่องโหว่ที่ถูกใช้โจมตี
ขั้นตอนที่ 5: Recovery — กู้คืนและกลับสู่การผลิต
การ Recovery ใน OT ต้องทำเป็น ขั้นตอน ตามลำดับความสำคัญ:
- Safety Systems (SIS) — กู้คืนและทดสอบก่อนอื่น
- Basic Process Control (BPCS) — ระบบควบคุมหลัก
- Monitoring & Visualization (HMI/SCADA) — ระบบแสดงผล
- Data Historian & Analytics — ระบบเก็บข้อมูล
- Enterprise Integration (MES/ERP) — ระบบเชื่อมต่อภายนอก
ขั้นตอนที่ 6: Lessons Learned — เรียนรู้และปรับปรุง
- จัด Post-Incident Review ภายใน 72 ชั่วโมงหลังเหตุการณ์สิ้นสุด
- บันทึก Timeline ที่แม่นยำ ของทุกขั้นตอน
- วิเคราะห์ What Worked / What Didn’t
- ปรับปรุง IRP, Playbook และ Detection Rules ตามผลวิเคราะห์
- แจ้งผลให้ ผู้บริหารและ Regulatory Body ตามที่กฎหมายกำหนด
ตารางเปรียบเทียบ Severity Level และการตอบโต้
| Severity | คำอธิบาย | การตอบโต้ | SLA |
|---|---|---|---|
| 🔴 Critical | การโจมตีที่ส่งผลต่อ Safety หรือหยุดการผลิต | Immediate Isolation + Shutdown if Safety at Risk + Executive Notification | ตอบโต้ภายใน 15 นาที |
| 🟠 High | มีการโจมตีที่กำลังดำเนินอยู่ แต่ยังไม่กระทบ Production | Isolate Affected Systems + Monitor + Investigate | ตอบโต้ภายใน 1 ชั่วโมง |
| 🟡 Medium | ตรวจพบกิจกรรมผิดปกติ แต่ยังไม่ยืนยันว่าเป็นการโจมตี | Investigate + Gather Evidence + Prepare Containment | ตอบโต้ภายใน 4 ชั่วโมง |
| 🟢 Low | เหตุการณ์ที่น่าสงสัย แต่ความเสี่ยงต่ำ | Log & Monitor ติดตามต่อ | ตรวจสอบภายใน 24 ชั่วโมง |
Key Takeaways — สรุปสิ่งสำคัญ
- 📝 IRP ต้องเขียนและซ้อม — แผนที่ไม่เคยซ้อม = แผนที่ใช้ไม่ได้จริง
- 👥 CSIRT ต้องมีทั้ง IT และ OT — เหตุผลฉุกเฉินต้องมีคนที่เข้าใจทั้งสองโลก
- 🛡️ Safety First — ใน OT ความปลอดภัยของคนสูงสุด ไม่ใช่ Data
- 🔍 แยก Security Incident จาก Operational Issue — ใช้ Triage Process ที่ชัดเจน
- 📦 Preserve Evidence ก่อน Clean — Forensic Data มีค่ามากสำหรับการวิเคราะห์
- 🔄 Recovery ตามลำดับความสำคัญ — SIS → BPCS → HMI → Historian → Enterprise
- 📊 Post-Incident Review ภายใน 72 ชม. — จับภาพข้อมูลขณะยังจำได้ ก่อนข้อมูลจะเบลอ
