Untitled Document
 
 
 

Untitled Document
thai_search_tcs
ค้นหา






หน้าหลัก >
ผลิตภัณฑ์และโซลูชั่น


Fault Management

บทความ Fault management นี้ ประกอบด้วย นิยาม, ประโยชน์จากการนำไปใช้, วิธีการเก็บข้อมูล, แนวทางในการเลือกจัดการค่า fault ที่ต้องการ, ตัวอย่างของ Fault management tools, ผลกระทบของ fault ที่มีต่อ network และรูปแบบการรายงาน fault
 
นิยามของ Fault management
Fault management เป็นกระบวนการที่ใช้กำหนดตำแหน่งและแก้ไขปัญหา network ที่เรียกว่า Fault ซึ่งจากการที่ Network management มีการทำงานย่อยรวมอยู่หลายงาน Fault management เป็นงานที่จัดว่ามีความสำคัญสูงสุด ซึ่งประกอบด้วย

  • การระบุการเกิดของ fault บน data network
  • การหาสาเหตุของ fault
  • การแก้ไข fault (ถ้าทำได้)  

ให้พิจารณา DECnet node ที่ชื่อ Cheer ที่มีต่อกับ Main data network เพียง connection เดียวดังรูปที่ 1 เมื่อ connection นี้ใช้งานไม่ได้ สิ่งแรกที่ระบบ Network management จะบอกว่าเกิดปัญหาขึ้นแล้ว ซึ่งในกรณีนี้จะไม่สามารถ access ไปยัง Cheer ได้ ซึ่งขั้นตอนต่อไป tool ที่ใช้จะต้องแยกแยะต้นเหตุของปัญหาการที่ไม่สามารถติดต่อ Cheer ได้เป็นเพราะ serial line connection จาก node นี้ไปยังส่วนอื่นๆของ network ไม่ได้ และขั้นตอนต่อมา tool ควรช่วยหาทางแก้ปัญหาที่เกิดขึ้น เป็นไปได้ที่ tool จะช่วยทำให้เกิดการเชื่อมต่อของ connection อื่นๆระหว่าง Cheer กับ Main data network ดังที่เห็นในตัวอย่างการนำ Fault management ไปใช้อย่างถูกต้อง ทำให้สามารถแก้ไข fault ที่เกิดขึ้นได้โดยไม่ทำให้เกิด downtime เลย

  1. ข้อมูลที่เกี่ยวข้องกับ Critical network event ที่ถูกส่งมาให้โดยอุปกรณ์ network ในขณะที่เกิด fault ขึ้น เช่น Link fail, การที่อุปกรณ์ restart หรือการที่ host ทำการตอบสนองช้า โดยส่วนใหญ่การเชื่อถือข้อมูลเพียงบางเหตุการณ์จะไม่เพียงพอที่นำมาใช้สำหรับการทำFault management ที่มีประสิทธิภาพ ตัวอย่าง เช่น ถ้าอุปกรณ์ network ไม่สามารถทำงานต่อได้อย่างสมบรูณ์ ก็ไม่สามารถส่ง event ต่างๆได้ดังนั้น Fault management tool ที่ใช้ เพียงบาง critical network event ก็อาจจะไม่ update กับสถานะของอุปกรณ์ network
  2. การ polling ไปยังอุปกรณ์ network เป็นช่วงๆ จะช่วยทำให้พบปัญหาที่เกิดขึ้นได้ขึ้นอยู่กับช่วงเวลาที่ใช้ polling อย่างไรก็ตามต้องยอมรับผลของการใช้วิธีนี้ ความเร็วของการตรวจพบ ขึ้นอยู่กับความถี่ของการ polling ซึ่งขึ้นกับการเปรียบเทียบความถี่ของการ polling แล้วทำให้พบปัญหาได้เร็วกับ bandwidth ที่ถูกใช้ไป ดังนั้นถ้าต้องการให้พบปัญหาได้เร็วที่สุดต้องใช้ bandwidth ที่มาก ซึ่งปัจจัยอื่นที่ใช้พิจารณาเมื่อทำการตัดสินในการกำหนดค่าช่วงเวลา polling time คือจำนวนของอุปกรณ์ที่ทำการ poll และ bandwidth ของ link นั้นๆ

ตัวอย่าง เช่นถ้าสมมติว่าในแต่ละ query และ response มีความยาวของข้อมูลเฉลี่ย 100 bytes ดังนั้นสำหรับ network ที่ประกอบด้วยอุปกรณ์ 30 ชุด ข้อมูลที่ส่งและรับทั้งหมดของอุปกรณ์ 30 ชุดเท่ากับ 6,000 bytes(2*100 bytes*30 unit) หรือเท่ากับ 48,000 bits(6,000 bytes*8 bit/byte)

การ poll ทุกๆ 60 วินาที จะทำให้เกิดปริมาณข้อมูลเฉลี่ยเท่ากับ 800 bit/sec(48,000bits/60 sec)ของ bandwidth และทำให้สามารถทราบถึงสถานะของอุปกรณ์ในทุกๆนาที ซึ่งขึ้นอยู่กับ ปริมาณ bandwidth ที่มีในระบบ network ว่าใช้ bandwidth ในการ polling เป็นส่วนใหญ่หรือไม่

Protocol ที่ใช้ในการตรวจสอบการทำงานของอุปกรณ์และสามารถใช้ poll ไปยังอุปกรณ์ ได้แก่ ICMP Echo และ Echo Reply(ping), AppleTalk Echo, Banyan Vine Echo และ SDLC Receiver Ready(RR) frame ซึ่ง protocol เหล่านี้จะมีข้อมูลที่ช่วยในการแยกแยะ fault ได้ในตัวเอง
 
การเลือกว่าจะ Manage fault อะไรบ้าง
ไม่จำเป็นที่จะกำหนดให้ fault แต่ละอันมีความสำคัญที่เท่ากัน บาง fault เป็นสิ่งที่เราต้องการที่รู้ ส่วนบาง fault เราต้องการให้ระบบจัดการให้โดยไม่ต้องบอกให้ทราบหรือไม่ต้องสนใจเลย ซึ่งเราต้องทำการตัดสินใจว่า fault ไหนที่ต้องการ Manage ซึ่งควรจะเป็น fault ที่สำคัญเฉพาะสำหรับ network ของเรา

ซึ่งเรามีเหตุผลที่ต้องทำอย่างนี้อยู่ 2 อย่าง คือ

  1. ถ้าจำนวนของ fault มีหลายค่า ทำให้อาจจัดการได้ไม่หมด
  2. เนื่องจากปัญหาของขีดจำกัดของ bandwidth ของ event เราจึงต้องทำการลดข้อมูล event ที่ซ้ำซ้อนหรือไม่มีประโยชน์ และลดการสูญเสีย bandwidth

การตัดสินใจที่จะจัดการ fault ค่าไหน จะดูจากคุณสมบัติดังนี้

  • ขอบเขตของการควบคุมที่ทำกับ network ซึ่งมีผลต่อจำนวนข้อมูล event ที่สามารถเก็บได้จากอุปกรณ์ network
  • ขนาดของ network

บนหลายๆ network มีการทำ Centralize organize management กับ network backbone ดังแสดงในรูปที่ 2 โดย backbone จะประกอบไปด้วยอุปกรณ์ต่างๆ เช่น X25 Switch, IP router , IP switch ซึ่งการทำ Centralize organization management จะจัดการกับ Critical network event ของอุปกรณ์ backbone network ซึ่งมีผลกับ network ทั้งหมด การที่มีการปล่อยให้ทำ Local administration บ้าง เพื่อ manage fault ของอุปกรณ์ network ของตัวเอง และลด Load ของ Centralize Organization management ลง

ขนาดของ data network ซึ่งปกติจะเป็นเงื่อนไขในการตัดสินใจ ใน network ขนาดเล็ก(อุปกรณ์น้อยกว่า 50 อุปกรณ์) วิศวกรอาจเลือก manage fault ทุกชนิด รวมถึง host และอุปกรณ์ network ต่างๆ ใน network ขนาดกลาง วิศวกรอาจเลือก manage เฉพาะ fault ที่เป็น Critical network event สำหรับอุปกรณ์ network เท่านั้น สำหรับ network ขนาดใหญ่ วิศวกรอาจเลือก manage เฉพาะ fault ที่เป็น Critical network event เฉพาะ host และอุปกรณ์ network ที่สำคัญเท่านั้น
 


การเก็บข้อมูลแบบอัตโนมัติ
เราสามารถหลีกเลี่ยงการทำงานที่ใช้แรงงานในการเก็บข้อมูลแบบ manual เพื่อเก็บข้อมูลและ update ข้อมูล configuration ด้วยการเก็บข้อมูลแบบอัตโนมัติ ตัวอย่างเช่น สามารถใช้ network management protocol ทำการเก็บข้อมูลของอุปกรณ์ network อย่างต่อเนื่องและเก็บข้อมูลในที่เก็บแบบอัตโนมัติ

โดย tool อื่นที่ใช้คือ auto-discovery ซึ่งสามารถทำการสร้าง list ของอุปกรณ์ทั้งหมดใน network ที่มีอยู่ในขณะนั้น การทำ auto-discovery สามารถนำมาสร้าง graphical map ของข้อมูล network ในขณะนั้นโดยใช้ขั้นตอนการ auto-mapping ดังในรูปที่ 2


Fault management บนระบบ Network management
หลังจากที่ตัดสินใจได้ว่าต้องการ manage fault อันไหน และกำหนดลักษณะการเก็บข้อมูลของ network ขั้นตอนต่อไปคือการนำ Fault management tools ไปใช้ โดยประสิทธิภาพของ tool นี้จะขึ้นอยู่กับปริมาณและชนิดของข้อมูลที่ host และอุปกรณ์ network

ผลกระทบของ Fault ที่เกิดบนระบบ network
Fault management ต้องใช้วิเคราะห์ถึงผลของ fault ที่มีต่อ area อื่นของ network ได้ ซึ่งสามารถรายงานการวิเคราะห์ fault ที่เกิดขึ้น โดย tool จะระบุจุดที่ failure, แนวทางการแก้ไข และผลกระทบที่จะเกิดขึ้น เช่น

LINK FAILURE between Europe Node and United States Node. หรือ ระบุขั้นตอนการปฏิบัติด้วย LINK FAILURE between Europe Node and United States Node.

STOP DECnet and IBM SNA traffic between Europe and United States. หรือ ระบุ area ที่มีผลกระทบในรายงานด้วย SWITCH FAILURE in New York. No ACCESS to Boston, Buffalo, Newark, and Washington DC.

รูปแบบของการรายงาน Fault
รูปแบบที่ใช้มีความสำคัญเช่นกัน โดยปกติจะแสดงได้ 3 รูปแบบดังนี้

  1. ข้อความ (Text)
  2. รูป Graphic
  3. เสียง

โดยแบบข้อความเป็นแบบที่ควรเลือกใช้ในเบื้องต้นเพราะสามารถทำงานได้บนจอ terminal ได้ทุกแบบ แต่อย่างไร ก็ตามแบบรูปภาพจะดูแล้วสื่อความหมายได้ดีที่สุด โดยการแสดงผลแบบนี้ต้องใช้จอ display สีที่ปกติใช้กับ tool ที่ใช้บน Network management system อยู่แล้ว โดยถ้าไม่มีสีก็สามารถทำให้รูปภาพกระพริบได้ ส่วนแบบที่ใช้เสียงมีจุดเด่น ในการเตือนให้วิศวกรทราบได้เร็วที่สุดในการแสดงผลถ้าสามารถระบุได้ถึงจุดที่มีผลกระทบด้วยก็จะทำให้ สามารถแยกแยะปัญหาได้เร็วขึ้น

สรุป

  • Network engineer ที่ดูแลเรื่อง Fault management tools บน data network จะต้องใช้ข้อได้เปรียบโดยทำการปรับปรุงระบบ network ให้มีประสิทธิภาพมากขึ้นและมีความน่าเชื่อถือมากขึ้น
  • Fault management จะทำงาน 3 อย่างคือ ต้องสามารถระบุปัญหาที่เกิดได้, หาสาเหตุของปัญหาได้ และสามารถแก้ไข fault ได้
  • ขั้นตอนแรกการระบุปัญหา ซึ่งรวมถึงความสามารถในการรวบรวมข้อมูลจากระบบ network โดยใช้วิธีการดังนี้ เช่นการเก็บ Critical network event หรือการ polling ไปยังอุปกรณ์ network
  • การกำหนดว่าจะใช้ fault ค่าใดเพื่อนำมาจัดการระบบ data network ซึ่งควรถูกกำหนดโดยปัจจัยดังต่อไปนี้
    • ขอบเขตของการดูแล network ซึ่งมีผลต่อจำนวนของข้อมูลที่จะเก็บจากอุปกรณ์ network
    • ขนาดของ network
  • Fault management tools ต่างๆที่ใช้ตั้งแต่ Simple จนถึง Advance tools ที่ออกแบบมาทำงาน Fault management โดย Simple tool สามารถใช้หาจุดที่เกิดปัญหาได้แต่ไม่สามารถบอกสาเหตุได้ ส่วน Complex tool จะใช้ข้อได้เปรียบของ host และอุปกรณ์ network เพื่อส่ง Critical network event ซึ่งสามารถใช้หาสาเหตุของปัญหาได้ ส่วน Advance tool สามารถทำได้เหนือกว่าอีกระดับโดยสามารถแก้ปัญหาที่เกิดขึ้นให้เลย
  • และควรระบุผลกระทบของ fault ที่มีต่อ network และกำหนดรูปแบบการรายงานผล ซึ่งทั่วไปใช้สีของรูปภาพ Graphic แสดงผลของ fault ที่เกิด 

 สอบถามข้อมูลเพิ่มเติมได้ที่ TCS Marketing
e-Mail :
โทร. 02-685-9424
 


thai_copyright_menu_new


ธุรกิจเรา | การให้บริการ | ผลิตภัณฑ์และโซลูชั่น | ข่าวสารและกิจกรรม | อบรม | ติดต่อเรา
กลุ่มบริษัท จีเอเบิล | แผนผัง | สมัครงาน