自動化、多層測試的案例
資料的成長呈指數級增長,儲存和處理資料的需求,正在推動全球對超大規模資料中心的需求,這些資料中心的基礎設施,大部分由雲服務提供商(CSPs)如亞馬遜 (Amazon)、微軟 (Microsoft) 和谷歌 (Google) 等設計和管理,依賴堅固的物理連接,確保已部署的儲存和運算資源得到充分利用,本技術文章提出了使用自動化、多層測試解決方案,作為這些關鍵物理連接的認證和故障排除的理由。
超大規模資料中心內最常見的三種實體連接方式包括:直連銅纜(DACs)纜線、主動式光纖纜線(AOCs)和目前比較新的主動式電纜(AECs),這三種連接元件可視為資料傳輸的高速通道,重要的不僅是這些元件的基礎電氣和光學連接正常運作,同樣關鍵的是資料傳輸(透過各種通訊協定)必須在已建立的網路/製造商規格範圍內運作。
這些連接元件主要根據資料速率和物理連接長度(最大覆蓋範圍)而有所不同,直連銅纜(DACs)用於連接距離較近的設備,通常用於同一機架中的兩個元件之間的連接;而現今的主動式電纜(AEC)組件則透過在每條電纜中添加主動元件,擴展了銅纜的覆蓋範圍;主動式光纖纜線(AOCs)具有更長的覆蓋範圍,可實現同一排內、甚至相鄰排之間的兩個設備的連接;而連接可插拔光學模組,或包含長距離拼接連接的光纖纜線組件,則可以連接距離較遠的兩個設備(根據連接的光模組而定,通常可以實現高達80公里的距離而無需放大),無論資料速率或覆蓋範圍距離如何,所有這些連接都必須進行測試,以確保其功能正常運作。
銅/電纜:被動或主動
直連銅纜(DAC)通常是被動的,並在雙軸銅纜的兩端固定有可插拔模組,根據線速率不同,可能使用小型插拔模組(SFP)或四通道小型插拔模組(QSFP),兩端都有特定的連接器,並且電纜長度是固定的;隨著速度的增加,主動式電纜(Active Electrical Cable,AEC)則是主動式的,其內建連接器中整合了訊號處理電路,因此可以對訊號進行重塑,並在需要時進行放大。
主動式電纜(AEC)是一種相對較新的技術,在較短的距離範圍內實現與主動式光纖纜線(AOC)相當的傳輸速率,同時更具經濟性,AEC 是窄規格的銅纜,每端都裝備了產業標準連接器,這種主動式電纜主要用於連接頂部機架伺服器、分佈式機箱,每個機架可容納高達 500 條電纜,AEC 主動式電纜目前看到市場上已有支援 1.6T、800G、400G、200G 和 100G 等不同的傳輸速率,可搭配不同類型的光學模組形式,包括 OSFP-XD、QSFP-DD800、OSFP800到Legacy的QSFP28等。
主動式光纖纜線(AOC)
主動式光纖纜線(AOC),如圖 3 和圖 4 所示,主要用於資料中心的點對點和分支互連應用,通常用於同一機架或同一排機架之間的連接,AOC 纜線的設計目的是解決全球資料中心容量和傳輸距離的問題,資料中心傳統上使用的銅電纜重且笨重,這使得在資料中心進行移動、添加和改動變得非常困難,此外,資料中心設備散發的電磁波干擾會嚴重影響銅電纜的傳輸性能,通常會對其性能造成明顯的影響;AOC 纜線天生對電磁干擾具有抗性,而且更輕、更薄,並且比 DAC 和 AEC 具有更長的覆蓋距離,例如,AOC 電纜可以在 100 米的距離內傳輸 400Gbps,而 DAC 只能在 2 米,AEC 則是 7 米,AOC 實際上是一個主動組件,這解釋了它具有更長覆蓋距離和較高成本的原因,由收發器、控制晶片、連接到兩端的模組、以及光纜組成,在選擇纜線時,必須對長度、資料速率和收發器類型有一定的把握,因為一旦 AOC 纜線製造完成,它們無法更改,圖 4 為分支纜線(breakout cable)的範例(DAC 和 AEC 也有分支選擇),例如400G QSFP-DD to 2x QSFP56 200G 的分支纜線。
表一、乙太網路介面類型
*RS-FEC 代表 Reed-Solomon 前向錯誤修正(Reed-Solomon Forward Error Correction),這是一種數位機制,透過向訊號添加冗餘數據 (redundan- cy),以擴展傳輸距離,使其能夠在遠端自我修正;當指定要與電纜一起使用 RS-FEC 演算法時,它在每個物理連接的端點運行,也就是在乙太網路交換機和伺服器上。
DAC 與 AOC 線材的測試挑戰
因為 DAC、AEC 和 AOC 無法讓用戶直接測量光纖芯本身或銅/電纜的銅導線本身,傳統的媒介測試和認證工具無法用於對這些纜線進行認證或故障排除,相反地,必須使用一種能夠接收雙收發器、並產生和分析流量的測試工具,測試這些高速纜線變成是非常關鍵的步驟,來確保網路性能問題不是由 DAC/AEC/AOC 纜線本身,或其安裝的方式引起;需要考慮的是,與安裝後排查故障相比,測試它的成本更高;首先,需要追蹤和定位遠端的問題,DAC/AEC/AOC 纜線故障的原因可能包括製造缺陷,如組裝錯誤或極性弄反、錯誤的標籤、或運送過程中的損壞;對於 AOC,中間的光纖可能會因為過度彎曲,導致嚴重的訊號損失,甚至光纖可能會被擠壓至斷裂;對於 DAC 或 AEC,可能會出現電磁干擾(EMI)導致過多的位元錯誤(bit errors)。考慮到在超大規模資料中心中需要測試的纜線數量大增,能夠擁有自動化測試流程變得非常必要。
邊緣部署和解聚合 (Disaggregation) – 在安裝過程中平衡時間成本效益
在光纖網路解聚合時代,大規模資料中心的建設和投入運營變得更加複雜。這一趨勢使得承包商不僅需要負責建設,還需要負責測試和認證各家ODM製造的白牌產品 ,確保其中的每條光纖連接都具有優越的性能、可操作性、承受壓力的能力和可靠性;加上大規模資料中心的指數級增長,它們需要更接近終端使用者,這通常體現在更多的邊緣部署,這是為了實現網路虛擬化並降低延遲;同時,超大規模運算供應商需要提高速度、安全性和效率,以應對不斷增長的資料流量和應用需求,在這種情況下,有些資料中心可能會選擇在安裝之前不對所有纜線進行測試,而是等到在運行中出現連接問題時再進行故障排查和修復,這主要是出於加速部署的需求,但這也增加了後期解決問題的複雜性和成本。
同樣地,在故障排查期間需要將停機時間最小化,這通常會導致決定剪斷或斷開纜線,然後重新鋪設新的纜線,而不是對現有的纜線進行故障排查或移除,因此我們常遇到的情況是未經測試的纜線匆忙地被拉出機櫃,然後被退回給製造商表示線材有狀況,然而製造商會說纜線沒有問題,或者會收集大量宣稱“無法工作”的纜線,卻無法診斷出原因。這不僅成本高昂 - 纜線的價格根據線速可以從幾十美元到數千美元不等 - 而且留下故障的纜線還會在機櫃中產生不必要的體積,這種體積笨重,可能導致標籤錯誤、混亂,以及增加意外拔掉正常運作的纜線的風險;由於舊的電纜不能在升級中使用,因為它們具有支持特定的速率,所以將剪斷和無法使用的纜線留在機櫃中會造成龐大的體積和重量,可能危及機櫃和結構的功能。
誤碼率測試的價值
由於纜線成本各異以及其他因素,準確說明安裝時測試和驗證每條纜線的時間成本效益非常困難,然而,不難推斷出安裝時未測試足夠的纜線可能導致未來的故障排除工作以及網路升級更加耗時且成本高昂的後果。
測試纜線最簡單且最具成本效益的方法是執行測試模式,將結果與誤碼率 (BER) 閾值進行比較;DAC、AEC 和 AOC 纜線(包括分支)通常在其資料表上有 BER 評級,特別是當它們與使用 RS-FEC 演算法的設備一起使用時;BER 等級取決於纜線類型、線路速率、和乙太網路介面類型(請參閱表 1),對於用於 RS-FEC 編碼流量的纜線(通常為 400GE、200GE、100GE、50GE 和 25GE),甚至可能同時存在 pre-FEC 評級(糾錯前)和 post-FEC 評級(糾錯後),在這種情況下,建議使用接近纜線 BER 額定值的 pre-FEC BER 閾值執行纜線測試,並確保測得的 BER 小於成功測試的閾值;對於未使用 RS-FEC 的 40GE 和 10GE 纜線,預期 BER 閾值需要小一些,因為這些電路上沒有糾錯;在這種情況下,如果 DAC 或 AOC 沒有 BER 額定值,則建議的閾值 BER 為 10-12,每條纜線一分鐘的測試時間足以在線路速率為 10Gbps 或更高的情況下獲得有意義的 BER 結果,電纜測試的最佳實作程序將產生測試報告,其中包括纜線標識符,例如可以從 DAC 或 AOC 纜線讀取的序列號,針對 DAC 或 AOC 纜線的目標 BER 閾值進行測試是一種有意義的方法,可確保更多纜線在連接時正常運作。
針對超大規模運算中心的全能自動化測試和故障排除解決方案
OneAdvisor 800
OneAdvisor 800 具有相當全面的 DAC、AEC 和 AOC 纜線測試覆蓋範圍,這包括對於像 4x100G QSFP28 到 QSFP-DD、4x100G QSFP56 到 QSFP-DD 以及 200G-200G 纜線測試,均能在單一儀器上完成;此外,TM400GB-QQ 模組可以測試 400G-400G 纜線,只需一個模組即可;VIAVI OneAdvisor 800 搭配 400G 模組,支援從 10/100/1000Base-T 到 400GE 的所有乙太網路速率,它提供完整的同時和獨立的雙埠測試,達 400GE 速率。
T-BERD/MTS-5800 自動化纜線測試套組
如圖 5 所示,VIAVI T-BERD/MTS-5800 是一套支援對超大規模資料中心網路中的 DAC、AOC 和光模組進行多速率測試和故障排除的平台,該平台可協助資料中心營運技術人員透過快速、自動化的測試,降低成本並增加網路正常運作時間,VIAVI 提供纜線測試整合腳本來自動化 DAC/AOC/光模組測試;除了光模組之外,纜線測試還支援主動式/被動式 DAC 或 AOC 的測試;VIAVI 纜線測試中整合了獨特的故障排除功能,該功能提供了一種演算法,可在典型測試的結果低於預期結果時尋找最佳纜線參數設定,分支纜線可以使用單一單元從每端的接點進行測試,作業管理器工具將結果打包在單一測試報告檔案中;VIAVI T-BERD/MTS-5800-100G 提供線路速率高達 112Gbps 的一體化測試;5800-100G 支援所有具有雙埠功能的乙太網路速率,包括 10/100/1000BASE-T、optical 1GE、10GE、25GE、40GE、50GE 和 100GE。
在安裝之前,技術人員可以選擇使用配備雙埠 SFP/QSFP 的單一測試設備來測試所有 DAC/AOC/AEC 纜線,或對從批次收到的纜線的子集進行抽樣測試。
在故障排除期間,由於兩個纜線連接器末端之間的距離,使得已安裝的電纜通常需要使用兩個測試設備,在頂架 (TOR) 配置中,可以使用單台雙埠測試設備來測試 DAC 或 AOC,技術人員可以測試眾多應用,包括 DAC/AOC 纜線以及都會網路、骨幹網路和資料中心互連。
使用 VIAVI T-BERD/MTS-5800 自動化纜線測試套件的好處包括:
增加建設、投入運營和拆遷的速度。
提高資料中心的獲利速度。
減少安裝、驗證、啟動和故障排除的時間和成本。
改善網路性能和資料中心的可用性與正常運行時間。
支援服務水準協定(SLA)交付