什麼是 TPU,它有什麼用途?

Google 的 TensorFlow 平台允許其用戶通過提供用於機器學習的工具和資源來訓練 AI。 長期以來,AI 工程師一直使用傳統的 CPU 和 GPU 來訓練 AI。 儘管這些處理器可以處理各種機器學習過程,但它們仍然是用於各種日常任務的通用硬件。

為了加快 AI 訓練速度,Google 開發了一種稱為張量處理單元 (TPU) 的專用集成電路 (ASIC)。 但是,什麼是張量處理單元,它們如何加速 AI 編程?

什麼是張量處理單元 (TPU)?

張量處理單元是 Google 用於機器學習的 ASIC。TPU 專門用於深度學習,以解決複雜的矩陣和向量運算。TPU 經過精簡,可以以超高速解決矩陣和向量運算,但必須與 CPU 配對才能提供和執行指令。TPU 只能與 Google 的 TensorFlow 或 TensorFlow Lite 平台一起使用,無論是通過雲計算還是本地硬件上的精簡版。

TPU 的應用

學習資料

自 2015 年以來,Google 一直在使用 TPU。他們還確認將這些新處理器用於 Google Street View 文本處理、Google Photos 和 Google Search Results (Rank Brain),以及創建稱為 AlphaGo 的 AI, 它擊敗了頂級圍棋選手和贏得了國際象棋、圍棋和將棋領先程序的 AlphaZero 系統。

TPU 可用於各種深度學習應用,例如欺詐檢測、計算機視覺、自然語言處理、自動駕駛汽車、語音 AI、農業、虛擬助手、股票交易、電子商務和各種社會預測。

何時使用 TPU

由於 TPU 是用於深度學習的高度專業化硬件,它失去了您通常期望從 CPU 等通用處理器獲得的許多其他功能。 考慮到這一點,在某些特定場景下,使用 TPU 會在訓練 AI 時產生最佳結果。

使用 TPU 的最佳時機是用於模型嚴重依賴矩陣計算的操作,例如搜索引擎的推薦系統。TPU 還可以為 AI 分析需要數週或數月才能完成的大量數據點的模型產生出色的結果。AI 工程師將 TPU 用於沒有自定義 TensorFlow 模型的實例,並且必須從頭開始。

何時不使用 TPU

如前所述,TPU 的優化導致這些類型的處理器僅適用於特定的工作負載操作。 因此,在某些情況下,選擇使用傳統 CPU 和 GPU 會產生更快的結果。 這些實例包括:

  • 具有最大靈活性的快速原型製作
  • 受可用數據點限制的模型
  • 簡單且可以快速訓練的模型
  • 模型 更改繁重
  • 模型依賴於用 C++ 編寫的自定義 TensorFlow 操作

TPU 版本和規格

自 Google 發布其 TPU 以來,公眾一直在不斷了解最新版本的 TPU 及其規格。 以下是所有 TPU 版本及其規格的列表:

TPUv1 TPUv2 TPUv3 TPUv4 Edgev1

引入日期 2016 2017 2018 2021 2018
流程節點 (nm) 28 16 16 7
模具尺寸(mm²) 331 <625 <700 <400
片上存儲器 28 32 32 144
時鐘速度(MHz) 700 700 940 1050
最小內存配置(GB) 8 DDR3 16 HBM 32 HBM 32 HBM
TDP(瓦) 75 280 450 175 2
TOPS(每秒萬億次操作) 23 45 90 ? 4
TOPS/W 0.3 0.16 0.2 ? 2

如您所見,TPU 時鐘速度似乎並不那麼令人印象深刻,尤其是當今現代台式計算機的時鐘速度可以快 3-5 倍時。 但是,如果您查看表格底部的兩行,您會發現 TPU 每秒可以處理 23-90 兆次運算,而功耗僅為 0.16-0.3 瓦。 在使用神經網絡接口時,TPU 估計比現代 CPU 和 GPU 快 15-30 倍。

隨著每個版本的發布,更新的 TPU 都顯示出顯著的改進和功能。 以下是每個版本的一些亮點。

  • TPUv1:第一個公開宣布的 TPU。 設計為 8 位矩陣乘法引擎,僅限於求解整數。
  • TPUv2:由於工程師注意到 TPUv1 的帶寬有限。 這個版本現在有雙倍的內存帶寬和 16GB 的 RAM。 這個版本現在可以解決浮點數,使其對訓練和推理有用。
  • TPUv3:TPUv3於2018年發布,處理器數量是TPUv2的兩倍,芯片數量是TPUv2的四倍。 升級使該版本的性能是以前版本的八倍。
  • TPUv4:這是 2021 年 5 月 18 日發布的最新版本的 TPU。谷歌 CEO 宣布該版本的性能將是 TPU v3 的兩倍以上。
  • Edge TPU:此 TPU 版本適用於較小的操作,經過優化,在整體操作中比其他版本的 TPU 使用更少的功率。 儘管僅使用 2 瓦功率,Edge TPU 每秒最多可以解決 4 次 terra-operations。Edge TPU 僅適用於小型手持設備,例如 Google 的 Pixel 4 智能手機。

如何訪問 TPU? 誰可以使用它們?

TPU 是 Google 設計的專有處理單元,可用於其 TensorFlow 平台。 自 2018 年以來,第三方對這些處理器的訪問已被允許。如今,TPU(Edge TPU 除外)只能通過 Google 的計算服務通過雲進行訪問。 而 Edge TPU 硬件可以通過谷歌的 Pixel 4 智能手機及其被稱為 Coral 的原型套件購買。

Coral 是一種 USB 加速器,它使用 USB 3.0 Type C 來傳輸數據和供電。 它為您的設備提供邊緣 TPU 計算能力,每 2W 功率可實現 4 TOPS。 該套件可以在使用 Windows 10、macOS 和 Debian Linux 的機器上運行(它也可以與 Raspberry Pi 一起使用)。

其他專業 AI 加速器

隨著人工智能在過去十年中風靡一時,大型科技公司一直在尋找使機器學習盡可能快速和高效的方法。 儘管谷歌的 TPU 可以說是為深度學習開發的最受歡迎的 ASIC,但英特爾、微軟、阿里巴巴和高通等其他科技公司也開發了自己的人工智能加速器。 其中包括 Microsoft Brainwave、英特爾神經計算棒和 Graphicore 的 IPU(智能處理單元)。

但是,儘管正在開發更多的 AI 硬件,但遺憾的是,大多數尚未上市,而且許多硬件永遠不會上市。 在撰寫本文時,如果你真的想購買 AI 加速器硬件,最流行的選擇是購買 Coral 原型設計套件、英特爾 NCS、Graphcore Bow Pod 或華碩物聯網 AI 加速器。 如果您只想訪問專門的 AI 硬件,您可以使用 Google 的雲計算服務或其他替代品,例如 Microsoft Brainwave。

Scroll to Top