日韩视频在线精品视频免费观看-日韩视频在线观看中字-日韩视频在线观看一区-日韩视频在线观看免费-日韩视频在线观看-日韩视频在线播放

產(chǎn)品分類

當(dāng)前位置: 首頁(yè) > 儀表工具產(chǎn)品 > 專用工具 > 長(zhǎng)度測(cè)量工具 > 直尺

類型分類:
科普知識(shí)
數(shù)據(jù)分類:
直尺

Xilinx 全可編程器件 :出色的計(jì)算密集型系統(tǒng)開發(fā)平臺(tái)

發(fā)布日期:2022-07-14 點(diǎn)擊率:35

  賽靈思 All Programmable FPGA 和 SoC 針對(duì)一系列計(jì)算密集型工作負(fù)載提供最高效、最具成本效益、時(shí)延最低、最具設(shè)計(jì)靈活性并且滿足未來(lái)需求的計(jì)算平臺(tái)。

  摘要

  為了滿足不斷攀升的數(shù)據(jù)處理需求,未來(lái)系統(tǒng)需要在計(jì)算能力上大幅改進(jìn)。傳統(tǒng)解決方案(例如 x86 處理器)再也無(wú)法以高效、低成本的方式提供所需的計(jì)算帶寬,系統(tǒng)設(shè)計(jì)人員必須尋找新的計(jì)算平臺(tái)。

  FPGA 和 GPU 越來(lái)越多地被系統(tǒng)設(shè)計(jì)人員看好,認(rèn)為它們能夠滿足未來(lái)需求的計(jì)算平臺(tái)。

  為新時(shí)代提供必要的計(jì)算效率和靈活性,本白皮書將對(duì) GPU 以及賽靈思 FPGA和 SoC 器件進(jìn)行分析。

  簡(jiǎn)介

  未來(lái)系統(tǒng)(例如云數(shù)據(jù)中心 [DC] 和自動(dòng)駕駛汽車)需要在計(jì)算能力上大幅改進(jìn),以支持不斷增多的工作負(fù)載以及不斷演進(jìn)的底層算法。例如,大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、視覺處理、基因組以及高級(jí)駕駛員輔助系統(tǒng) (ADAS) 傳感器融合工作負(fù)載都在促使計(jì)算性能能以低成本、高效的方式實(shí)現(xiàn)提升,并且超出現(xiàn)有系統(tǒng)(例如 x86 系統(tǒng))的極限。

  系統(tǒng)架構(gòu)師正在尋找能滿足要求的新計(jì)算平臺(tái)。該平臺(tái)需要足夠靈活,以便集成到現(xiàn)有的架構(gòu)中 , 并支持各種工作負(fù)載及其不斷演進(jìn)的算法。此外,這些系統(tǒng)很多還必須提供確定性的低時(shí)延性能,以支持實(shí)時(shí)系統(tǒng)(例如自動(dòng)駕駛汽車)所需的快速響應(yīng)時(shí)間。

  圖形處理單元 (GPU) 廠商非常積極地將 GPU 定位成新時(shí)代計(jì)算平臺(tái)的最佳之選,主要依據(jù)其在機(jī)器學(xué)習(xí)訓(xùn)練的高性能計(jì)算 (HPC) 領(lǐng)域取得的成功。在此過程中, GPU 廠商針對(duì)機(jī)器學(xué)習(xí)推斷工作負(fù)載修改了他們的架構(gòu)。

  然而, GPU 廠商還是忽視了基本的 GPU 架構(gòu)的局限性。這些局限性會(huì)嚴(yán)重影響 GPU 以高效、低成本方提供必要的系統(tǒng)級(jí)計(jì)算性能的能力。例如,在云端 DC 系統(tǒng)中,對(duì)工作負(fù)載的需求在一天內(nèi)會(huì)發(fā)生很大變化。此外,這些工作負(fù)載的底層算法也會(huì)發(fā)生快節(jié)奏變化。 GPU 架構(gòu)的局限性會(huì)阻止很多今天的工作負(fù)載和明天形成的工作負(fù)載映射到 GPU,導(dǎo)致硬件閑置或低效。本白皮書的“ GPU 架構(gòu)的局限性”部分對(duì)這些局限性進(jìn)行了更詳細(xì)介紹。

  相反,賽靈思 FPGA 和 SoC 具有眾多關(guān)鍵屬性,使它們非常適合解決未來(lái)系統(tǒng)要求所提出的種種挑戰(zhàn)。這些獨(dú)特屬性包括 :

  ● 針對(duì)所有數(shù)據(jù)類型提供極高的計(jì)算能力和效率

  ● 具備極高靈活性,能夠針對(duì)多種工作負(fù)載將計(jì)算和效率優(yōu)勢(shì)最大化

  ● 具備 I/O 靈活性,能方便地集成到系統(tǒng)中并實(shí)現(xiàn)更高效率

  ● 具備大容量片上存儲(chǔ)器高速緩存,可提高效率并實(shí)現(xiàn)最低時(shí)延

  GPU 起源和目標(biāo)工作負(fù)載

  GPU 的起源要追溯到 PC 時(shí)代,英偉達(dá) (NVidia) 公司聲稱在 1999 年推出世界首款 GPU,但有很多其他顯卡要先于該公司的出品。 GPU 是一款全新設(shè)計(jì)的產(chǎn)品,用來(lái)分擔(dān) / 加速圖形處理任務(wù),例如替 CPU 進(jìn)行像素陣列的陰影和轉(zhuǎn)換處理,其架構(gòu)非常適合高并行吞吐量處理。本質(zhì)上, GPU 的主要作用是為視覺顯示器 (VDU) 渲染高質(zhì)量圖像。

  多年來(lái),少量非圖形的大規(guī)模并行和存儲(chǔ)器相關(guān)工作負(fù)載是在 GPU(而非 CPU)上實(shí)現(xiàn)并且受益良多,例如需要大規(guī)模矩陣計(jì)算的醫(yī)療成像應(yīng)用。 GPU 廠商意識(shí)到他們可以將 GPU 的市場(chǎng)延伸到非圖形應(yīng)用領(lǐng)域,并導(dǎo)致 GPU 的非圖形編程語(yǔ)言(諸如 OpenCL)應(yīng)運(yùn)而生。這些編程語(yǔ)言實(shí)際上是將 GPU 轉(zhuǎn)化成了通用 GPU (GPGPU)。

  機(jī)器學(xué)習(xí)

  最近,能夠良好映射到 GPU 實(shí)現(xiàn)方案的工作負(fù)載之一就是機(jī)器學(xué)習(xí)訓(xùn)練。通過充分運(yùn)用 GPU,顯著縮短了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間。GPU 廠商試圖利用機(jī)器學(xué)習(xí)訓(xùn)練方面的成功來(lái)助推其在機(jī)器學(xué)習(xí)推斷上的發(fā)展(部署經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò))。隨著機(jī)器學(xué)習(xí)算法和所需數(shù)據(jù)精度的發(fā)展演進(jìn), GPU 廠商一直在調(diào)整他們的架構(gòu)以保持自身地位優(yōu)勢(shì)。例如,英偉達(dá)在他們的 Tesla P4 產(chǎn)品中提供 INT8 支持。然而,即使是更低的精度,例如二進(jìn)制和三進(jìn)制,今天也正在被很多用戶探索。要利用機(jī)器學(xué)習(xí)及其它領(lǐng)域的進(jìn)步, GPU 用戶必須等待新硬件推出之后購(gòu)買新硬件。正如本白皮書后面所述,賽靈思 FPGA 和 SoC 的用戶則無(wú)需等待或購(gòu)買新硬件,因?yàn)檫@類產(chǎn)品本身就具有高度的靈活性。

  GPU 廠商想使自身成為這個(gè)新計(jì)算時(shí)代的首選計(jì)算平臺(tái),機(jī)器學(xué)習(xí)是他們的基礎(chǔ)。但要弄清楚 GPU 是否適合未來(lái)系統(tǒng),還要做更全面的系統(tǒng)級(jí)分析,需要考慮 GPU 架構(gòu)的很多局限性以及系統(tǒng)要求如何隨時(shí)間發(fā)展演進(jìn)。

  GPU 架構(gòu)的局限性

  本部分將深入研究典型的 GPU 架構(gòu),以揭示它的局限性以及如何將它們應(yīng)用于各種算法和工作負(fù)載。

  SIMT ALU 陣列

  圖 1 給出了典型的 GPU 方框圖。通用 GPU 計(jì)算功能的核心是大型的算數(shù)邏輯單元 (ALU) 或內(nèi)核陣列。

  這些 ALU 通常被認(rèn)為是單指令多線程 (SIMT),類似于單指令多數(shù)據(jù) (SIMD)。

圖 1 : GPU 方框圖

 

  基本原理是將工作負(fù)載分成數(shù)千個(gè)并行的線程。需要大量 GPU 線程來(lái)防止 ALU 閑置。然后,對(duì)這些線程進(jìn)行調(diào)度,以使 ALU 組并行執(zhí)行同一(單個(gè))指令。利用 SIMT, GPU 廠商能實(shí)現(xiàn)相對(duì) CPU 占位面積更小和能效更高的方案,因?yàn)閮?nèi)核的很多資源都可與相同組中的其他內(nèi)核共享。

  然而,顯然只是特定的工作負(fù)載(或部分工作負(fù)載)能被高效映射到這種大規(guī)模并行架構(gòu)中。如果構(gòu)成工作負(fù)載的線程不具有足夠的共性或并行性(例如連續(xù)工作負(fù)載或適度并行工作負(fù)載),ALU 會(huì)閑置,導(dǎo)致計(jì)算效率降低。此外,構(gòu)成工作負(fù)載的線程預(yù)期要最大化 ALU 利用率,從而產(chǎn)生額外的時(shí)延。即使有英偉達(dá)的 Volta 架構(gòu)中的獨(dú)立線程調(diào)度這樣的功能,底層架構(gòu)也保持 SIMT,也需要大規(guī)模并行工作負(fù)載。

  對(duì)于連續(xù)、適度并行或稀疏工作負(fù)載, GPU 提供的計(jì)算功能和效率甚至低于 CPU 。例如用 GPU 實(shí)現(xiàn)稀疏矩陣計(jì)算 ;如果非零元素?cái)?shù)量較少,則從性能和效率角度看 GPU 低于或等同于 CPU。

  有趣的是,很多研究人員正在研究稀疏卷積神經(jīng)網(wǎng)絡(luò),以利用很多卷積神經(jīng)網(wǎng)絡(luò)中的大規(guī)模冗余。這種趨勢(shì)顯然在機(jī)器學(xué)習(xí)推斷領(lǐng)域向 GPU 提出了挑戰(zhàn)。

  稀疏矩陣計(jì)算也是大數(shù)據(jù)分析中的關(guān)鍵環(huán)節(jié)。

  包含大量并行計(jì)算任務(wù)的大多數(shù)工作負(fù)載也包含一些連續(xù)或適度并行元素,意味著需要 GPU-CPU 混合系統(tǒng)來(lái)滿足系統(tǒng)性能要求。顯然,高端 CPU 需求會(huì)影響平臺(tái)的效率和成本效益, CPU 與GPU 之間的通信也會(huì)給系統(tǒng)增加潛在瓶頸。SIMT/GPU 架構(gòu)的另一個(gè)局限性是 ALU 的功能取決于它的固定指令集和所支持的數(shù)據(jù)類型。

  離散數(shù)據(jù)類型精度支持

  系統(tǒng)設(shè)計(jì)人員正在探索簡(jiǎn)化數(shù)據(jù)類型精度,以此實(shí)現(xiàn)計(jì)算性能的跳躍式提升,而且不會(huì)使精度明顯降低。

  機(jī)器學(xué)習(xí)推斷在降低精度方面一馬當(dāng)先,首先是 FP16,然后是 INT16 和 INT8。研究人員正在探索進(jìn)一步降低精度,甚至降到二進(jìn)制。

  GPU ALU 通常原生支持單精度浮點(diǎn)類型 (FP32),有些情況支持雙精度浮點(diǎn) (FP64)。 FP32 是圖形工作負(fù)載的首選精度,而 FP64 經(jīng)常用于一些 HPC 用途。低于 FP32 的精度通常無(wú)法在 GPU 中得到有效支持。因此采用標(biāo)準(zhǔn) GPU 上的更低精度,除了能減少所需存儲(chǔ)器帶寬以外,作用甚微。

  GPU 通常提供一些二進(jìn)制運(yùn)算功能,但通常只能每 ALU 進(jìn)行 32 位寬運(yùn)算。 32 位二進(jìn)制運(yùn)算存在很大的復(fù)雜性和面積需求。在二值化神經(jīng)網(wǎng)絡(luò)中,算法需要 XNOR 運(yùn)算,緊接著進(jìn)行種群 (population) 計(jì)數(shù)。NVidia GPU 只能每四個(gè)周期進(jìn)行一次種群計(jì)數(shù)運(yùn)算,這會(huì)極大影響二進(jìn)制計(jì)算。

  如圖 2 所示,為了與機(jī)器學(xué)習(xí)推斷空間的發(fā)展保持同步, GPU 廠商一直進(jìn)行必要的芯片修改,以支持有限的幾種降精度數(shù)據(jù)類型,例如 FP16 和 INT8。例如, Tesla P4 和 P40 卡上的 NVidia GPU 支持 INT8,每 ALU/Cuda 內(nèi)核提供 4 個(gè) INT8 運(yùn)算。

圖 2 : 英偉達(dá)降精度支持

 

  然而,英偉達(dá)面向 Tesla P40 上的 GoogLeNet v1 Inference 發(fā)布的機(jī)器學(xué)習(xí)推斷基準(zhǔn)結(jié)果表明, INT8 方案與 FP32 方案相比效率只提升 3 倍,說(shuō)明要在 GPU 架構(gòu)中強(qiáng)行降低精度并取得高效結(jié)果存在較大難度。

  隨著機(jī)器學(xué)習(xí)和其他工作負(fù)載轉(zhuǎn)向更低精度和定制精度, GPU 廠商需要向市場(chǎng)推出更多新產(chǎn)品,他們的現(xiàn)有用戶也需要升級(jí)平臺(tái)才能受益于這種改進(jìn)。

  通過嚴(yán)格的存儲(chǔ)器層級(jí)實(shí)現(xiàn)軟件定義數(shù)據(jù)路徑

  與 CPU 類似, GPU 中的數(shù)據(jù)流也由軟件定義,并取決于 GPU 的嚴(yán)格而復(fù)雜的存儲(chǔ)器層級(jí)。典型的 GPU 存儲(chǔ)器層級(jí)如圖 3 所示。

  每個(gè)線程在寄存器文件中都有自己的存儲(chǔ)器空間,用以存儲(chǔ)線程的本地變量。少量線程(相同的存儲(chǔ)塊中)可通過共享存儲(chǔ)器通信 ;所有線程都能通過全局或片外存儲(chǔ)器通信。

  如圖 3 所示,與存儲(chǔ)器訪問有關(guān)的能耗和時(shí)延分別增加 100 倍和 80 倍以上,因?yàn)閿?shù)據(jù)需要遍歷存儲(chǔ)器層級(jí)——從寄存器文件到全局存儲(chǔ)器。此外,存儲(chǔ)器沖突不可避免,會(huì)增大時(shí)延,導(dǎo)致 ALU 閑置,致使計(jì)算能力和效率降低。

圖 3 : 典型的 GPU 存儲(chǔ)器層級(jí)

 

  因此,如果實(shí)現(xiàn) GPU 的計(jì)算和效率潛能,工作負(fù)載的數(shù)據(jù)流必須準(zhǔn)確映射到 GPU 存儲(chǔ)器層級(jí)。工作負(fù)載要具備足夠的數(shù)據(jù)局部性,才能高效地映射到 GPU,實(shí)際上這樣的工作負(fù)載很少。對(duì)大多數(shù)工作負(fù)載而言,當(dāng)在 GPU 上實(shí)現(xiàn)時(shí),實(shí)際的計(jì)算能力和效率會(huì)大打折扣,解決方案的時(shí)延也會(huì)增加。

  機(jī)器學(xué)習(xí)推斷作為量化實(shí)例,能清楚反應(yīng)出這種數(shù)據(jù)流局限性。 GPU 必須批處理,例如 128,以實(shí)現(xiàn)高效但時(shí)延更長(zhǎng)的解決方案。最終,批處理使機(jī)器學(xué)習(xí)處理局部化,但代價(jià)是時(shí)延增加。

  GoogLeNet v1 Inference 的 NVidia P40 基準(zhǔn)測(cè)試結(jié)果可清楚地反映出該效應(yīng)。對(duì)于 GoogLeNet v1,網(wǎng)絡(luò)因 P40 存儲(chǔ)器帶寬而受計(jì)算束縛,因此與批處理有關(guān)的存儲(chǔ)器帶寬削減不會(huì)產(chǎn)生很大幫助。然而, P40顯然需要 128 批處理以實(shí)現(xiàn) 50% 的 GPU 理論性能,會(huì)給系統(tǒng)帶來(lái)很大時(shí)延。有些情況下,可利用 CPU 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以便工作負(fù)載更好地映射到 GPU SIMT 架構(gòu)和存儲(chǔ)器層級(jí),但代價(jià)是產(chǎn)生更多 CPU 計(jì)算和功耗,抵消了 GPU 的優(yōu)勢(shì)。

    有限的 I/O 選項(xiàng)

  如“ GPU 起源和目標(biāo)工作負(fù)載”部分所述, GPU 的角色是作為協(xié)處理器。為了便于與主機(jī)通信, GPU以往只有一個(gè)硬 PCIe? 接口以及幾個(gè)片外 DRAM 接口(例如 GDDR5)。最近幾代產(chǎn)品中,有些 GPU 采用硬接口實(shí)現(xiàn) GPU 到 GPU 通信。仍然需要使用 CPU 來(lái)與網(wǎng)絡(luò)進(jìn)行連接以及向 GPU 分配任務(wù),這會(huì)增加系統(tǒng)功耗,同時(shí)會(huì)因 PCIe 的有限帶寬而帶來(lái)瓶頸問題。例如,英偉達(dá)的 Tesla P40 支持 PCIe 3.0 x16,只能實(shí)現(xiàn) 16GB/s 帶寬。

  GPU 廠商已經(jīng)開始構(gòu)建小型 SoC,例如 NVidia Tegra X1,能夠提供集成 GPU 計(jì)算、 ARM? 處理器以及一些通用汽車外設(shè)(如 HDMI、 MIPI、 SIP、 CAN 和基礎(chǔ)以太網(wǎng))。這些器件只具備少量計(jì)算能力,必須依靠額外的分立 GPU 實(shí)現(xiàn)必要的計(jì)算能力。然而,分立 GPU 的接口有很大局限性,例如 Tegra X1 僅支持 PCIe 2.0 x4,造成嚴(yán)重瓶頸。額外的 SoC 的功耗會(huì)進(jìn)一步降低平臺(tái)的效率。

  片上存儲(chǔ)器資源

  除了時(shí)延、效率和吞吐量方面的不利影響,片外存儲(chǔ)器的帶寬要顯著低于本地 / 片上存儲(chǔ)器。因此,如果工作負(fù)載需要依靠片外存儲(chǔ)器,不僅片外存儲(chǔ)器的帶寬會(huì)成為瓶頸,而且計(jì)算資源也會(huì)被閑置,從而降低 GPU 提供的計(jì)算功能和效率。

  因此,更有利的做法是采用大型低時(shí)遲、高帶寬片上存儲(chǔ)器。再次以機(jī)器學(xué)習(xí)推斷為例, GoogLeNet 共需要  的存儲(chǔ)器,假設(shè) FP32 方案,這樣沒能提供 GPU,這意味著需要片外存儲(chǔ)器。

  很多情況下需采用高昂的高帶寬存儲(chǔ)器 (HBM) 和批處理,以防止內(nèi)核閑置。如果選擇具有更大型片上存儲(chǔ)器的器件,就能避免 HBM 成本以及額外的時(shí)延和功耗問題。

  功耗范圍

  GPU 廠商在設(shè)計(jì)板卡和 GPU 時(shí)通常要適應(yīng) 250W 功耗上限,并依靠有效熱管理來(lái)調(diào)節(jié)溫度。針對(duì)機(jī)器學(xué)習(xí)推斷市場(chǎng),英偉達(dá)開發(fā)了滿足 75W 功耗范圍的器件,例如 Tesla M4 和 P4。即使 75W 也遠(yuǎn)超出所允許的系統(tǒng)級(jí)功耗和熱范圍。 GPU 的絕對(duì)功耗依然是阻礙 GPU 廣泛使用的一大因素。

  功能安全性

  GPU 源自消費(fèi)圖形處理和高性能計(jì)算領(lǐng)域,不存在功能安全性要求。隨著 GPU 廠商瞄準(zhǔn) ADAS 市場(chǎng),功能安全性就變成了優(yōu)先考慮和要求。器件需要全新設(shè)計(jì),以確保實(shí)現(xiàn)所需的功能安全性認(rèn)證等級(jí),以便用在 ADAS 系統(tǒng)中。對(duì) GPU 廠商來(lái)說(shuō)這是一個(gè)長(zhǎng)期學(xué)習(xí)過程,涉及各個(gè)方面,需要新的工具和設(shè)備。

  賽靈思 FPGA 的起源

  1984 年,賽靈思發(fā)明了現(xiàn)場(chǎng)可編程門陣列 (FPGA),使用戶能夠在單個(gè)器件中編程(重編程)幾乎無(wú)限數(shù)量的功能。以前,系統(tǒng)設(shè)計(jì)人員使用很多通用的分立邏輯組件或通過構(gòu)建高成本的 ASIC 來(lái)實(shí)現(xiàn)這些功能。

  三十多年來(lái),靈活性和可編程性仍然是賽靈思 All Programmable FPGA 和 SoC 的支柱。賽靈思提供的可編程平臺(tái)能滿足有線與無(wú)線通信、云計(jì)算、醫(yī)療、汽車、工業(yè)以及航空航天與國(guó)防領(lǐng)域中多種終端應(yīng)用的核心需求。所有這些應(yīng)用都需要強(qiáng)大的計(jì)算能力,很多還有非常嚴(yán)格的實(shí)時(shí)要求,例如工業(yè)自動(dòng)化和 ADAS。

  通常, FPGA 在使用上的挑戰(zhàn)之一是需要利用硬件描述語(yǔ)言 (HDL)(例如 Verilog 或 VHDL)對(duì)其進(jìn)行編程。最近,賽靈思開發(fā)出了 SDSoC ? 和 SDAccel ? 工具,能夠?qū)⒖删幊唐骷闹T多優(yōu)勢(shì)提供給更廣泛的用戶(例如軟件開發(fā)人員和系統(tǒng)架構(gòu)師) ;并且構(gòu)建了更多加速堆棧,使系統(tǒng)設(shè)計(jì)人員能更快速地實(shí)現(xiàn)賽靈思器件的優(yōu)勢(shì)。

  賽靈思 FPGA 和 SoC 的獨(dú)特優(yōu)勢(shì)

  原始計(jì)算能力

  與 GPU 擁護(hù)者的說(shuō)法不同,單個(gè)賽靈思器件能提供強(qiáng)大的原始計(jì)算能力,例如 Virtex? UltraScale+ ?XCVU13P FPGA 的性能達(dá)到 38.3 INT8 TOP/s。最先進(jìn)的 NVidia Tesla P40 加速卡以基礎(chǔ)頻率運(yùn)行時(shí)提供相似的 40 INT8 TOP/s 原始計(jì)算能力,但功耗是賽靈思解決方案的 2 倍多。賽靈思器件的靈活性和片上存儲(chǔ)器能針對(duì)很多工作負(fù)載和應(yīng)用顯著提高計(jì)算能力(詳見 All Programmable 器件靈活性和片上存儲(chǔ)器資源)。

  此外,賽靈思器件的靈活性意味著能夠支持各種數(shù)據(jù)類型精度,例如 FP32、 INT8、二進(jìn)制和定制[ 參考資料 27]。例如,針對(duì)二值化神經(jīng)網(wǎng)絡(luò),賽靈思提供 500TOPs/s 的超高二進(jìn)制計(jì)算能力(假設(shè)  運(yùn)算),相當(dāng)于 GPU 典型性能的 25 倍。有些精度最適合使用 DSP 資源,有些最適合在可編程邏輯中實(shí)現(xiàn),還有些適合將二者結(jié)合起來(lái)使用。這種靈活性確保器件的計(jì)算和效率隨著精度降低而調(diào)整,一直到二進(jìn)制運(yùn)算。

  機(jī)器學(xué)習(xí)領(lǐng)域的大量研究都從計(jì)算、精度和效率角度來(lái)研究最佳精度。無(wú)論最佳點(diǎn)在哪,對(duì)于給定工作負(fù)載,賽靈思器件的計(jì)算能力和效率都能隨之調(diào)整,以實(shí)現(xiàn)降低精度后的所有優(yōu)勢(shì)。

  幾年來(lái),很多 FPGA 用戶實(shí)現(xiàn)了脈動(dòng)陣列處理設(shè)計(jì),以便針對(duì)多種工作負(fù)載實(shí)現(xiàn)最佳性能,包括機(jī)器學(xué)習(xí)推斷。為了確保賽靈思 FPGA 和 SoC 用戶能夠在現(xiàn)有的賽靈思器件上針對(duì)此類工作負(fù)載將可實(shí)現(xiàn)的計(jì)算能力和效率實(shí)現(xiàn)最大化,賽靈思為此提供多種資源。這些資源包括 INT8最優(yōu)化以及將 DSP 陣列映射到 block RAM 和 UltraRAM 的最高效存儲(chǔ)器層級(jí)。如需了解有關(guān)這些資源的更多信息,敬請(qǐng)聯(lián)系您所在地的賽靈思銷售代表。

  為了針對(duì)當(dāng)今的深度學(xué)習(xí)工作負(fù)載提高可用的計(jì)算能力和效率,英偉達(dá)在 Volta 架構(gòu)中以 Tensor Core 的形式硬化了類似功能。然而,深度學(xué)習(xí)工作負(fù)載會(huì)隨時(shí)間演進(jìn),因此 Tensor Core 架構(gòu)也可能需要改變,而且 GPU 用戶需要等待和購(gòu)買新的 GPU 硬件。

  效率和功耗

  從系統(tǒng)級(jí)角度看,計(jì)算平臺(tái)必須在給定的功率和熱范圍之內(nèi)提供最大計(jì)算能力。為滿足這一需求,計(jì)算平臺(tái)需要 :

  ● 處于允許的功率范圍內(nèi)

  ● 能夠在功率預(yù)算內(nèi)將計(jì)算能力最大化

  賽靈思提供豐富的 All Programmable 器件,這使用戶能選擇與功率和熱范圍最匹配的器件。此外,賽靈思的 UltraScale+ 器件具有低壓模式 (VLOW),能將功耗降低 30%,效率提升 20%。

  如表 1 所示,賽靈思器件針對(duì)固定精度數(shù)據(jù)類型提供從原始計(jì)算角度看最高效的通用計(jì)算平臺(tái)。這主要是因?yàn)橘愳`思 FPGA 架構(gòu)中的處理開銷更低。例如, GPU 需要圍繞計(jì)算資源實(shí)現(xiàn)更多復(fù)雜性,以便實(shí)現(xiàn)軟件可編程功能。對(duì)于當(dāng)今的深度學(xué)習(xí)工作負(fù)載的張量運(yùn)算,英偉達(dá)的 Tesla V100 憑借硬化的 TensorCore 能實(shí)現(xiàn)與賽靈思 FPGA 和 SoC 差不多的效率。然而,深度學(xué)習(xí)工作負(fù)載也在快節(jié)奏演進(jìn),因此無(wú)法確定英偉達(dá)的 Tensor Core 能夠針對(duì)深度學(xué)習(xí)工作負(fù)載保持多久的高效性。顯然對(duì)于其他通用工作負(fù)載,NVidia V100 也存在效率方面的挑戰(zhàn)。

表 1 : 器件效率假設(shè) 90% 器件利用率和 80% 有效時(shí)鐘周期 (1)

 

  鑒于本白皮書之前介紹的局限性,對(duì)于真實(shí)的工作負(fù)載與系統(tǒng), GPU 很難接近表 1 中所給出的數(shù)字。

  賽靈思器件的靈活性及其他優(yōu)勢(shì),加之賽靈思最新軟件開發(fā)堆棧,能確保基于賽靈思的解決方案為大量最終應(yīng)用和工作負(fù)載實(shí)現(xiàn)顯著提高的效率。

  賽靈思器件的附加優(yōu)勢(shì)——例如靈活性和片上存儲(chǔ)器——能確保賽靈思器件的效率被大量最終應(yīng)用和工作負(fù)載所實(shí)現(xiàn)。

  All Programmable 器件的靈活性

  賽靈思器件經(jīng)過精心設(shè)計(jì),能滿足多種高性能終端系統(tǒng)的計(jì)算、效率、成本和靈活性需求。賽靈思將硬件可編程資源(例如邏輯、走線和 I/O)與靈活、獨(dú)立的集成內(nèi)核模塊(例如 DSP Slice 和 UltraRAM)組合在一起,全部構(gòu)建在領(lǐng)先的工藝技術(shù)上,例如臺(tái)積電 (TSMC) 的 16nm FinFET 工藝技術(shù),從而達(dá)到這種平衡。

  賽靈思器件具備硬件可編程性和靈活性,意味著底層硬件通過配置可滿足給定工作負(fù)載的需求。隨后,甚至在運(yùn)行時(shí)也可通過部分重配置功能方便地重新配置數(shù)據(jù)路徑。 圖 4 試圖捕捉賽靈思 All Programmable 器件提供的部分靈活性,但是賽靈思器件的真正靈活性無(wú)法通過單張圖片來(lái)體現(xiàn)。內(nèi)核(或用戶設(shè)計(jì)元素)可以直接連接可編程 I/O、任意其它內(nèi)核、 LUTRAM、 block RAM 和UltraRAM、外部存儲(chǔ)器等。

圖 4 : All Programmable 數(shù)據(jù)路徑和任意到任意 I/O

 

  賽靈思器件具有獨(dú)特的硬件可編程性,意味著它們不存在特定局限性,例如 SIMT 或固定數(shù)據(jù)路徑。無(wú)論是大規(guī)模并行、適度并行、流水線連續(xù)或者混合形式,都能獲得賽靈思器件的計(jì)算能力和效率。此外,如果底層算法改變(例如機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展),則平臺(tái)也能相應(yīng)調(diào)整。

  很多系統(tǒng)和工作負(fù)載中都能看到賽靈思器件發(fā)揮靈活性優(yōu)勢(shì)。其中一種工作負(fù)載就是機(jī)器學(xué)習(xí)推斷。機(jī)器學(xué)習(xí)推斷的趨勢(shì)之一是向稀疏網(wǎng)絡(luò)過渡。賽靈思器件的用戶已經(jīng)在利用這種趨勢(shì)。英偉達(dá)公司本身就是這些用戶中的一個(gè)。在最近與英偉達(dá)聯(lián)合編寫的關(guān)于語(yǔ)音辨識(shí)的一篇文章中,通過使用賽靈思FPGA,相對(duì) CPU 實(shí)現(xiàn)了 43 倍速度提升和 40 倍效率提升,相對(duì) NVidia GPU 實(shí)現(xiàn)了 3 倍速度提升和11.5 倍效率提升。可編程數(shù)據(jù)路徑還減少了賽靈思 FPGA 批處理需求。批處理是系統(tǒng)的時(shí)延 vs 實(shí)時(shí)性能的重要決定因素。

  從大數(shù)據(jù)角度看,賽靈思器件的靈活性也展現(xiàn)出明顯優(yōu)勢(shì)。賽靈思 FPGA 在處理 SQL 工作負(fù)載時(shí)非常高效和快速,包括具有復(fù)雜數(shù)據(jù)(例如可變長(zhǎng)度字符串)的情況。百度利用基于賽靈思 Kintex? UltraScale ? KU115 器件的加速卡實(shí)現(xiàn)了 25 倍以上的提速。該加速卡的功耗僅 50W。百度該解決方案的效率比 GPU 方案快 4 倍 。對(duì)于文本和圖案匹配工作負(fù)載,研究表明基于賽靈思的RegEx 方案比 CPU 方案快 14.5–18 倍,比 GPU 方案快了將近 3 倍。

  基因組分析是另一個(gè)切實(shí)的實(shí)例。有人已經(jīng)利用 GPU 來(lái)加速基因組分析,可相較于 Intel Xeon CPU 方案提速 6–10 倍。不過,賽靈思 FPGA 的提速效果要高得多,相較于同等 CPU 可提速 80倍]。

  賽靈思器件的靈活性還使其成為云服務(wù)提供商的理想選擇,可作為計(jì)算平臺(tái)即服務(wù)的一部分。多種類型的軟件即服務(wù)都可以利用賽靈思器件的優(yōu)勢(shì)。

  最后,對(duì)于正在努力研發(fā)自動(dòng)駕駛功能的汽車系統(tǒng)設(shè)計(jì)人員來(lái)說(shuō),賽靈思器件的靈活性能夠?yàn)樗麄兲峁┛蓴U(kuò)展的平臺(tái),用以滿足完全自動(dòng)駕駛道路上的各種美國(guó)汽車工程師學(xué)會(huì) (SAE) 標(biāo)準(zhǔn)。如需了解關(guān)于SAE 標(biāo)準(zhǔn)的更多信息 , 敬請(qǐng)?jiān)L問 SAE 網(wǎng)站。賽靈思器件可以高效處理來(lái)自各種源頭的傳感器數(shù)據(jù),例如雷達(dá)、照相機(jī)和超聲波,同時(shí)保持系統(tǒng)的實(shí)時(shí) / 時(shí)延目標(biāo)。

  任意到任意 I/O 靈活性

  除了器件計(jì)算資源的靈活性,賽靈思的任意到任意 I/O 靈活性能夠確保器件可無(wú)縫集成到現(xiàn)有的基礎(chǔ)架構(gòu),例如直接連接到網(wǎng)絡(luò)或存儲(chǔ)設(shè)備,無(wú)需使用主機(jī) CPU 。 I/O 靈活性還允許平臺(tái)針對(duì)基礎(chǔ)架構(gòu)的變化或更新進(jìn)行調(diào)整。

  如需了解關(guān)于賽靈思 UltraScale 架構(gòu)器件的更多詳情,請(qǐng)參閱不斷擴(kuò)大的賽靈思大型白皮書庫(kù)。

  片上存儲(chǔ)器

  如表 2 所示,賽靈思器件提供業(yè)界領(lǐng)先的靈活、高帶寬、低時(shí)延的 500Mb 片上存儲(chǔ)器。如此大的片上存儲(chǔ)器緩存意味著工作負(fù)載的很大一部分存儲(chǔ)器要求都能通過片上存儲(chǔ)器來(lái)滿足,從而減小外部存儲(chǔ)器訪問帶來(lái)的存儲(chǔ)器瓶頸問題,以及高存儲(chǔ)器帶寬解決方案(例如 HBM2)的功耗和成本問題。例如,針對(duì)大多數(shù)深度學(xué)習(xí)網(wǎng)絡(luò)技術(shù)(例如 GoogLeNet)的系數(shù) / 特性圖都可存在片上存儲(chǔ)器中,以提高計(jì)算效率和降低成本。

表 2 : 器件片上存儲(chǔ)器大小

 

  片上存儲(chǔ)能消除片外存儲(chǔ)器訪問引起的巨大時(shí)延問題,將系統(tǒng)的實(shí)時(shí)性能最大化。

  封裝內(nèi)的 HBM

  針對(duì)需要高帶寬存儲(chǔ)器的情況,賽靈思在部分 Virtex UltraScale+ 器件中提供 HBM。除了封裝內(nèi) HBM堆棧的 460GB/s 存儲(chǔ)器帶寬,賽靈思 HBM 存儲(chǔ)器控制器還增加更大的靈活性,以便將工作負(fù)載高效映射到器件和可用存儲(chǔ)器帶寬,將效率和計(jì)算效率最大化。

  功能安全性

  賽靈思長(zhǎng)期以來(lái)能夠滿足各種功能安全性,包括工業(yè)自動(dòng)化以及最近的 ADAS。賽靈思工具和器件經(jīng)過重新設(shè)計(jì),以便支持功能安全性應(yīng)用,并達(dá)到相應(yīng)認(rèn)證等級(jí)。

  因此,多家汽車制造商在安全關(guān)鍵型 ADAS 應(yīng)用中采用 Zynq?-7000 All Programmable SoC 量產(chǎn)器件。Zynq UltraScale+ MPSoC 還進(jìn)一步擴(kuò)大對(duì)功能安全應(yīng)用的支持。

  結(jié)論

  系統(tǒng)設(shè)計(jì)人員在這個(gè)新的計(jì)算時(shí)代面對(duì)不同選擇。賽靈思 FPGA 和 SoC 為系統(tǒng)設(shè)計(jì)人員提供最低風(fēng)險(xiǎn),幫助其滿足未來(lái)系統(tǒng)的核心要求與挑戰(zhàn),同時(shí)提供足夠的靈活性以確保平臺(tái)在未來(lái)不會(huì)落伍。

  在深度學(xué)習(xí)領(lǐng)域, UltraScale 架構(gòu)中的 DSP 架構(gòu)內(nèi)在的并行性能夠針對(duì)具有可伸縮 INT8 向量點(diǎn)積性能的神經(jīng)網(wǎng)絡(luò)加強(qiáng)卷積和矩陣乘法計(jì)算量。這能為深度學(xué)習(xí)推斷實(shí)現(xiàn)更低時(shí)延。快速 DSP 陣列、最高效的block RAM 存儲(chǔ)器層級(jí)以及 UltraRAM 存儲(chǔ)器陣列可實(shí)現(xiàn)最佳功率效率。

  現(xiàn)在,利用鏈接  中的開發(fā)套件,以及多種設(shè)計(jì)輸入工具,例如 HLS、 SDSoC 和 SDAccel 工具,用戶可發(fā)揮賽靈思器件的諸多優(yōu)勢(shì)。

  


下一篇: PLC、DCS、FCS三大控

上一篇: 安森美半導(dǎo)體提供全面

推薦產(chǎn)品

更多
主站蜘蛛池模板: 亚洲精品乱码久久久久久不卡 | 又黄又爽又色成人免费视频体验区 | 亚洲美女在线视频 | 快播av在线 | 天天尻| 日本少妇喷水 | 日韩av看片| 色婷婷综合久久久久中文字幕 | 久久人人爽人人爽人人片av麻烦 | 欧美成在线视频 | 欧美一区二区三区影院 | 狠狠干天天干 | 少妇大叫好爽受不了午夜视频 | 成年人免费小视频 | 视频在线亚洲 | 91精彩视频 | 亚洲国产精品一区二区www | 亚洲色图校园春色 | 激情综合色五月丁香六月亚洲 | 成人午夜精品一区二区三区 | 在线观看日韩视频 | 久久99久久99精品 | 久久精品夜色噜噜亚洲a∨ 国产精品人人做人人爽 | 久久精品国产清自在天天线 | 久久久久久伊人高潮影院 | 亚洲不卡av不卡一区二区 | 免费看欧美黄色片 | 欧美性猛交xxxx免费看蜜桃 | 日本少妇bbwbbw高清 | 精品美女 | 亚洲图片欧美在线看 | 亚洲精品国产摄像头 | 精品国产制服丝袜高跟 | 亚洲熟妇av一区二区三区 | 欧美黑人性暴力猛交喷水黑人巨大 | 澳门免费av| 色屁屁www影院免费观看入口 | 双腿张开被9个黑人调教影片 | 乡下小少妇xxxxx性开教 | 亚洲成a人片在线 | 91久久精品一区二区别 | 国产精品二区三区 | 亚洲成人诱惑 | 久久视频一区二区 | 婷婷综合久久中文字幕蜜桃三电影 | 色插视频 | 亚洲欧美精选 | 国产好爽…又高潮了毛片 | 波多野结衣在线视频免费观看 | 亚洲做受高潮欧美裸体 | 国产熟妇与子伦hd | 亚洲大色堂| 99久久无色码中文字幕人妻蜜柚 | 69成人网 | 综合在线播放 | 成人免费观看cn | 日日日噜噜噜 | 亚洲精品免费观看 | 明星各种姿势顶弄呻吟h | 久久久亚洲欧洲日产国码αv | 国产综合精品一区二区三区 | 黄色免费国产 | 一级久久久 | 成人特级毛片69免费观看 | 亚洲精品无码高潮喷水在线 | 国产sm鞭打调教女m视频 | 伦理黄色片 | 午夜av网| 国产露脸系列magnet | 激情综合视频 | 色欲麻豆国产福利精品 | 成人麻豆日韩在无码视频 | 日韩美女视频一区 | 射综合网| 欧美 日韩 一区二区三区 | 久久久噜噜噜久久久 | 尤物视频激情在线视频观看网站 | 福利社午夜影院 | 欧美精品videosexo极品 | 日韩av专区| 99久久精品无码一区二区毛片 | 上司人妻互换中文字幕 | 国产乱人伦av在线a麻豆 | 日日夜夜精品视频免费 | 久久婷婷综合99啪69影院 | 成人淫片免费视频95视频 | 国产高潮久久 | 四虎婷婷| 神马久久春色 | 亚洲麻豆av | 欧美激情精品久久久久久蜜臀 | h视频亚洲 | 刘玥91精选国产在线观看 | 国产网红主播无码精品 | 欧美精品videossex88 | 欧美视频色| 日本公妇乱偷中文字幕 | 香蕉伊蕉伊中文视频在线 | 色香蕉在线视频 | 亚洲国产高清视频 | 国产igao为爱做激情在线观看 | 色中色在线视频 | 久久久久无码精品国产h动漫 | 91中文字幕在线 | 麻豆av影视| 成人一区av | 亚洲黄色第一页 | jizz网站 | 4hu44四虎www在线影院麻豆 | 亚洲黄色毛片 | 人妻中出无码中字在线 | 欧洲成人综合 | 日日躁夜夜摸月月添添添 | www亚洲色图com | 久草黄色网 | 一本一道av无码中文字幕﹣百度 | 日日碰狠狠添天天爽五月婷 | 亚洲精品午夜久久久久久久灵蛇爱 | 免费无遮挡无码永久视频 | av网在线| 巨肉超污巨黄h文小短文 | 久久影视网 | 国产明星精品一区二区刘亦菲 | 91亚洲精华国产精华液 | 日韩av综合在线 | 久久久aa| 成人动漫h在线观看 | 91精品国自产拍在线观看不卡 | 免费中文字幕 | 天堂综合网 | 激情五月综合网 | 成人女人看片免费视频放人 | 国产黄三级看三级 | 日本sm极度另类视频 | 天天av天天av天天透 | 91中文字幕永久在线 | asian日本肉体pics| 日本三级香港三级人妇99 | 一级录像免费录像性高湖 | 国产视频一区在线观看 | 一 级 黄 色 片免费网站 | 人人妻人人澡人人爽欧美一区双 | 国产精品视频免费看 | 国产精品成人久久久 | 国产啪视频 | 大桥久未无码吹潮在线观看 | 又色又污又爽又黄的网站 | 亚洲xxxx18| 白白嫩嫩的美女无套内谢 | 第一次处破女hd精品出血 | 国产精品偷乱一区二区三区 | 国产九色 | 黄色大片免费观看视频 | 国产免费又色又爽粗视频 | 新婚之夜疯狂做爰视频一区二区 | 好看的av在线 | 中文字幕在线天堂 | 欧美亚韩一区二区三区 | 国产精品久久久久久一区二区三区 | 日本aaaa级毛片在线看 | 国产一区精品在线观看 | 2018久久| 国产激情在线 | 亚洲色图第三页 | 国产美女精品视频国产 | 特级毛片在线 | 亚洲一区免费看 | 成人年无码av片在线观看 | 久久精品女人 | 午夜三级做爰视频在线看 | 久久久久国产精品一区 | 国产网红主播av国内精品 | 毛茸茸熟妇丰满张开腿呻吟性视频 | 激情av在线| 51调教丨国产调教视频 | 一本色道久久加勒比精品 | 亚洲免费影院 | 中文字幕永久2021 | 亚洲小视频在线观看 | 午夜寂寞剧场 | 懂色av一区二区夜夜嗨 | 综合亚洲色图 | 日韩久久精品一区二区三区 | 男女插插视频 | 青娱乐99 | 天干天干天啪啪夜爽爽av网站 | 亚洲天堂久久新 | 国产乱妇4p交换乱免费视频 | 五月婷婷丁香网 | 放荡艳妇的疯狂呻吟中文视频 | 成人日韩在线 | 日本一区二区三区免费看 | 欧美aaaaaa| 少妇与子乱毛片 | 欧美日韩不卡在线 | 国产一区二区三区免费 | 舐め犯し波多野结衣在线观看 | 91国产一区 | 日韩欧美日韩 | 宝宝好涨水快流出来免费视频 | 国产午夜精品视频免费不卡69堂 | 国内精品免费视频 | 久久av无码精品人妻系列 | 在线免费观看黄 | 毛片一二三区 | 国产绿帽口舌视频vk | 国产三级黄色毛片 | 国产超碰人人模人人爽人人添 | 色妞ww精品视频7777 | 亚洲女同女同女同女同女同69 | 色网址在线 | 美女日日日 | 狠狠干在线观看 | 少妇3p视频 | 欧美日韩精品一区二区视频 | 国产日韩一区二区在线观看 | 涩涩的视频在线观看 | 国产精品中文字幕在线 | 500篇短篇超级乱淫的小说 | 国产顶级熟妇高潮xxxxx | 国产精品无码一区二区三区在 | 素人在线观看免费视频 | 青青青爽视频在线观看 | 欧美性受xxxx黑人xyx性 | 奇米网狠狠干 | 天天躁夜夜躁狠狠躁2021牛牛 | 精品久久久久久久久久中文字幕 | 国产精品第72页 | 少妇系列之白嫩人妻 | 国产精品乱码人人做人人爱 | 美女视频黄8视频大全 | 性视频免费的视频大全2015年 | 成品片a免人视频 | 黄色激情四射 | 亚洲国产精品av | 91国产丝袜脚调教 | 无码精品人妻一区二区三区影院 | 99这里只有| 日韩视频免费看 | 国模一二区 | 亚洲第一综合网站 | www.se天堂| 国产精品视频1区 | 男人添女人高潮免费网站打开网站 | 免费一级特黄特色毛片久久看 | 国产剧情一区在线 | 国产 浪潮av性色四虎 | 26uuu国产精品 | 91精品在线免费观看 | 91精品国产自产精品男人的天堂 | 91好色先生| jizz欧美| 91a天堂资源| 一级黄色在线 | 天天爽夜夜爽夜夜爽精品视频 | 日韩在线一区视频 | 色欧美视频 | 日本老妇做爰xxx视频 | 久久久精品久久久久 | 亚洲 欧美 激情 小说 另类 | 裸体丰满少妇xxxxxxxx | 中出极品少妇 | 亚欧美精品| 三级慰安女妇威狂放播 | 伊人久久影院 | 成人无遮挡裸免费视频在线观看 | 欧美日韩精品一区二区天天拍小说 | 老妇女av| 男人天堂资源 | 懂色粉嫩绯色av | 国产精品白浆一区二小说 | 九九九九热精品免费视频点播观看 | 国产第一精品 | 国产精品爽爽ⅴa在线观看 国产精品亚洲精品日韩已方 | 性淫影院 | 午夜爱爱免费视频 | 久操久操久操 | 麻豆av一区二区三区 | 九九在线视频免费观看精彩 | 蜜色av| 亚洲中文字幕无码一区 | 台湾三级毛片 | 亚洲综合另类 | 男男羞羞视频网站国产 | 国产精品无人区一区二区三区 | 亚洲不卡av不卡一区二区 | 久久婷婷国产综合国色天香 | 成人在线免费播放 | 无码丰满少妇2在线观看 | 中文字幕乱码无码人妻系列蜜桃 | 日日麻批免费40分钟无码 | 在线看色网站 | 日韩中文无 | jizzjizz中国精品麻豆 | 永久天堂网av手机版 | 亚洲无在线观看 | 一级片在线免费视频 | 热久久国产精品 | 日韩av高清无码 | 少妇伦子伦精品无吗在线观看 | 激情在线观看视频 | 日韩精品激情 | 国产又粗又猛又爽又黄的视频在线观看动漫 | 久久久精品影院 | 成人调教视频 | 亚洲制服丝袜一区二区三区 | 97看片吧| 欧美日韩加勒比 | 亚洲熟妇色xxxxx欧美老妇y | 天堂资源在线www在线观看 | 中文字幕无码不卡免费视频 | 天堂中文在线播放 | 欧美11p| 国产又粗又黄的视频 | 久久九九免费 | 手机在线成人 | 亚洲精品无线乱码一区 | yy111111少妇无码理论片 | 提莫影院av毛片入口 | 黄色成人av网站 | 天堂av日韩 | 中文字幕在线观看英文怎么写 | 少妇午夜三级伦理影院播放器 | 影音先锋中文字幕人妻 | 天堂资源地址在线 | 欧美经典一区二区三区 | 欧美激情导航 | 欧美sese| 亚洲性欧美| 久久黄色av | 欧美激情黑白配 | 天堂中文字幕av | 欧美五月| 7mav视频| 亚洲一区二区乱码 | 中文字幕乱人伦高清视频 | 中文字幕亚洲乱码熟女在线 | 亚洲国产成人av | 免费在线观看日韩 | 日韩夜夜操 | 337p日本欧洲亚洲大胆精蜜臀 | 91嫩草网 | 新片速递丨最新合集bt伙计 | 亚洲激情网站 | 欧美1区2区3区 | 无码国产激情在线观看 | 亚洲精品视频一二三区 | 1级片在线观看 | 网红av在线| 成人影片麻豆国产影片免费观看 | 午夜精品久久久久久不卡8050 | 精品一区二区三区免费播放 | 超清纯大学生白嫩啪啪 | 91在线视频网址 | 国产成人午夜福利在线观看 | 91成人看片 | 人妻互换 综合 | 折磨小男生性器羞耻的故事 | 暴操白丝美女 | 国产精品久久久久久久久久综合 | 国产综合日韩 | 老牛影视免费一区二区 | 亚洲成av人片在线观看 | 久久久久久在线观看 | 阿v视频在线免费观看 | 翘臀后进少妇大白嫩屁股 | 爱色av网站 | 久操五月天 | 久久精品国产99国产精品导航 | av一区二区三区四区 | 吃奶呻吟打开双腿做受在线视频 | 亚洲欧美日韩精品在线 | 亚洲欧洲日本在线 | 又大又长粗又爽又黄少妇视频 | 亚洲男人第一av网站 | 国产午夜在线 | 日韩精品免费一区二区在线观看 | 午夜在线视频免费 | h在线网站 | 一级肉体全黄裸片 | 国产无线乱码一区二三区 | 竹菊影视欧美日韩一区二区三区四区五区 | 久久久久久三级 | 成人做爰www网站视频 | 全黄色毛片 | 亚洲欧美日韩国产精品 | 国产人与禽zoz0性伦在线 | 久久精品久久久久观看99水蜜桃 | 亚洲自拍在线观看 | 亚洲 欧美 综合 在线 精品 | 亚洲一区二区三区国产精华液 | 国产午夜伦鲁鲁 | 亚洲精品视频在线播放 | 欧美黄色免费网站 | 日韩无码电影 | 久久99久久99精品免观看 | 日本r级无打码中文 | 久久婷婷香蕉热狠狠综合 | 国产精品a一区二区三区网址 | 久久久91精品国产一区二区三区 | 欧美一性一乱一交 | 求个av网站| 成人av自拍 | 中文字幕亚洲欧美专区 | 一道本久久 | 日本老太做爰xxxx | 欧美不卡一二三 | 少妇高潮惨叫在线播放 | 亚洲老板91色精品久久 | 亚洲一区二区久久 | 大波大乳videos巨大 | 欧美日韩乱国产 | 蜜桃视频一区二区三区在线观看 | 国产精品永久免费视频 | 女人扒开腿让男人桶到爽 | 欧美日韩妖精视频 | 久久天天躁狠狠躁夜夜婷 | 日韩一级在线观看视频 | 国产精成人品日日拍夜夜免费 | 日韩中文字幕一区 | 国产欧美亚洲精品a | 国产亚洲精品久久久久久牛牛 | 日本少妇搡bbbb搡bbb | 韩国三级在线视频 | 免费看aaaaa级少淫片 | 色日韩| 西西444www无码大胆 | 嘿嘿射在线 | 噼里啪啦国语影视 | 久久亚洲国产成人影院 | 精品国产黄 | 午夜福利视频 | 欧美日日摸夜夜添夜夜添 | 中文字幕第31页 | 久久日本三级香港三级456 | 亚洲自偷自偷在线成人网站传媒 | jzzjzz日本丰满少妇 | 免费毛片全部不收费的 | 久久精品国产一区二区三区肥胖 | 午夜无码一区二区三区在线观看 | 色久av| 亚洲va欧美va天堂v国产综合 | 国产在线视频一区二区 | 日韩免费精品 | 无码aⅴ精品一区二区三区 45分钟免费真人视频 | 超碰在线人 | 国产亚洲精品日韩在线tv黄 | 国内自拍视频一区二区三区 | 男人天堂最新网址 | 山林妇女勾搭老头av | 成人精品一区二区三区在线观看 | 欧美裸体xxxx极品少妇软件 | 中文字幕av播放 | 日日麻批免费40分钟无码 | 亚洲精品国产a | 久久精品中文字幕无码绿巨人 | 午夜性做爰免费看 | 亚洲欧美v国产蜜芽tv | 激情国产 | 伊人久久综合影院 | 337p西西人体大胆瓣开下部 | 91久色视频 | 制服一区| 久久免费精品国自产拍网站 | 中文在线观看免费 | 麻豆免费看片 | 欧美乱轮视频 | 国产成人精品久久亚洲高清不卡 | 日产国产欧美视频一区精品 | 欧美性猛交ⅹxx乱大交 | 亚洲午夜精品久久久久久浪潮 | 免费黄色小视频 | 国产精品国色综合久久 | 98色花堂永久在线网站 | 2021国产精品自在自线 | 亚洲一区二区色 | 欧美不在线 | 国产精品第七页 | 亚洲精品国产一区二区 | 狠狠色噜噜狠狠狠8888米奇 | 免费看黄色的网址 | 日日天日日夜日日摸 | 午夜天堂一区人妻 | 精品久久久久久无码专区 | 亚洲综合久久av一区二区三区 | 国产精品入口免费软件 | 九一九色国产 | 黄色片毛片 | 黄色网址在线免费看 | 欧美精品乱码99久久蜜桃 | 特黄一级片 | 国产精品第一国产精品 | 国产午夜精品久久久久久久久久 | 在线天堂新版资源www在线 | 99热国产精品 | 色呦呦国产精品 | 国产一区二区精品久久岳 | 国产欧美激情日韩成人三区 | 日本韩国欧美一区二区三区 | 天天操婷婷 | 在线成人免费观看 | 蜜桃狠狠色伊人亚洲综合网站 | а天堂中文在线官网在线 | 中文无码一区二区三区在线观看 | 亚洲女同一区 | 亚洲日韩一区精品射精 | 久草一级 | av在线手机观看 | 夜影影视剧大全在线观看 | 天天摸天天透天天添 | 中文国产字幕 | 精品国产乱码久久久久久精东 | 高清欧美精品xxxxx在线看 | 欧美成人激情 | 插嫩嫩学生妹p | 体内精69xxxxxx | 浴室激情hd免费看 | 奶涨边摸边做爰爽别停快点视频 | 欧美日韩八区 | 午夜影院久久 | 三级免费黄| 自拍偷拍20p| 女人被爽到呻吟gif动态图视看 | 性中国妓女毛茸茸视频 | 国产一区内射最近更新 | 青青青草视频 | 中文国产日韩精品av片 | 国产人妻黑人一区二区三区 | 成人国产欧美大片一区 | 男女调教视频 | 日本在线看片免费人成视频1000 | 国产欧美日韩综合精品二区 | 精品日产乱码久久久久久仙踪林 | 久草综合在线观看 | 欧洲肉欲k8播放毛片 | 亚洲字幕av | 久久久国产精品人人片 | 亚洲成a v人片在线观看 | 午夜成人影片 | 中文字幕a∨在线乱码免费看 | 国产偷自视频区视频 | 黄色一二三区 | aaaaaav| 狠狠色噜噜狠狠米奇777 | 99国产精品99久久久久久粉嫩 | 中国美女毛茸茸撒尿 | 91久久婷婷 | 成人h片在线观看 | 国产成人免费片在线观看 | 欧美人动与zoxxxx乱 | 国产精品成熟老女人 | 午夜在线播放 | 韩国美女vip内部1101福利 | 蜜桃av蜜臀av色欲av麻 | 中文字幕第22页 | 无遮挡国产高潮视频免费观看 | 成人高潮片免费软件69视频 | 色欲av无码一区二区三区 | 97夜夜澡人人爽人人喊91洗澡 | 国产69xx | 久久一区二区三区精品 | 成人h动漫精品一区二区器材 | 久久久精品99 | 黄色视屏在线播放 | 老妇肥熟凸凹丰满刺激小说 | 在线观看三区 | 在线观看的黄色网址 | 久久午夜夜伦鲁鲁一区二区 | 国产精品成av人在线视午夜片 | 天天夜夜啦啦啦 | 国产三级做爰在线播放 | 亚州av片 | 黄大色黄大片女爽一次 | 久久久久久久av麻豆果冻 | 偷拍女人私密按摩高潮视频 | 午夜精品国产精品大乳美女 | 麻豆精品一区综合av在线 | 欧美交性又色又爽又黄 | 欧美自拍亚洲综合丝袜 | 久久久久无码精品亚洲日韩 | 四虎在线影视 | 色欲麻豆国产福利精品 | 国产又粗又猛又爽又黄的三级视频 | 日本成人一级片 | 亚洲精品久久久久久一区二区 | 性高朝久久久久久久 | 午夜福利一区二区三区在线观看 | 国产精品日韩欧美一区二区三区 | 亚洲精品91天天久久人人 | 国产成年人网站 | 天天精品免费视频 | 韩国久久精品 | 性生活网址 | av在线超碰 | 草草影院1 | 久久99亚洲精品久久99果 | 国产黄色观看 | 在线精产国品 | 亚洲网站在线观看 | 久久久青草婷婷精品综合日韩 | 亚洲欧洲巨乳清纯 | 午夜久久久 | 亚洲丰满熟女一区二区v | 日日操夜夜骑 | 欧美理论在线 | 久色在线| 中国少妇的呻吟xvideos | 成人午夜av在线 | 亚洲日韩中文字幕 | 成人黄色激情网 | 国产精品12页 | 波多野结衣一区二区三区四区 | 中文字幕精品亚洲无线码二区 | 成人午夜网 | 日本绝伦老头与少妇在线观看 |