丁香婷婷在线观看_国产成人综合自拍_**欧美日韩在线观看_粉嫩欧美一区二区三区_久久午夜鲁丝片午夜精品_日本成人黄色网_91久久在线观看_日韩电影免费观看中文字幕_99天天综合性_免费观看亚洲视频大全

比Hugging Face快24倍,伯克利神級LLM推理系統(tǒng)開源,碾壓SOTA,讓GPU砍半 世界關(guān)注
時間:2023-06-21 16:41:09  來源:引領(lǐng)外匯網(wǎng)  
1
聽新聞

小羊駝和排位賽的「幕后英雄」


【資料圖】

編者按:本文來自微信公眾號 新智元(ID:AI_era),作者:桃子 好困 ,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。

過去2個月,來自UC伯克利的研究人員給大語言模型們安排了一個擂臺——Chatbot Arena。

GPT-4等大語言模型玩家打起了「排位賽」,通過隨機battle,根據(jù)Elo得分來排名。

這一過程中,每當(dāng)一個用戶訪問并使用網(wǎng)站,就需要同時讓兩個不同的模型跑起來。

他們是如何做到的?

這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務(wù)系統(tǒng)vLLM。

簡之,vLLM是一個開源的LLM推理和服務(wù)引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。

配備全新算法的vLLM,重新定義了LLM服務(wù)的最新技術(shù)水平:

值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個集成。

正如研究者所稱,vLLM最大的優(yōu)勢在于——提供易用、快速、便宜的LLM服務(wù)。

這意味著,未來,即使對于像LMSYS這樣計算資源有限的小型研究團(tuán)隊也能輕松部署自己的LLM服務(wù)。

項目地址:https://github.com/vllm-project/vllm

現(xiàn)在,所有人可以在GitHub倉庫中使用一個命令嘗試vLLM了。論文隨后也會發(fā)布。

性能全面碾壓SOTA

今天,這個由UC伯克利創(chuàng)立的開放研究組織LMSYS介紹道:

「一起來見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數(shù)量減少了一半,同時每天平均提供3萬次請求。」

vLLM的性能具體如何?

UC伯克利團(tuán)隊將vLLM的吞吐量與最受歡迎的LLM庫HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術(shù)水平進(jìn)行了比較。

團(tuán)隊在兩個設(shè)置中進(jìn)行評估:在NVIDIA A10G GPU上運行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運行LLaMA-13B模型。

然后,研究人員從ShareGPT數(shù)據(jù)集中抽樣請求的輸入/輸出長度。

在實驗中,vLLM的吞吐量比HF高達(dá)24倍,并且比TGI高達(dá)3.5倍。

在每個請求只需要一個輸出完成時的服務(wù)吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍

在每個請求需要3個并行輸出完成時的服務(wù)吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍

秘密武器:PagedAttention

在vLLM中,團(tuán)隊發(fā)現(xiàn)LLM服務(wù)的性能受到內(nèi)存的限制。

在自回歸解碼過程中,LLM的所有輸入token都會生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內(nèi)存中以生成下一個token。

這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點:

1. 內(nèi)存占用大:在LLaMA-13B中,單個序列的KV緩存占用高達(dá)1.7GB的內(nèi)存。

2. 動態(tài)化:其大小取決于序列長度,而序列長度高度易變,且不可預(yù)測。

因此,有效管理KV緩存是一個重大挑戰(zhàn)。對此,研究團(tuán)隊發(fā)現(xiàn)現(xiàn)有系統(tǒng)由于碎片化和過度保留而浪費了60%至80%的內(nèi)存。

用團(tuán)隊的導(dǎo)師Joey Gonzalez的一句話來講:GPU內(nèi)存碎片化=慢。

為了解決這個問題,團(tuán)隊引入了PagedAttention,一種受到操作系統(tǒng)中虛擬內(nèi)存和分頁經(jīng)典概念啟發(fā)的注意力算法。

與傳統(tǒng)的注意力算法不同,PagedAttention允許在非連續(xù)的內(nèi)存空間中存儲連續(xù)的鍵和值。

具體來說,PagedAttention將每個序列的KV緩存分為若干塊,每個塊包含固定數(shù)量token的鍵和值。在注意力計算過程中,PagedAttention內(nèi)核能夠高效地識別和提取這些塊。

PagedAttention:KV緩存被分割成塊,這些塊在內(nèi)存中不需要連續(xù)

由于這些塊在內(nèi)存中不需要連續(xù),因此也就可以像操作系統(tǒng)的虛擬內(nèi)存一樣,以更靈活的方式管理鍵和值——將塊看作頁,token看作字節(jié),序列看作進(jìn)程。

序列的連續(xù)邏輯塊通過塊表映射到非連續(xù)的物理塊。隨著生成新的token,物理塊會按需進(jìn)行分配。

使用PagedAttention的請求生成過程示例

PagedAttention將內(nèi)存浪費控制在了序列的最后一個塊中。

在實踐中,這帶來了接近最優(yōu)的內(nèi)存使用——僅有不到4%的浪費。

而這種內(nèi)存效率的提升,能讓系統(tǒng)將更多的序列進(jìn)行批處理,提高GPU利用率,從而顯著提高吞吐量。

此外,PagedAttention還具有另一個關(guān)鍵優(yōu)勢:高效的內(nèi)存共享。

比如在并行采樣中,就能從相同的提示生成多個輸出序列。在這種情況下,提示的計算和內(nèi)存可以在輸出序列之間共享。

并行采樣的示例

PagedAttention通過塊表自然地實現(xiàn)了內(nèi)存共享。

類似于進(jìn)程共享物理頁的方式,PagedAttention中的不同序列可以通過將它們的邏輯塊映射到相同的物理塊來共享塊。

為了確保安全,PagedAttention會跟蹤物理塊的引用計數(shù),并實現(xiàn)了寫時復(fù)制機制。

采樣多個輸出的請求示例生成過程

PagedAttention的內(nèi)存共享極大減少了復(fù)雜采樣算法(如并行采樣和束搜索)的內(nèi)存開銷,將它們的內(nèi)存使用量減少了高達(dá)55%。這可以將吞吐量提高多達(dá)2.2倍。

總結(jié)而言,PagedAttention是vLLM的核心技術(shù),它是LLM推斷和服務(wù)的引擎,支持各種模型,具有高性能和易于使用的界面。

GitHub上,團(tuán)隊也介紹了vLLM能夠無縫支持的HuggingFace模型,包括以下架構(gòu):

- GPT-2(gpt2、gpt2-xl等)

- GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)

- LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)

- OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)

小羊駝和排位賽的「幕后英雄」

4月初,UC伯克利學(xué)者聯(lián)手UCSD、CMU等,最先推出了一個開源全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」。

從那時起,Vicuna已在Chatbot Arena為數(shù)百萬用戶提供服務(wù)。

最初,LMSYS的FastChat采用基于HF Transformers的服務(wù)后端來提供聊天demo。

但隨著demo變得越來越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個重大的瓶頸。

為了解決這一挑戰(zhàn),LMSYS與vLLM團(tuán)隊緊密合作,全力開發(fā)出了全新的FastChat-vLLM集成——通過將vLLM作為新的后端,來滿足不斷增長的需求(最多增加5倍的流量)。

根據(jù)LMSYS內(nèi)部微基準(zhǔn)測試的結(jié)果,vLLM服務(wù)后端可以實現(xiàn)比初始HF后端高出30倍的吞吐量。

4月-5月期間,Chatbot Arena的后端已經(jīng)部落了FastChat-vLLM的集成。實際上,有超過一半的Chatbot Arena請求都使用FastChat-vLLM集成服務(wù)的

自4月中旬以來,最受歡迎的語言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務(wù)。

FastChat作為多模型聊天服務(wù)前端,vLLM作為推理后端,LMSYS能夠利用有限數(shù)量的GPU(學(xué)校贊助的),以高吞吐量和低延遲為數(shù)百萬用戶提供Vicuna服務(wù)。

現(xiàn)在,LMSYS正在將vLLM的使用擴(kuò)展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教程

使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):

vLLM可用于離線推理和在線服務(wù)。要使用vLLM進(jìn)行離線推理,你可以導(dǎo)入vLLM并在Python腳本中使用LLM類:

要使用vLLM進(jìn)行在線服務(wù),你可以通過以下方式啟動與OpenAI API兼容的服務(wù)器:

你可以使用與OpenAI API相同的格式查詢服務(wù)器:

有關(guān)使用vLLM的更多方法,請查看快速入門指南:

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

團(tuán)隊介紹

Zhuohan Li

Zhuohan Li是加州大學(xué)伯克利分校計算機科學(xué)專業(yè)的博士生,研究興趣是機器學(xué)習(xí)和分布式系統(tǒng)的交叉領(lǐng)域。

在此之前,他在北京大學(xué)獲得了計算機科學(xué)學(xué)士學(xué)位,指導(dǎo)老師是王立威和賀笛。

Woosuk Kwon

Woosuk Kwon是加州大學(xué)伯克利分校的博士生,研究興趣是為大語言模型等新興應(yīng)用建立實用、靈活和高性能的軟件系統(tǒng)。

團(tuán)隊其他成員包括莊思遠(yuǎn)、盛穎、鄭憐憫、Cody Yu。團(tuán)隊導(dǎo)師包括Joey Gonzalez,Ion Stoica和張昊。

其中,團(tuán)隊的大部分成員同時也是LMSYS成員。

參考資料

https://vllm.ai

關(guān)鍵詞:

国产午夜视频在线播放| 欧美极品欧美精品欧美图片| 成人av影音| 91久久久亚洲精品| 日韩经典一区| 日韩精品自拍偷拍| 亚洲一区二区激情| 色视频欧美一区二区三区| 国产午夜精品久久久久| 欧美日韩免费不卡视频一区二区三区| 女同性恋一区二区三区| 校园激情久久| 国产精品传媒毛片三区| 中文在线手机av| 精品无人区乱码1区2区3区在线| 在线国产日本| 欧美日韩激情在线| jizz国产在线| 欧美图区在线视频| 艳妇乳肉亭妇荡乳av| 国产成人免费av一区二区午夜| 永久免费看mv网站入口亚洲| 国产精品自产拍| 精品国产乱码久久久久久虫虫漫画| 久久久久久久久久久久国产| 亚洲美女视频一区| 日本一级大毛片a一| 91精品国产自产拍在线观看蜜| 欧美综合77777色婷婷| 婷婷综合电影| 免费在线看黄色片| 欧美在线高清| 国产女女做受ⅹxx高潮| 欧美色图一区| 自拍日韩亚洲一区在线| 久久中文字幕二区| 日韩欧美精品免费| 午夜亚洲视频| www.com久久久| 丝袜诱惑制服诱惑色一区在线观看| 欧美亚洲日本一区二区三区| 午夜在线一区二区| 国产不卡的av| 国产一区二区视频在线播放| 性生活一级大片| 精品一区二区三区在线观看国产| 亚洲免费在线播放视频| 国产乱国产乱300精品| 荫蒂被男人添免费视频| 国产999精品久久久久久绿帽| 古装做爰无遮挡三级聊斋艳谭| 天堂久久一区二区三区| xxxx黄色片| 亚洲国产精品成人综合| 成人黄色三级视频| 亚洲精品国产精品乱码不99按摩| 一级黄色免费片| 91精品国产高清一区二区三区蜜臀| 在线视频网站| 日韩在线激情视频| 制服丝袜中文字幕在线| 欧洲成人性视频| 日韩成人视屏| 欧美日韩性生活片| 国产伦精品一区二区三区在线观看 | 亚洲欧洲三级| 久99久精品视频免费观看| 欧美激情 一区| 亚洲乱码中文字幕| 婷婷亚洲一区二区三区| 亚洲一区二区日本| 久久国产直播| 欧美黄色免费在线观看| 91麻豆精品国产91久久久久久久久 | 国产另类自拍| 亚洲作爱视频| 久久精品亚洲a| 亚洲精品99久久久久| 中文字幕在线官网| 奇米777四色影视在线看| 国产精品资源网站| jizz中国少妇| 成人性生交大片免费观看嘿嘿视频| 欧美国产一级| 国产综合精品在线| 亚洲精品国产精品国自产观看浪潮| 亚洲成人激情社区| 少妇一级淫免费放| 精品国产乱码久久久久久虫虫漫画| 成年网站在线| 偷拍视频一区二区| 久久综合久久久久88| 天天爽夜夜爽夜夜爽| 国产91社区| 成人午夜大片免费观看| 人妻一区二区三区| 国产三区二区一区久久| 国产经典欧美精品| 五月天婷婷激情网| 久久久久久久免费| 91婷婷韩国欧美一区二区| 成人午夜视频一区二区播放| 成人欧美一区二区三区黑人孕妇| 奇米精品一区二区三区在线观看一| 伊人久久久久久久久久久久| 欧美极品少妇全裸体| 极品裸体白嫩激情啪啪国产精品| 日批视频免费在线观看| 国产精品美女视频网站| 激情综合色播五月| 欧美91精品久久久久国产性生爱| 青青视频免费在线观看| 黄色一区二区三区| 婷婷激情一区| 中文乱码人妻一区二区三区视频| 亚洲深夜福利在线| 色97色成人| 伊人亚洲综合网| 国产精华一区二区三区| 国产精品三级av| 拍真实国产伦偷精品| 久久久久久久午夜| 日韩欧美国产综合在线一区二区三区| 牛牛精品成人免费视频| 久久精品无码一区| 91国内产香蕉| 成人免费毛片片v| 怡红院在线播放| 久久久久久久久久久久久久久国产| 精品久久久久久久人人人人传媒| 亚洲第一偷拍| 丰满人妻一区二区三区四区53| 日产精品高清视频免费| 亚洲综合网站在线观看| 欧美日一区二区三区| 影音先锋资源av| 久久精品电影网站| av丝袜在线| 精品www久久久久奶水| 精品福利在线导航| 欧美日韩综合| 国产成人毛毛毛片| 五月天综合网| 欧美在线免费视屏| 久久免费大视频| 无码无套少妇毛多18pxxxx| 国产精品香蕉视屏| 亚洲美女精品一区| 日韩手机在线| 国产精品怡红院| 欧美 日韩 国产在线观看| 色999日韩欧美国产| 免费欧美在线| 国产污视频在线| 国产一级黄色录像| 97精品久久久| 亚洲免费av观看| 精品久久不卡| 午夜视频1000| 先锋资源在线视频| 在线观看欧美日韩| 丁香桃色午夜亚洲一区二区三区| 9999在线视频| 真实国产乱子伦对白在线| 蜜桃狠狠色伊人亚洲综合网站| 欧美电影一区二区三区| 久久精品卡一| 亚洲涩涩在线| 99久在线精品99re8热| 亚洲精品电影在线一区| 国产丝袜精品视频| 青娱乐精品在线视频| 国产h视频在线观看| 日本黄色片在线播放| 91精品在线观看视频| 欧美亚洲一区二区在线| 激情综合电影网| 污网站在线免费看| www.黄色com| 久久99精品久久久久久三级| 91精品一区二区三区久久久久久| 免费不卡在线视频| 日韩精品专区| 亚洲精品国产无码| 国产在线青青草| 午夜剧场成人观在线视频免费观看| 欧美亚州韩日在线看免费版国语版| 免费在线亚洲| 亚洲校园激情春色| 亚洲婷婷久久综合| 五月婷婷深爱五月| 国产色婷婷国产综合在线理论片a| 欧美午夜在线观看| 国产一区二区三区免费观看| 国产剧情一区二区在线观看| 午夜精品久久久久久久91蜜桃| 无码任你躁久久久久久老妇| 日本在线观看一区二区三区| 色欲综合视频天天天| 中文日韩欧美| www.久久久久.com| 97超碰国产在线| 四川一级毛毛片| 欧美日韩视频免费在线观看| 91成人国产在线观看| 欧美日韩综合不卡| 国产亚洲欧洲一区高清在线观看| 亚洲精品伦理| 深爱激情五月婷婷| 性欧美大战久久久久久久免费观看| 欧美精品在线免费| 在线观看网站黄不卡| 精品无人区卡一卡二卡三乱码免费卡| 在线免费观看亚洲| 中文字幕在线影院| 影音先锋人妻啪啪av资源网站| 国产原创欧美精品| 久久精品国产清自在天天线| 狠狠躁夜夜躁久久躁别揉| av成人动漫在线观看| 日韩成人三级| 免费影视亚洲| 中文字幕不卡免费视频| 久草视频免费在线播放| 亚洲一区二区福利视频| 成人激情黄色网| 精品国产乱码久久久久久浪潮 | 欧美 日韩 国产 成人 在线 91| 久久久久久国产免费a片| 日韩av片专区| 国产精品免费一区二区三区四区| 精品电影一区二区三区 | 26uuu欧美| 免费亚洲视频| 欧美日韩国产一区精品一区| 国产精品18hdxxxⅹ在线| 欧美aa在线| 国产精品一区二区婷婷| 91资源在线视频| 国产精欧美一区二区三区蓝颜男同| 91在线网站| 亚洲第一大网站| 国产真人无遮挡作爱免费视频| 国产亚洲精品久久久久久打不开| av无码一区二区三区| 免费一级特黄特色毛片久久看| 日韩精品伦理第一区| 春色成人在线视频| 国产精品视频大全| 日本欧美黄网站| 久久久久久久久久久国产| 久久久国产精品免费| 久久综合国产精品台湾中文娱乐网| 中文字幕av一区中文字幕天堂| 最近中文字幕日韩精品| 久久91精品国产91久久久| 91av在线国产| 国产精品大片wwwwww| 久久精品小视频| 亚洲视屏在线播放| 亚洲精品一区二区久| 国产一区二区三区在线视频| 中文字幕日韩高清| 日韩第一页在线| 欧美精品一区二区精品网| 精品免费一区二区三区| 337p日本欧洲亚洲大胆色噜噜| 亚洲精品美女网站| 亚洲男人的天堂在线播放| 91麻豆精品91久久久久同性| 欧美色网站导航| 欧美一区二区三区在| 欧美午夜一区二区三区免费大片| 91久久精品日日躁夜夜躁欧美| 在线免费亚洲电影| 欧美精品一二三| 亚洲激情在线观看视频免费| 日韩中文字幕免费视频| 久久中文字幕视频| 91精品国产91久久久久久吃药| 国产成人亚洲综合91| 亚洲自拍另类欧美丝袜| 另类小说综合网| 欧美精品中文字幕一区二区| 久久久久久久免费视频| 久在线观看视频| 岛国av免费在线| 添女人荫蒂视频| 可以免费看av的网址| 免费观看一区二区三区毛片| 99在线精品视频免费观看20| 亚州av电影免费在线观看| 亚洲资源一区| 嗯啊主人调教在线播放视频| 日韩在线观看中文字幕| 国产一区日韩| 久久精品伊人| 精品在线观看免费| 久久青草欧美一区二区三区| 亚洲精选视频免费看| 欧美一区二区三区人| 日韩最新av在线| 久热爱精品视频线路一| 欧洲一区二区视频| 欧洲国产精品| 日本www高清视频| 精品人妻一区二区免费视频| 五月天婷婷色综合| 精品久久久久中文慕人妻 | 亚洲图片在线综合| 亚洲高清色综合| 97激碰免费视频| 精品不卡一区二区三区| 国产手机免费视频| 任你躁av一区二区三区| 免费在线观看h片| 人妻少妇精品无码专区| 黄色影院在线播放| 国产麻豆久久| 亚洲精品久久久| 国产一区二区三区久久久 | 欧美性猛交xxxx黑人猛交| 欧美高清你懂得| 欧美日韩国产成人在线| 日本亚洲欧美三级| 亚洲天堂av免费在线观看| 少妇丰满尤物大尺度写真| 日本熟妇毛耸耸xxxxxx| 99久久精品国产色欲| 你懂的视频在线观看| 丝袜老师在线| 正在播放日韩欧美一页 | 亚洲亚裔videos黑人hd| 国产欧美婷婷中文| 久久久久久免费看| 国产喷水在线观看| 性生交生活影碟片| 国产精品一卡二卡三卡| 欧美色资源站| 国产精品一区一区三区| 欧洲日韩一区二区三区| 成人有码在线视频| 亚洲精品一区二区三区蜜桃久| 极品白嫩少妇无套内谢| 成人av综合一区| 午夜欧美在线| 亚洲综合色视频| 国产成人高清激情视频在线观看| 草b视频在线观看| 在线观看亚洲网站| 欧美巨大xxxx做受沙滩| 亚洲精品网址| 精品久久久久国产| 97激碰免费视频| 亚洲午夜精品一区| 中文字幕在线观看成人| 亚洲国产成人一区二区| 国产精品vvv| 在线观看视频日韩| 国产偷国产偷精品高清尤物| 亚洲国产美女久久久久| 久久精品国产99精品国产亚洲性色| 欧美熟妇一区二区| 久久久亚洲精华液精华液精华液| 在线免费成人| 国产成人av电影在线播放| 精品国产露脸精彩对白| 国产精品丝袜视频| 国产sm在线观看| 精品人妻一区二区三区蜜桃| 欧美a视频在线| 蜜桃久久av| 99国产精品久久久久久久久久久| 欧美日韩中文在线观看| 97免费中文视频在线观看| 国产美女主播在线| 黄色片子在线观看| 91精品国产一区二区三密臀| 黄页在线观看免费| 欧美中文一区二区| av在线不卡免费看| 精品蜜桃在线看| 欧美日韩精品不卡| 高清中文字幕mv的电影| 亚洲AV无码成人片在线观看| 看片一区二区| 国产成人在线观看免费网站| 欧美性一二三区| 91综合免费在线| 强迫凌虐淫辱の牝奴在线观看| 天天操天天干天天爱| 国产一区二区三区精品在线观看| 精品在线观看视频| 亚洲福利在线视频| 日韩jizzz| 永久免费看mv网站入口| 亚洲精品**中文毛片| 午夜国产欧美理论在线播放| 亚洲人吸女人奶水| 成人免费在线视频网站|