131 1300 0010
行業(yè)動態(tài)
當(dāng)前位置: 首頁>> 新聞中心>>行業(yè)動態(tài)>>
  • 導(dǎo)航欄目
  • 產(chǎn)品新聞
  • 企業(yè)新聞
  • 行業(yè)動態(tài)
  • OpenGVLab開源平臺推動通用AI技術(shù)的規(guī)?;瘧?yīng)用
    OpenGVLab開源平臺推動通用AI技術(shù)的規(guī)?;瘧?yīng)用
  • OpenGVLab開源平臺推動通用AI技術(shù)的規(guī)?;瘧?yīng)用
  • 來源:商湯科技SenseTime  發(fā)布日期: 2022-03-09  瀏覽次數(shù): 5,631

    下面這幾張圖的內(nèi)容分別是什么?你或許一眼就能看出是打麻將、競速摩托、香檳、熊貓。

    但人工智能不一定可以。

    雖然人工智能已經(jīng)強大到可以識別萬物,但很多AI模型只能完成單一的任務(wù),比如識別單一的物體,或者識別風(fēng)格較為統(tǒng)一的照片,如果換一種類型或者風(fēng)格,就愛莫能助。

    現(xiàn)在,有一位“書生”,對于這不同類型的圖,它都能較為準(zhǔn)確地識別出其中的內(nèi)容,包括圖畫。

    這需要有獨特的模型訓(xùn)練及標(biāo)簽體系,也要求模型具有一定的通用性,這樣才能對不同類型的圖片做出準(zhǔn)確的描述。

    這位“書生”正是去年11月,由上海人工智能實驗室聯(lián)合商湯科技、香港中文大學(xué)、上海交通大學(xué),聯(lián)合發(fā)布的通用視覺技術(shù)體系“書生”(INTERN)。

    今天,為了幫助業(yè)界更好地探索通用視覺AI技術(shù),基于“書生”技術(shù)體系的通用視覺平臺OpenGVLab正式發(fā)布并開源。

    OpenGVLab開放的內(nèi)容包括其超高效預(yù)訓(xùn)練模型,和千萬級精標(biāo)注、十萬級標(biāo)簽量的公開數(shù)據(jù)集,為全球開發(fā)者提升各類下游視覺任務(wù)模型訓(xùn)練提供重要支持。

    同時,OpenGVLab還同步開放業(yè)內(nèi)首個針對通用視覺模型的評測基準(zhǔn),便于開發(fā)者對不同通用視覺模型的性能進行橫向評估和持續(xù)調(diào)優(yōu)。

    目前OpenGVLab開源平臺(opengvlab.shlab.org.cn)已正式上線,供各界研究人員訪問和使用,后續(xù)項目還將開通在線推理功能,供所有對人工智能視覺技術(shù)感興趣的社會人士自由體驗。

    超高性能模型,展現(xiàn)極強的通用性

    OpenGVLab繼承了“書生”體系的技術(shù)優(yōu)勢,其開源的預(yù)訓(xùn)練模型具有超高的性能和通用性。

    具體而言,相較于當(dāng)前最強開源模型(OpenAI 于2021年發(fā)布的CLIP),OpenGVLab的模型可全面覆蓋分類、目標(biāo)檢測、語義分割、深度估計四大視覺核心任務(wù),在準(zhǔn)確率和數(shù)據(jù)使用效率上均取得大幅提升。

    基于同樣的下游場景數(shù)據(jù),開源模型在分類、目標(biāo)檢測、語義分割及深度估計四大任務(wù)26個數(shù)據(jù)集上,平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。

    開源模型在分類、檢測、分割和深度估計中,僅用10%的下游訓(xùn)練數(shù)據(jù)就超過了現(xiàn)有其他開源模型。

    使用此模型,研究人員可以大幅降低下游數(shù)據(jù)采集成本,用極低的數(shù)據(jù)量,即可快速滿足多場景、多任務(wù)的AI模型訓(xùn)練。

    OpenGVLab還提供多種不同參數(shù)量、不同計算量的預(yù)訓(xùn)練模型,以滿足不同場景的應(yīng)用。模型庫中列出了多個模型,其在ImageNet的微調(diào)結(jié)果和推理資源、速度,相比于之前的公開模型均有不同程度的性能提升。

    開放千萬級精標(biāo)注數(shù)據(jù)集

    高性能的模型,離不開豐富數(shù)據(jù)集的訓(xùn)練。

    除了預(yù)訓(xùn)練模型,以百億數(shù)據(jù)總量為基礎(chǔ),上海人工智能實驗室構(gòu)建了超大量級的精標(biāo)注數(shù)據(jù)集,近期將進行數(shù)據(jù)開源工作。

    超大量級的精標(biāo)注數(shù)據(jù)集不僅整合了現(xiàn)有的開源數(shù)據(jù)集,還通過大規(guī)模數(shù)據(jù)圖像標(biāo)注任務(wù),實現(xiàn)了對圖像分類、目標(biāo)檢測以及圖像分割等任務(wù)的覆蓋,數(shù)據(jù)總量級近七千萬。開源范圍涵蓋千萬級精標(biāo)注數(shù)據(jù)集和十萬級標(biāo)簽體系。

    目前,圖像分類任務(wù)數(shù)據(jù)集已率先開源,后續(xù)還將開源目標(biāo)檢測任務(wù)等更多數(shù)據(jù)集。

    此外,此次開源的超大標(biāo)簽體系,不僅幾乎覆蓋了所有現(xiàn)有開源數(shù)據(jù)集,并在此基礎(chǔ)上擴充了大量細粒度標(biāo)簽,涵蓋各類圖像中的屬性、狀態(tài)等,極大豐富了圖像任務(wù)的應(yīng)用場景,顯著降低下游數(shù)據(jù)的采集成本。

    研究人員還可以通過自動化工具添加更多標(biāo)簽,對數(shù)據(jù)標(biāo)簽體系進行持續(xù)擴展和延伸,不斷提高標(biāo)簽體系的細粒度,共同促進開源生態(tài)繁榮發(fā)展。

    首個通用視覺評測基準(zhǔn)

    伴隨OpenGVLab的發(fā)布,上海人工智能實驗室還開放了業(yè)內(nèi)首個針對通用視覺模型的評測基準(zhǔn),彌補通用視覺模型評測領(lǐng)域的空白。

    當(dāng)前,行業(yè)中已有的評測基準(zhǔn)主要針對單一任務(wù)、單一視覺維度設(shè)計,無法反映通用視覺模型的整體性能,難以用于橫向比較。

    全新的通用視覺評測基準(zhǔn)憑借在任務(wù)、數(shù)據(jù)等層面的創(chuàng)新設(shè)計,可以提供權(quán)威的評測結(jié)果,推動統(tǒng)一標(biāo)準(zhǔn)上的公平和準(zhǔn)確評測,加快通用視覺模型的產(chǎn)業(yè)化應(yīng)用步伐。

    在任務(wù)設(shè)計上,OpenGVLab提供的通用視覺評測基準(zhǔn)創(chuàng)新地引入了多任務(wù)評測體系,可以從分類、目標(biāo)檢測、語義分割、深度估計、行為識別等5類任務(wù)方向,對模型的通用性能進行整體評估。

    不僅如此,該評測基準(zhǔn)新加了僅用測試數(shù)據(jù)集10%數(shù)據(jù)量的評測設(shè)定,可以有效評估通用模型在真實數(shù)據(jù)分布下的小樣本學(xué)習(xí)能力。在測試后,評測基準(zhǔn)還會根據(jù)模型的評測結(jié)果給出相應(yīng)的總分,方便使用者對不同的模型進行橫向評測。

    隨著人工智能與產(chǎn)業(yè)融合的不斷深入,行業(yè)對人工智能的需求逐漸從單一任務(wù)向復(fù)雜的多任務(wù)協(xié)同發(fā)展,亟需構(gòu)建開源、開放的體系,以滿足趨于碎片化和長尾化的海量應(yīng)用需求。

    OpenGVLab的開源,將幫助開發(fā)者顯著降低通用視覺模型的開發(fā)門檻,用更低成本快速開發(fā)用于成百上千種視覺任務(wù)、視覺場景的算法模型,高效實現(xiàn)對長尾場景的覆蓋,推動通用AI技術(shù)的規(guī)?;瘧?yīng)用。

    歡迎大家加入OpenGVLab,一起構(gòu)筑通用AI生態(tài)。

    原文標(biāo)題:通用視覺研究利器來了!OpenGVLab平臺正式開源

    文章出處:【微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


  • ·上一篇:
    ·下一篇:
  • 其他關(guān)聯(lián)資訊
    深圳市日月辰科技有限公司
    地址:深圳市寶安區(qū)松崗鎮(zhèn)潭頭第二工業(yè)城A區(qū)27棟3樓
    電話:0755-2955 6626
    傳真:0755-2978 1585
    手機:131 1300 0010
    郵箱:hu@szryc.com

    深圳市日月辰科技有限公司 版權(quán)所有:Copyright?2010-2023 www.kqne.cn 電話:13113000010 粵ICP備2021111333號