午夜精品人妻久久久-成年美女很黄的网站-在线看片免费人成视久网app-国产精品美女无遮挡一区二区-91精品国产综合久久久久-国产的免费视频又猛又爽又刺激-在线看片免费人成视久网app-久久香蕉国产精品视频-av一区二区三区高清

看圖說(shuō)話 人工智能生成圖片標(biāo)題描述

圖像標(biāo)題生成器模型結(jié)合了計(jì)算機(jī)視覺(jué)和機(jī)器翻譯的最新進(jìn)展,利用神經(jīng)網(wǎng)絡(luò)生成現(xiàn)實(shí)的 圖像標(biāo)題 。神經(jīng)圖像標(biāo)題模型被訓(xùn)練 , 以最大限度地產(chǎn)生給定輸入圖像的字幕的可能性 。并且可以用來(lái)生成新的圖像描述 。例如 , 下面是使用 MS COCO數(shù)據(jù)集.訓(xùn)練的神經(jīng)圖像標(biāo)題生成器可能生成的標(biāo)題 。
生成結(jié)果:在田野里騎馬的人
在這篇文章中,我們將通過(guò)一個(gè)中級(jí)水平的教程,介紹如何使用谷歌的Show和Tell 模型在數(shù)據(jù)集上訓(xùn)練圖像標(biāo)題生成器 。我們使用框架來(lái)構(gòu)建、培訓(xùn)和測(cè)試我們的模型,因?yàn)樗鄬?duì)容易使用,并且擁有一個(gè)不斷增長(zhǎng)的在線社區(qū) 。
為什么生成標(biāo)題?
最近在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理任務(wù)中應(yīng)用深度神經(jīng)網(wǎng)絡(luò)的成功,啟發(fā)了人工智能研究人員在這些以前分離領(lǐng)域的交集中探索新的研究機(jī)會(huì) 。標(biāo)題生成模型必須平衡對(duì)視覺(jué)線索和自然語(yǔ)言的理解 。這兩個(gè)傳統(tǒng)上不相關(guān)領(lǐng)域的交叉點(diǎn)有可能在很大程度上實(shí)現(xiàn)變革 。雖然這項(xiàng)技術(shù)有一些簡(jiǎn)單的應(yīng)用 , 比如為視頻生成摘要 , 或?yàn)槲礃?biāo)注的圖像加標(biāo)題 , 但更有創(chuàng)意的應(yīng)用程序可以極大地提高大部分人的生活質(zhì)量 。與傳統(tǒng)的計(jì)算機(jī)視覺(jué)試圖使世界更容易訪問(wèn)和理解計(jì)算機(jī)一樣,這項(xiàng)技術(shù)有潛力使我們的世界更容易理解 。它可以作為一名導(dǎo)游,甚至可以作為日常生活的視覺(jué)輔助工具 , 比如來(lái)自意大利人工智能公司Eyra.的Horus 可穿戴設(shè)備
圖像描述生成(Image )是一個(gè)融合計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的綜合問(wèn)題,它類(lèi)似于翻譯一副圖片為一段描述文字 。該任務(wù)對(duì)于人類(lèi)來(lái)說(shuō)非常容易人工智能圖片素材,但是對(duì)于機(jī)器卻非常具有挑戰(zhàn)性,它不僅需要利用模型去理解圖片的內(nèi)容并且還需要用自然語(yǔ)言去表達(dá)它們之間的關(guān)系 。除此之外,模型還需要能夠抓住圖像的語(yǔ)義信息 , 并且生成人類(lèi)可讀的句子 。
基于強(qiáng)化學(xué)習(xí)的模型
基于強(qiáng)化的模型主要是對(duì)文本生成過(guò)程進(jìn)行優(yōu)化[7] 。將文本生成看成一個(gè)決策過(guò)程 , 每個(gè)時(shí)刻生成單詞都是一個(gè),而對(duì)于生成序列的質(zhì)量評(píng)估可以看成value 。生成文本序列的評(píng)估指標(biāo)作為,例如CIDEr 。使用強(qiáng)化學(xué)習(xí)的好處在于可以直接利用不可微分的評(píng)價(jià)指標(biāo)作為優(yōu)化目標(biāo) 。另外,在訓(xùn)練過(guò)程中,生成序列的時(shí)候 , 通常采用的是上一時(shí)刻單詞的-truth,而測(cè)試過(guò)程中又只能使用模型自己生成的上一時(shí)刻單詞,即使用-的策略 。這會(huì)造成 bias的問(wèn)題 。
假設(shè)從策略中采樣的單詞序列是Ws,利用策略梯度算法進(jìn)行優(yōu)化:
這里的b是一個(gè) , 它不影響梯度的計(jì)算,但是可以減少 。r是,p0是策略中產(chǎn)生該單詞序列的概率 。
文章提出了一個(gè)SCST(self-)算法人工智能圖片素材,
這里的采用的是測(cè)試過(guò)程使用的算法產(chǎn)生序列的,例如使用。
另一篇文章[8],則采用的是- 作為,通過(guò)訓(xùn)練一個(gè)模型,將文本、圖像映射到同一個(gè)空間 。然后將圖像與文本的相似度作為 。
這里fe、ht分別是圖片與文本的函數(shù) 。
訓(xùn)練使用的是actor-算法:
v0是價(jià)值網(wǎng)絡(luò),作為的動(dòng)態(tài) 。
當(dāng)采用beam 進(jìn)行解碼的時(shí)候,通過(guò)結(jié)合策略pπ、與value估計(jì)v0來(lái)計(jì)算一個(gè)單詞的得分 。
【看圖說(shuō)話 人工智能生成圖片標(biāo)題描述】本文到此結(jié)束,希望對(duì)大家有所幫助 。