看圖說(shuō)話人工智能生成圖片標(biāo)題描述 _圖像

圖像標(biāo)題生成器模型結(jié)合了計(jì)算機(jī)視覺(jué)和機(jī)器翻譯的最新進(jìn)展，利用神經(jīng)網(wǎng)絡(luò)生成現(xiàn)實(shí)的圖像標(biāo)題。神經(jīng)圖像標(biāo)題模型被訓(xùn)練，以最大限度地產(chǎn)生給定輸入圖像的字幕的可能性。并且可以用來(lái)生成新的圖像描述。例如，下面是使用 MS COCO數(shù)據(jù)集.訓(xùn)練的神經(jīng)圖像標(biāo)題生成器可能生成的標(biāo)題。
生成結(jié)果：在田野里騎馬的人
在這篇文章中，我們將通過(guò)一個(gè)中級(jí)水平的教程，介紹如何使用谷歌的Show和Tell 模型在數(shù)據(jù)集上訓(xùn)練圖像標(biāo)題生成器。我們使用框架來(lái)構(gòu)建、培訓(xùn)和測(cè)試我們的模型，因?yàn)樗鄬?duì)容易使用，并且擁有一個(gè)不斷增長(zhǎng)的在線社區(qū) 。
為什么生成標(biāo)題?
最近在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理任務(wù)中應(yīng)用深度神經(jīng)網(wǎng)絡(luò)的成功，啟發(fā)了人工智能研究人員在這些以前分離領(lǐng)域的交集中探索新的研究機(jī)會(huì) 。標(biāo)題生成模型必須平衡對(duì)視覺(jué)線索和自然語(yǔ)言的理解。這兩個(gè)傳統(tǒng)上不相關(guān)領(lǐng)域的交叉點(diǎn)有可能在很大程度上實(shí)現(xiàn)變革。雖然這項(xiàng)技術(shù)有一些簡(jiǎn)單的應(yīng)用，比如為視頻生成摘要，或?yàn)槲礃?biāo)注的圖像加標(biāo)題，但更有創(chuàng)意的應(yīng)用程序可以極大地提高大部分人的生活質(zhì)量。與傳統(tǒng)的計(jì)算機(jī)視覺(jué)試圖使世界更容易訪問(wèn)和理解計(jì)算機(jī)一樣，這項(xiàng)技術(shù)有潛力使我們的世界更容易理解。它可以作為一名導(dǎo)游，甚至可以作為日常生活的視覺(jué)輔助工具，比如來(lái)自意大利人工智能公司Eyra.的Horus 可穿戴設(shè)備
圖像描述生成（Image ）是一個(gè)融合計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的綜合問(wèn)題，它類(lèi)似于翻譯一副圖片為一段描述文字。該任務(wù)對(duì)于人類(lèi)來(lái)說(shuō)非常容易人工智能圖片素材，但是對(duì)于機(jī)器卻非常具有挑戰(zhàn)性，它不僅需要利用模型去理解圖片的內(nèi)容并且還需要用自然語(yǔ)言去表達(dá)它們之間的關(guān)系。除此之外，模型還需要能夠抓住圖像的語(yǔ)義信息，并且生成人類(lèi)可讀的句子。
基于強(qiáng)化學(xué)習(xí)的模型
基于強(qiáng)化的模型主要是對(duì)文本生成過(guò)程進(jìn)行優(yōu)化[7] 。將文本生成看成一個(gè)決策過(guò)程，每個(gè)時(shí)刻生成單詞都是一個(gè)，而對(duì)于生成序列的質(zhì)量評(píng)估可以看成value 。生成文本序列的評(píng)估指標(biāo)作為，例如CIDEr 。使用強(qiáng)化學(xué)習(xí)的好處在于可以直接利用不可微分的評(píng)價(jià)指標(biāo)作為優(yōu)化目標(biāo) 。另外，在訓(xùn)練過(guò)程中，生成序列的時(shí)候，通常采用的是上一時(shí)刻單詞的-truth，而測(cè)試過(guò)程中又只能使用模型自己生成的上一時(shí)刻單詞，即使用-的策略。這會(huì)造成 bias的問(wèn)題。
假設(shè)從策略中采樣的單詞序列是Ws，利用策略梯度算法進(jìn)行優(yōu)化：
這里的b是一個(gè) ，它不影響梯度的計(jì)算，但是可以減少。r是，p0是策略中產(chǎn)生該單詞序列的概率。
文章提出了一個(gè)SCST（self-）算法人工智能圖片素材，
這里的采用的是測(cè)試過(guò)程使用的算法產(chǎn)生序列的，例如使用。
另一篇文章[8]，則采用的是- 作為，通過(guò)訓(xùn)練一個(gè)模型，將文本、圖像映射到同一個(gè)空間。然后將圖像與文本的相似度作為。
這里fe、ht分別是圖片與文本的函數(shù) 。
訓(xùn)練使用的是actor-算法：
v0是價(jià)值網(wǎng)絡(luò)，作為的動(dòng)態(tài) 。
當(dāng)采用beam 進(jìn)行解碼的時(shí)候，通過(guò)結(jié)合策略pπ、與value估計(jì)v0來(lái)計(jì)算一個(gè)單詞的得分。
【看圖說(shuō)話人工智能生成圖片標(biāo)題描述】本文到此結(jié)束，希望對(duì)大家有所幫助。

看圖說(shuō)話 人工智能生成圖片標(biāo)題描述

看圖說(shuō)話人工智能生成圖片標(biāo)題描述