發(fā)布時(shí)間:2024-12-24 00:05:08 來(lái)源:本站 作者:admin
谷歌最新的人工智能工具“Whisk”允許人們上傳照片,以返回由 AI 生成的合成圖像 - 甚至無(wú)需用戶輸入任何文本來(lái)解
釋他們想要什么。
用戶可以輸入描繪主題、設(shè)置和風(fēng)格的圖像,然后 Whisk 會(huì)將所有內(nèi)容組合成一張圖像。
谷歌在一篇博客文章中表示,Whisk 是一種用于快速激發(fā)靈感的“創(chuàng)意工具”,而不是“傳統(tǒng)的圖像編輯器”。從本質(zhì)
上講,Whisk 旨在成為一種有趣的 AI 功能,而不是一種精致的專業(yè)工作。
盡管反對(duì)者警告說(shuō),人工智能發(fā)展缺乏護(hù)欄會(huì)給人類帶來(lái)危險(xiǎn),但谷歌和 OpenAI 等大型科技公司正在競(jìng)相推出可以展
示時(shí)髦新技術(shù)用途的消費(fèi)產(chǎn)品。
自 OpenAI 于 2021 年首次推出其文本轉(zhuǎn)圖像創(chuàng)作工具 Dall-E 以來(lái),人工智能生成藝術(shù)作品的概念已席卷社交媒體,并
成為消費(fèi)產(chǎn)品的焦點(diǎn)。谷歌的 Whisk 是一款圖像轉(zhuǎn)圖像生成器,它建立在流行的文本轉(zhuǎn)圖像生成器概念之上。
使用 Whisk 的人可以通過(guò)編輯輸入和混合類別來(lái)“重新混合”最終圖像,以制作不同的圖像,如毛絨玩具、琺瑯別針或
貼紙。如果用戶想要指導(dǎo)某些細(xì)節(jié),他們可以添加文本,但這不是創(chuàng)建圖像的必要條件。
“Whisk 旨在讓用戶以新穎而富有創(chuàng)意的方式重新混合主題、場(chǎng)景和風(fēng)格,提供快速的視覺(jué)探索,而不是像素完美的編
輯,”谷歌實(shí)驗(yàn)室產(chǎn)品管理總監(jiān) Thomas Iljic 在一份聲明中表示。
谷歌的 Whisk 是基于 DeepMind 開(kāi)發(fā)的生成式人工智能而構(gòu)建的,DeepMind 是谷歌于 2014 年收購(gòu)的人工智能實(shí)驗(yàn)
室。
Whisk 的工作原理是使用谷歌的核心人工智能產(chǎn)品 Gemini(于 2023 年 12 月首次亮相),并將其與 DeepMind 于
12 月發(fā)布的最新文本轉(zhuǎn)圖像生成器 Imagen 3 配對(duì)。
當(dāng)用戶上傳他們的圖像時(shí),Gemini 會(huì)生成一個(gè)標(biāo)題,并將其輸入到 Imagen 3 中。該過(guò)程捕捉了主題的“本質(zhì)”,而不
是精確的復(fù)制品,這允許重新混合最終圖像,但也意味著最終產(chǎn)品可能會(huì)偏離提示。
例如,谷歌在一篇博文中表示,生成的圖像可能與提示圖像具有不同的身高、發(fā)型或膚色。
當(dāng)谷歌于 2 月首次推出 Gemini 的文本轉(zhuǎn)圖像創(chuàng)建器時(shí),該公司最初面臨強(qiáng)烈反對(duì),因?yàn)樵摴ぞ呱傻膱D像在歷史上是
不準(zhǔn)確的。
該公司表示,Whisk 最初以 Google Labs 網(wǎng)站的形式向美國(guó)用戶開(kāi)放,目前處于早期開(kāi)發(fā)階段。
OpenAI 最近還發(fā)布了一款名為 Sora 的文本轉(zhuǎn)視頻生成器,凸顯了消費(fèi)產(chǎn)品的競(jìng)爭(zhēng)。
Wedbush Securities 董事總經(jīng)理兼高級(jí)股票分析師 Dan Ives 告訴 CNN,Whisk 是谷歌在人工智能和科技競(jìng)賽中又一
次“展示實(shí)力的時(shí)刻”。
“DeepMind 是谷歌的重要資產(chǎn),”Ives 表示,并指出人工智能產(chǎn)品是谷歌 2025 年新產(chǎn)品“寶庫(kù)”的一部分,其中還
包括與三星和高通合作開(kāi)發(fā)的新 Android 操作系統(tǒng)。
公司信息
商標(biāo)業(yè)務(wù)
專利業(yè)務(wù)
新聞中心