谷歌未来安卓系统 谷歌准备取代安卓的系统
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
图片来源 @视觉中国
文 | 雷科技 Ieitech
5 月 10 日,谷歌年度开发者大会正式召开,作为 AI 热潮后的第一次开发者大会,一直以来被诟病没有赶上 AI 大模型热潮的谷歌,此次则是拿出了众多 AI 新品,用来证明自己并没有落后,甚至在应用层面的落地速度会更快。
图源:谷歌
除了惯例的 Android 14 公测版发布外,谷歌还推出了多个搭载 AI 大模型的功能与应用,旨在通过谷歌的应用生态优势让用户可以快速接触、使用并了解谷歌的 AI 技术与能力,即使现在还不成熟的产品,有不少都在此次大会上亮相并发布。
此次谷歌发布的新品较以往的数量有了不少提升,不过还是老样子,我决定挑一些值得讨论的产品来重点与大家聊聊。
AI 帮你一键 P 图?
作为谷歌 2023 开发者大会的开场重点,这款名为 【【淘密令】】 的应用内置了 AI 功能,可以根据用户需要对照片进行一键美化和修改,在发布会现场,谷歌就分享了数个 【【淘密令】】 的实际应用范例,比如你在风景点拍照,背景中总是少不了各式路过或驻足的路人,而 【【淘密令】】 则可以一键将这些路人从背景在移除出去。
除此之外,【【淘密令】】 还可以帮你调整人物位置,增加照片的整体构图效果,调整天空的颜色与状态,比如将阴天变成蓝天,在修改天空状态的同时还会帮你调亮照片的整体亮度,【【淘密令】】 甚至还顺手把人物身上的挎包肩带给 P 掉了。
而在另一个范例中,【【淘密令】】 展示了一张小孩坐在长凳上的照片,在使用一键美化功能后,AI 自动将长凳和小孩截取出来并将小孩移动到了照片的中间位置。新的画面则由 AI 根据图片原信息进行生成和填充,但就演示的小图来看 AI 生成的新画面真实度还可以,就是不知道原图放大后的瑕疵会不会很明显。
从整体效果来看,虽然 【【淘密令】】 的一键美化效果不如专业人士的手动调整,但是考虑到这是普通用户都可以一键获得的效果,那么也足以让人感到惊艳。当然,一些肉眼可见的 BUG 也是有的,比如在老人瀑布的照里,肩带虽然被 P 掉了,但是原先位置上的衣服折痕并没有处理好,反而显得有些突兀。
另外,在第二张图片里,长凳位移后对应的地板阴影并没有被延长,导致地板上出现了一块明显的问题区域。
实际上,类似的 AI 抠图功能在 iPhone 上就已经展示过,在去年的 iOS 更新后已经可以直接使用,但是相较于谷歌的 【【淘密令】】,iPhone 的 AI 抠图还停留在初级阶段,并不会根据内容为用户进行下一步的优化。
据悉,【【淘密令】】 将会在今年晚些时候登录 Google Photo,感兴趣的朋友到时候可以去试用一下,不过尚不清楚是否需要订阅高级功能才能使用。
AI 办公大战迎来新玩家
此前,微软基于 OpenAI 的 ChatGPT 打造出了新一代的 AI 办公服务 Microsoft Copilot,在微软的演示中 Microsoft Copilot 可以为用户提供许多帮助,如一键生成工作邮件、一键撰写提纲、一键生成文章、报告摘要、制作 PPT 等,堪称生产力的革命。
在 Microsoft Copilot 公布后,不少办公软件厂商都在跟进这项功能,谷歌就是其中之一。在谷歌的展示中,他们将会在旗下的 Workspace 办公套件中引入名为 "Sidekick" 的一系列 AI 功能,同时将套件更名为 Duet AI,以此重塑用户的品牌认知。
据谷歌的介绍,Sidekick 能够实现多个 AI 办公能力,现在公布的功能就有:
l Write in Gmail:基于谷歌的 Gmail 服务,用户可以通过这个 AI 功能直接生成各式邮件,支持移动和桌面端并且免费(后续是否收费暂不清楚)。
Gmail 情境回复:与用户进行问答对话,帮助用户搜索相关资料。
基于文本直接生成图像,后续结合文字生成功能可以直接生成简单的 PPT。
自动整理复杂的项目流程,让用户可以快速了解项目内容。
表格数据智能分类,可以帮助用户快速标注对应的表格数据。
Google Meet 将允许使用 AI 生成自定义的背景。
在 Docs 中用 AI 生成文章概述、提纲以及具体内容。
在 Docs 中的校对功能中引入 AI 模块,使其拥有更强大的校对能力,同时可以提出优化建议。
从公布的功能来看,基本上是在完全对标微软的 Microsoft Copilot,谷歌依葫芦画瓢打造出了自己的 AI 办公模块,从演示的效果来看,倒也与 Microsoft Copilot 差距不大,其中一些功能最快会在本月及下月上线 Workspace Labs,有兴趣的朋友可以去体验一下,就是需要通过 Workspace Labs 的审批。
Android 14 将引入生成式 AI 功能
有意思的是,Android 14 在本次发布会上并没有占用太多的时间,会议的多数流程都给了上面提到的那些 AI 功能,而 Android 14 的重点更新也是两个基于生成式 AI 的功能。
谷歌将这两个功能命名为 Magic Compose 和生成式壁纸,前者将搭载到 Android 14 的默认短信应用 Messages 中,Magic Compose 可以根据收到的短信内容,自动生成回复文本。比如,收到信息:" 我有点饿了 ",如果你腾不出手输入回复内容,可以让 Magic Compose 帮你自动回复 " 饿了?让我们去吃晚饭吧 " 等内容。
目前来看,如果可以结合语音助手,或许可以做到根据用户的语音回复进一步定制 Magic Compose 的回复内容,让短信回复可以完全脱离双手。以此延伸,后续将其加入 AI 语音助手等模块中,或许能够实现更自然、精准的智能硬件操控和服务。
生成式壁纸功能目前则由 Pixel 设备独占,用户可以通过输入文本信息的方式,让这个功能自动生成一张符合描述的壁纸,该壁纸由生成式 AI 根据文字描述自动生成。单从功能描述来看,其实是有点微妙的,手机壁纸虽然是我们一天中看到过最多的图片,但是用 AI 生成一张陌生人的图片来做壁纸,多少有点奇怪。
不过,如果你有一些奇奇怪怪的壁纸需求,而且不想去壁纸软件、网站上翻找,或许可以试试用这个功能来生成符合要求的图片。说实话,个人看来这个功能目前的应用场景有些局限,其生成的照片效果来看并不算差,但是却被局限在了壁纸应用中,或许也是因为生成图片需要耗费过多的算力,谷歌暂时不想让这个功能被过多地使用吧。
此外,谷歌表示生成式壁纸功能还支持 " 电影壁纸 " 模式,该模式会将你选择的照片通过 AI 来转换为 3D 图像,当用户解锁或倾斜设备的时候,这张照片会呈现出立体效果。类似的功能以往需要通过专业软件来修改实现,而谷歌则通过 AI 让用户可以一键实现类似的效果。
目前的谷歌对于在 Android 14 中内置 AI 功能选择看起来十分保守,除了生成式 AI 普及所带来的一些担忧外,生成式 AI 对算力的消耗应该也是谷歌担心的问题之一。仅到 2021 年为止,全球的活跃安卓设备就超过 30 亿,而在 2022 年,升级到 Android 13 的设备数量占比就超过 12%。
即使只计算初期升级 Android 14 的设备数量,在网终端数都会轻松过千万,即使其中只有十分之一的人深度使用生成式 AI 功能,都会给服务器带来不少压力。考虑到 Android 系统的普及性,在更高性能、更大规模的服务器集群投入运行前,谷歌应该都不会在 Android 系统中添加高级的生成式 AI 功能。
更多精彩内容,关注钛媒体微信号(ID:【【微信】】),或者下载钛媒体 App
cvpr2022论文汇总 cvpr 2021论文大盘点
cvpr2021论文,cvpr2020论文,cvpr最新论文,cvpr2018最佳论文刚刚过去的几个月,无疑是生成式AI爆发的奇点。
说到生成式AI,就不得不提到AIGC。AIGC全称为AI-Generated Content,指基于预训练大模型、生成式对抗网络(GAN)等人工智能技术,通过已有数据寻找规律,并通过释放泛化能力生成相关技术的内容。
AIGC 在图像生成中的示例
虽然在文生图领域,扩散模型似乎已经一统天下,但GAN 依然存在不可磨灭的优势。这使得一些研究者在这一方向上持续努力,并取得了非常实用的成果,相关的论文已被 C【【微信】】 接收。
这次我整理了46篇【C【【微信】】应用汇总】图像转换、翻译/可控文生图/图像恢复/语义布局可控生成/医学图像/face相关的基于diffusion扩散模型/GAN生成对抗方法论文合集+部分代码,我特地选了6篇具有代表性的文章为大家叙述,希望对在该领域想发论文的同学带来一些新思路!
并且今天免费为大家送一波福利!扫描二维码,回复【GAN】领取46篇C【【微信】】应用论文和部分代码合集全是pdf格式,非常方便,想要的同学千万不要错过!
01
GAN的反击!朱俊彦新作GigaGAN,出图速度秒杀Stable Diffusion
题目:
最近,文字-图像生成技术的成功已经席卷全球,激发了大众的想象力。从技术的角度来看,它也标志着设计生成图像模型所青睐的架构的巨大变化。GANs曾经是事实上的选择,有StyleGAN这样的优秀技术。随着DALL・e2的出现,自回归和扩散模型似乎一夜之间成为大规模生成模型的新标准。
CycleGAN 的主要作者、曾获 2018 年 ACM SIGGRAPH 最佳博士论文奖的朱俊彦是这篇 CVPR 论文的第二作者。
该研究首先使用 StyleGAN2 进行实验,并观察到简单地扩展主干网络会导致训练不稳定。基于此,研究者确定了几个关键问题,并提出了一种在增加模型容量的同时稳定训练的技术。
02
基于示例的图像转换的屏蔽和自适应变压器
题目:
该论文提出了一个基于样本的图像转换新方法。用于此任务的先进方法主要集中在建立跨域语义对应上,但跨域语义匹配具有挑战性,匹配错误最终会降低生成图像的质量。
为了克服这一挑战,该论文提出了一种掩码和自适应变换器 (MAT),用于学习准确的跨域对应关系,并执行上下文感知特征增强。为了实现后者,使用样本的输入源特征和全局样式代码作为补充信息来解码图像。
此外,设计了一种新的对比风格学习方法,用于获取质量区分风格表示,这反过来有利于高质量图像的生成。实验结果表明在各种图像转换任务中表现更好。
03
具有列行纠缠像素合成的高效尺度不变生成器
题目:
该论文说明任意尺寸图像生成(Any-scale image synthesis)提供了一种高效和可扩展的解决方案,可以在任何比例下合成逼真的图像,甚至超过2K分辨率。
这项工作提出了列行耦合的像素生成(Column-Row Entangled Pixel Synthesis,CREPS),一种既高效又具有尺度等变性的新型生成模型,而不使用任何空间卷积或粗到细的设计。在各种数据集上的实验,包括FFHQ、【【微信】】、MetFaces和Flickr-Scenery,证实了CREPS具有在任意任意分辨率下合成尺度一致图像的能力。
04
图像恢复,基于GAN生成对抗/diffusion扩散模型方法
题目:
该论文研究JPEG图像恢复问题,即加密比特流中的比特错误。比特错误会导致解码后的图像内容出现不可预测的色偏和块位移,这些问题无法通过现有的主要依赖于像素域中预定义退化模型的图像恢复方法来解决。该论文提出了一个强健的JPEG解码器,并采用两阶段补偿和对齐框架来恢复受比特流损坏的JPEG图像。
具体而言,JPEG解码器采用了一种具有容错机制的方法来解码受损的JPEG比特流。两阶段框架由自补偿和对齐(SCA)阶段和引导补偿和对齐(GCA)阶段组成。在三个不同比特错误率的基准测试上进行了实验。实验结果和消融研究表明了我们所提出的方法的优越性。
05
PosterLayout:内容感知视觉文本演示布局的新基准和方法
题目:
该论文提出了设计序列形成(DSF)方法,以模拟人类设计师的设计过程重新组织布局中的元素,并提出了一种基于CNN-LSTM的条件生成对抗网络(GAN)来生成适当的布局。具体来说,鉴别器是设计序列感知的,将监督生成器的“设计”过程。
实验结果验证了新基准的有用性和所提出方法的有效性,该方法通过为不同的画布生成适当的布局实现了最佳性能。
06
使用人脑活动的潜在扩散模型进行高分辨率图像重建
题目:
本文提出一种基于扩散模型(DM)的新方法,通过功能性磁共振成像(functional magnetic resonance imaging,fMRI)从人脑活动来重构出图像。通过研究LDM的不同组成部分(例如图像的潜在向量Z、条件输入C以及去噪U-Net的不同元素)与不同的脑功能之间的关系,表征了LDM的内部机制。
方法可以在简单的方式下重构具有高保真度的高分辨率图像,而不需要任何额外的训练和精调复杂的深度学习模型。还提供了从神经科学角度对不同LDM组件的定量解释。总体而言,研究提出了一种重构人类脑活动中图像的有前途的方法,并为理解DM提供了新的框架。
07
通过区域GAN反演进行细粒度面部交换
题目:
提出一种新的高保真换脸范式,能够保留期望的微妙几何和纹理细节。从微观面部编辑的角度重新思考换脸任务,基于“编辑用于互换(editing for swapping)”(E4S)的原则,提出了一种基于面部组件形状和纹理的显式解耦方法。
遵循E4S原则,实现面部特征的全局和局部互换,以及由用户指定的部分互换。核心是一种新的区域GAN逆映射(RGI)方法,它允许显式解耦形状和纹理,同时允许在StyleGAN的潜在空间中进行面部互换。与现有技术的大量实验和比较表明,方法在保留纹理和形状细节方面以及处理高分辨率图像方面具有优越性。
并且今天免费为大家送一波福利!扫描二维码,回复【GAN】领取46篇C【【微信】】 【AIGC应用论文+部分代码合集】全是pdf格式,非常方便,想要的同学千万不要错过!
这次我还邀请了高级视觉算法研究员的吉米老师,用一小时的时间给大家分享《sota、【【淘密令】】和GAN结合论文中稿的支撑点》,以《Generati【【微信】】》-NIPS2014论文为例,手把手教大家如何带入【【淘密令】】学习和运用aigc技术发论文。
扫码预约直播+领46篇论文合集