Google发布Gemini 2.0 Flash Experimental:多模态能力大幅提升

AI技术Gemini多模态图像处理视频分析
Share on:

Gemini 2.0 Flash Experimental发布

google昨天更新了Gemini 2.0 Flash Experimental,他多模态大幅提升,一句话总结:它能够用语言对一张图持续编辑调整,而且风格能够保持一致,图像不会产品畸变。Google AI Studio的产品经理宣布了他们还可以直接对视频链接进行对话分析

Gemini新功能展示

下面我测试了一些case,从效果上看确实很惊艳了,能够持续对一张图片做更改,而且还可以直接输入视频链接,识别链接中的视频讲什么内容。

给美女带上项链

上传一张美女照片,然给给指令,第一次生成的项链不是珍珠项链,接着给新的指令,项链改成白色珍珠,效果非常棒!

项链编辑效果展示

那么是不是,可以把两张照片组合起来,例如产品实物图,佩戴再模特身上,这效果绝了!!

图片组合效果

可以准确识别两张图片,并且按照输入的要求组合起来,我只是提了一个要求:将第一张图中的项链佩戴到第二张图中的女孩脖子上。这直接抢p图的饭碗啊!

油管视频链接问答

在油管上找了一个google AdSense 网站审批视频的教材链接,直接喂给Gemini,他花了一分钟总结了这个视频在讲什么。

视频分析示例

为了测试是不是真的理解视频,而不是只提取了音轨。我又继续问:视频中出现了几个人,他们穿的什么衣服? 回答结果非常准确!可以看出他确实理解了视频中的内容。

视频内容理解测试

如何使用

进入google aistudio,但需要有一个美国的ip,而且不是家宽,否则无法打开。地址如下:

https://aistudio.google.com/

选择Gemini 2.0 Flash Experimental,并且将输出格式选择为Images and text

使用教程

最近有不少朋友留言说没有梯子,我这里给大家推荐自己再用的节点,如有朋友需要,可点击如下链接购买:

https://w1.v2free.cc/auth/register?code=QMuz

如果还不会使用梯子的话,请加我添加我的微信,手把手指导你使用。

微信二维码

关于我

前大厂高级牛马,牛马时代曾带领团队开发多款应用。现独立开发者,合伙创业中,担任现团队软件开发,用AI来赋能传统行业,接受有偿技术咨询,实实在在助力企业完成降本增效。

个人介绍

Comments