ChatGPT的制造商正在拓宽他们的人工智能软件的视野,他们推出了一项新功能,允许用户根据文本提示创建长达一分钟的视频片段。
OpenAI首席执行官萨姆·奥特曼周四在社交媒体平台X上宣布,这款名为Sora的人工智能模型将首先向有限数量的创意专业人士开放。
OpenAI在其网站上发布了几个完全由人工智能生成的演示视频,并附上了视频的描述。
其中一幅画的是一个女人在夜晚走在灯火通明的城市街道上。广告提示要求拍摄一名穿着皮夹克和红色连衣裙的女子的镜头,并要求这条街道要让人想起东京,要有很多霓虹灯,这些霓虹灯也映照在水坑里。
其他视频显示猛犸象在雪中行走,以及淘金热时期加利福尼亚的历史镜头。
这些视频有时令人印象深刻,尤其是灯光和纹理。但它们显然也是人造的,OpenAI承认Sora仍然有弱点。
一个反复出现的缺陷是,移动的物体往往会违反物理定律,人类和动物的行走方式仍然显得不自然。
规模和连续性也是痛点,在一个视频中,有人咬了一块饼干,饼干后来看起来还是完整的,而在另一个视频中,一些人看起来是巨人,而附近的其他人则小得多。
然而,这些示例视频证明,随着时间的推移,使用人工智能从文本提示生成移动图像可能会改变视频制作。
某些短视频,如生日场景和普通的生活方式镜头,似乎即将准备好用于广告或促销材料。有些镜头需要看一眼才能看出它们是人造的。
与此同时,人们主要担心它可能被用来大规模制作与真实镜头几乎无法区分的假视频。其他几家公司已经开发出可以从文本生成视频的软件。
该技术的开发人员希望Sora视频能够被清楚地识别为是由人工智能创建的,并且正在研究将水印等独特的可识别特征融入视频的方法
在该软件被广泛使用之前,一组专家正着手找出可能存在的安全风险。
在OpenAI宣布这一消息的同时,谷歌也宣布对其人工智能软件进行更新,使用户能够对大量视频或音频材料进行快速分析。
最新版本的双子座人工智能(Gemini AI)是谷歌(Google)对ChatGPT的回应,它在一份400页的阿波罗11号(Apollo 11)登月任务对话记录中搜索“喜剧时刻”,进行了测试。
在半分钟内,双子座1.5版提供了三个幽默的例子,甚至可以给出为什么某个短语有趣的背景。
为了证明其理解事物的能力,该软件对上传的一张靴子图片做出了回应,并将其与尼尔·阿姆斯特朗(Neil Armstrong)踏上月球第一步的时刻联系起来。
除了处理文本、代码和音频之外,该开发还可以在没有人观看的情况下从大量镜头中寻找某些视觉元素。
谷歌人工智能主管杰米斯·哈萨比斯周四写道:“当给巴斯特·基顿一部44分钟的无声电影时,这个模型可以准确地分析各种情节点和事件,甚至可以推理出电影中很容易被遗漏的小细节。”
这家互联网巨头正在与ChatGPT的发明者OpenAI竞争,OpenAI在一年前引发了围绕人工智能的全球炒作。
今年2月初,谷歌将其人工智能应用和服务更名为Gemini。Gemini 1.5模型将首先提供给开发人员和企业客户,然后再向所有用户推出。——德通社
×