苹果再放 AI 大招!新模型能够「读懂」你的电子设备屏幕 Hunt Good 周报
本周,康奈尔大学发布了一篇名为「Ferret-UI:基于多模态大语言模型的移动 UI 理解」的论文。
Ferret-UI 被描述为一种新的 MLLM,专为理解移动 UI 屏幕而定制,具有「指向、定位和推理功能」。它最大的特点是有一个放大系统,可以将图像放大到「任何分辨率」,使图标和文本更易于阅读。
为了做处理和训练,Ferret 还将屏幕分成两个较小的部分,将屏幕切成两半。相较于其他大语言模型,传统的更倾向于扫描较低分辨率的全局图像,这降低了充分确定图标外观的能力。
虽然不知道最终是否会被整合到 Siri 中,但 Ferret-UI 提供了对 iPhone 进行高级控制的可能性。通过了解用户界面元素,Siri 能够最终靠在应用程序中自行选择图形元素,为用户在应用程序中执行操作。
本周,福布斯红杉资本和Meritech Capital 一同遴选出 AI 领域最有前途的五十家 AI 初创公司。
只需点击几下鼠标,任何人都可通过Pika的生成式人工智能软件制作出潜水员探索水下海洋生物,又或是老虎在郁郁葱葱的印度森林中徘徊的视频。
这家新兴勇于探索商业模式的公司拥有一支 13 人的团队,大部分成员为女性,目前估值为 2.5 亿美元。
本周,据彭博社报道,Adobe 正在使用 Midjourney 的图片,训练其文生图模型 Firefly。
消息的人偷偷表示,关于使用 Midjourney 的 AI 生成图片来训练 Firefly 模型在 Adobe 内部一直有着很大的分歧。
即使在 Firefly 开发的早期阶段,一些员工也不同意 Adobe 将 AI 生成的图像纳入到Firefly 训练数据中。
据彭博社报道,在用于训练 Firefly 的 Adobe Stock 数据库中,有 5700 万条数据被标记为 AI 生成的,这约占数据库中图像总数的 14%。
而此前 Adobe 发言人指出,用于训练 Firefly 的图像中只有 5% 来自其他平台创建的 AI 图像。
提交至 Adobe Stock 的每张图像,包括其中极少数由 AI 生成的图像,都需经过严苛的审核流程。这一流程旨在确保图像中不含有任何知识产权、商标、可辨认的角色或标志,以及不涉及艺术家姓名的提及。
本周,计算机协会 ACM 宣布,将「计算机界最高荣誉」图灵奖授予复杂性理论先驱、普林斯顿高等研究院教授艾维·维格森。
美国计算机协会(ACM)强调了艾维·维格森对计算理论的基础性贡献,包括重塑人类对计算中随机性作用的理解,以及数十年来在理论计算机科学领域的领导地位。
值得关注的是,维格森教授在 2021 年也曾获得被誉为数学界的诺贝尔奖——阿贝尔奖。此外,他还是 2017 年阿里达摩院刚成立时首批「十大祖师」之一。
近日,老乡鸡宣布将其最核心的内容对消费的人、监管部门以及同行全面公开,包括菜品配料、食材供应商明细、操作工艺等菜品制作涉及到的所有环节。
677 页共 20 万字,包含 202 个供应商明细,484 个三卡追溯档案(餐厅菜品追溯卡 188 个,央厨食材追溯卡 136 个,外采原料追溯卡 160 个)的《老乡鸡菜品溯源报告》向社会全面原文公开。
老乡鸡称顾客可以对照报告在家做出老乡鸡同样的菜,而共享给同行的 202 家食材供应商信息能解决所有食材来源问题。
自从在 MWC 2024(世界移动通信大会)亮相后,标榜要做「AI 时代的 iPhone」的 Ai Pin 终于发货,第一时间上手的外媒也抱着极大的热情和好奇,全方位体验了这款「奇葩」产品。
但如果你想知道 Ai Pin 是否值得购买,所有人也都会异口同声地叫醒你:NO
我真正可以依靠 Ai Pin 做的唯一一件事就是告诉我时间。——The Verge
周二在伦敦举行的一次活动中,Meta 证实,它计划在下个月发布 Llama 3 的初始版本——这是其用于为生成式 AI 助手提供动力的下一代大型语言模型。
Meta 全球事务总裁尼克·克莱格(Nick Clegg)表示:「我们大家都希望在接下来的一个月内,甚至更短的时间内,很快就会开始推出我们的新一代基础模型系列——Llama 3。」
他还描述了一系列不同能力和适应性的产品版本即将发布。「今年,我们将陆续推出多个具有不一样功能和多样性的模型,启动时间很临近。」
该公司没有透露 Llama 3 中使用的参数大小,但预计它将拥有约 1400 亿个参数,并与 OpenAI 的 GPT-4 相媲美。
Meta 此前发布了三种尺寸的 Llama 2,最大的参数为 70B。值得一提的是,Meta 在过去一年中囤积了 35 个 H100 GPU,以加强 AI 基础设施。
继上个月推出 Grok-1.5 大模型之后,马斯克近日再次推出首个多模态模型 Grok-1.5 Vision。
据 xAI 透露,他们计划很快邀请参与早期测试的用户以及现有的Grok-1.5的使用者体验 Grok-1.5 Vision。
Grok-1.5 Vision 不仅仅可以理解文本信息,还能够高效处理各类文档、图表、截图以及照片中的信息。
xAI 在官方博客中演示了 7 个 Grok-1.5V 案例,包括将白板上的流程图草图转化为 Python 代码、根据孩子的绘画生成睡前故事、解释流行语、将表格转化为 CSV 文件格式等等。
按照 Udio 的规定,它和 Suno 一样,不支持用某个艺术家的声音生成歌曲。不过,Udio 可以用艺术家的风格作为提示词,比如「贝多芬」。
让 Udio 唱中文歌,有种霸王硬上弓的感觉,咬字不清晰又错误频出,发音有点像塑料粤语,不了解是否是拿港台歌训练的 AI,且素材不是很够。
Udio 目前发布的是免费测试版,注册账号之后,每个人每月最多可以生成 1200 首歌曲,按照理想情况,40 秒内就能生成一首。
和 Suno 类似,Udio 的创作界面非常直观,输入提示词,点击生成,等待 AI 创作完毕。也与 Suno 一样,Udio 通过 API 调用 ChatGPT 编写歌词。
除了让 AI 自由发挥,Udio 也能更加定制化,让你输入自己的歌词,添加具体的流派标签,选择生成纯音乐,或者包含歌词和人声的歌曲。
用户可以上传会议录音、电视节目等音频内容,无需书面记录就可让其解读和总结。Gemini 1.5 Pro 于 2 月份发布,当时面向开发者和企业用户开放。
据悉,这个在 Gemini 系列中定位中量级的模型,在性能上已经超越了体型和性能最强的模型 Gemini Ultra。
Google 还推出了一个新的视频生产力工具「Vids」。据 Google 介绍,用户只要会制作 PPT,就可以在 Vids 中制作视频。
在本周,端侧大模型面壁 MiniCPM 小钢炮乘胜追击,迎来了第二弹的四连发,主打的就是「小而强,小而全」。
其中,MiniCPM-V2.0 多模态模型明显地增强了 OCR 能力,刷新开源模型最佳 OCR 表现,通用场景文字比肩 Gemini-Pro、超越全系 13B 量级模型。
此前,我们曾经介绍过 Magnific AI 出色的图片风格迁移能力,即将任意一张图像转化为其他风格,并尽可能保留原图像的内容。
本周,据澎湃新闻报道,百度创始人、董事长兼 CEO 李彦宏近期在内部讲话中,就 AI 业界中的焦点话题发表看法。
一年前文心刚刚发布的时候,我们内部是有过很激烈的讨论的,最后当然大家也了解这一个结果,我们的决定是不开源。为啥不开源?
当时的判断是,市场上一定会有开源的模型,而且是不止一家会开源。在这种情况下,多百度一家开源不多,少百度一家开源也不少。
在李彦宏看来,虽然 Llama 也鼓励开发者们去贡献各种各样的数据、代码,但是实际上最主要的贡献还是 Meta 内部的开发者,因此, Llama 并不是一个真正由大家一起来协同开发的产品。
李彦宏还认为,相较于开源,闭源才具有真正的商业模式,只有赚到钱才能聚集算力、聚集人才。
大家比较一下,比如硅谷有一个优秀的人才,他有 OpenAI 的 offer,有 Meta 的 offer,有 Llama 的 offer,他会去哪儿?这是非常显而易见的选择。
本周,Anthropic 首席执行官 Dario Amodei 在接受《》的采访表示, AI 正处于「指数曲线」上,并以个人曾在 OpenAI 五年的工作经历为例做进一步解释。
2018 年,OpenAI 开发了一个名为 GPT-1 的模型,其所需的计算能力仅为现在模型的 1/100000。
作为最早「缩放定律」的一批人,Amodei 曾预测如果对这些模型的投资从当时 10000 美元增加到 1亿、10 亿甚至 100 亿美元,那么将会有许多惊人的成果出现。
此外,「当 ChatGPT 发布时,就像过去三年中我们预期会出现的所有增长和兴奋,突然之间爆发出来,迅速占据了公众的视野。」
Dario Amodei 还认为,让模型拥有个性的同时保持客观性和实用性,避免陷入各种伦理困境,这将大大促进其被广泛采用。
上个月,埃隆·马斯克预测,AGI 将会在 2025 年底到来,但并不是任何一个人都这么乐观。
近日,Meta 首席科学家、图灵奖获得者 Yann LeCun 在伦敦举行的一次活动中,表示 LLMs 永远无法达到人类水平的智能。
这是人类智能的四个基本特征 , 就此而言,还有动物智能 ,目前的AI系统都无法做到
Yann LeCun 认为,对话流利的 LLMs 看似很聪明,但实际上,它们对现实的理解非常粗浅。同时 在他看来,一个四岁孩子在与世界的互动中看到的数据信息是世界上最大的 LLMs 的 50 倍。
大部分人类知识并非以语言形式存在,因此除非对系统架构进行改变,否则这些系统没办法实现与人类相当水平的智能。