您好,欢迎来到米乐体育官方APP苹果版_米乐体育官方app下载苹果一家多年从事海绵包装和各类海绵制品的生产厂家。

咨询热线:
17731502829
菜单
苹果再放 AI 大招!新模型能够「读懂」你的电子设备屏幕 Hunt Good 周报

苹果再放 AI 大招!新模型能够「读懂」你的电子设备屏幕 Hunt Good 周报

发布日期:2024-04-18   作者: 米乐体育官方app下载苹果

  本周,康奈尔大学发布了一篇名为「Ferret-UI:基于多模态大语言模型的移动 UI 理解」的论文。

  Ferret-UI 被描述为一种新的 MLLM,专为理解移动 UI 屏幕而定制,具有「指向、定位和推理功能」。它最大的特点是有一个放大系统,可以将图像放大到「任何分辨率」,使图标和文本更易于阅读。

  为了做处理和训练,Ferret 还将屏幕分成两个较小的部分,将屏幕切成两半。相较于其他大语言模型,传统的更倾向于扫描较低分辨率的全局图像,这降低了充分确定图标外观的能力。

  虽然不知道最终是否会被整合到 Siri 中,但 Ferret-UI 提供了对 iPhone 进行高级控制的可能性。通过了解用户界面元素,Siri 能够最终靠在应用程序中自行选择图形元素,为用户在应用程序中执行操作。

  本周,福布斯红杉资本和Meritech Capital 一同遴选出 AI 领域最有前途的五十家 AI 初创公司。

  只需点击几下鼠标,任何人都可通过Pika的生成式人工智能软件制作出潜水员探索水下海洋生物,又或是老虎在郁郁葱葱的印度森林中徘徊的视频。

  这家新兴勇于探索商业模式的公司拥有一支 13 人的团队,大部分成员为女性,目前估值为 2.5 亿美元。

  本周,据彭博社报道,Adobe 正在使用 Midjourney 的图片,训练其文生图模型 Firefly。

  消息的人偷偷表示,关于使用 Midjourney 的 AI 生成图片来训练 Firefly 模型在 Adobe 内部一直有着很大的分歧。

  即使在 Firefly 开发的早期阶段,一些员工也不同意 Adobe 将 AI 生成的图像纳入到Firefly 训练数据中。

  据彭博社报道,在用于训练 Firefly 的 Adobe Stock 数据库中,有 5700 万条数据被标记为 AI 生成的,这约占数据库中图像总数的 14%。

  而此前 Adobe 发言人指出,用于训练 Firefly 的图像中只有 5% 来自其他平台创建的 AI 图像。

  提交至 Adobe Stock 的每张图像,包括其中极少数由 AI 生成的图像,都需经过严苛的审核流程。这一流程旨在确保图像中不含有任何知识产权、商标、可辨认的角色或标志,以及不涉及艺术家姓名的提及。

  本周,计算机协会 ACM 宣布,将「计算机界最高荣誉」图灵奖授予复杂性理论先驱、普林斯顿高等研究院教授艾维·维格森。

  美国计算机协会(ACM)强调了艾维·维格森对计算理论的基础性贡献,包括重塑人类对计算中随机性作用的理解,以及数十年来在理论计算机科学领域的领导地位。

  值得关注的是,维格森教授在 2021 年也曾获得被誉为数学界的诺贝尔奖——阿贝尔奖。此外,他还是 2017 年阿里达摩院刚成立时首批「十大祖师」之一。

  近日,老乡鸡宣布将其最核心的内容对消费的人、监管部门以及同行全面公开,包括菜品配料、食材供应商明细、操作工艺等菜品制作涉及到的所有环节。

  677 页共 20 万字,包含 202 个供应商明细,484 个三卡追溯档案(餐厅菜品追溯卡 188 个,央厨食材追溯卡 136 个,外采原料追溯卡 160 个)的《老乡鸡菜品溯源报告》向社会全面原文公开。

  老乡鸡称顾客可以对照报告在家做出老乡鸡同样的菜,而共享给同行的 202 家食材供应商信息能解决所有食材来源问题。

  自从在 MWC 2024(世界移动通信大会)亮相后,标榜要做「AI 时代的 iPhone」的 Ai Pin 终于发货,第一时间上手的外媒也抱着极大的热情和好奇,全方位体验了这款「奇葩」产品。

  但如果你想知道 Ai Pin 是否值得购买,所有人也都会异口同声地叫醒你:NO

  我真正可以依靠 Ai Pin 做的唯一一件事就是告诉我时间。——The Verge

  周二在伦敦举行的一次活动中,Meta 证实,它计划在下个月发布 Llama 3 的初始版本——这是其用于为生成式 AI 助手提供动力的下一代大型语言模型。

  Meta 全球事务总裁尼克·克莱格(Nick Clegg)表示:「我们大家都希望在接下来的一个月内,甚至更短的时间内,很快就会开始推出我们的新一代基础模型系列——Llama 3。」

  他还描述了一系列不同能力和适应性的产品版本即将发布。「今年,我们将陆续推出多个具有不一样功能和多样性的模型,启动时间很临近。」

  该公司没有透露 Llama 3 中使用的参数大小,但预计它将拥有约 1400 亿个参数,并与 OpenAI 的 GPT-4 相媲美。

  Meta 此前发布了三种尺寸的 Llama 2,最大的参数为 70B。值得一提的是,Meta 在过去一年中囤积了 35 个 H100 GPU,以加强 AI 基础设施。

  继上个月推出 Grok-1.5 大模型之后,马斯克近日再次推出首个多模态模型 Grok-1.5 Vision。

  据 xAI 透露,他们计划很快邀请参与早期测试的用户以及现有的Grok-1.5的使用者体验 Grok-1.5 Vision。

  Grok-1.5 Vision 不仅仅可以理解文本信息,还能够高效处理各类文档、图表、截图以及照片中的信息。

  xAI 在官方博客中演示了 7 个 Grok-1.5V 案例,包括将白板上的流程图草图转化为 Python 代码、根据孩子的绘画生成睡前故事、解释流行语、将表格转化为 CSV 文件格式等等。

  按照 Udio 的规定,它和 Suno 一样,不支持用某个艺术家的声音生成歌曲。不过,Udio 可以用艺术家的风格作为提示词,比如「贝多芬」。

  让 Udio 唱中文歌,有种霸王硬上弓的感觉,咬字不清晰又错误频出,发音有点像塑料粤语,不了解是否是拿港台歌训练的 AI,且素材不是很够。

  Udio 目前发布的是免费测试版,注册账号之后,每个人每月最多可以生成 1200 首歌曲,按照理想情况,40 秒内就能生成一首。

  和 Suno 类似,Udio 的创作界面非常直观,输入提示词,点击生成,等待 AI 创作完毕。也与 Suno 一样,Udio 通过 API 调用 ChatGPT 编写歌词。

  除了让 AI 自由发挥,Udio 也能更加定制化,让你输入自己的歌词,添加具体的流派标签,选择生成纯音乐,或者包含歌词和人声的歌曲。

  用户可以上传会议录音、电视节目等音频内容,无需书面记录就可让其解读和总结。Gemini 1.5 Pro 于 2 月份发布,当时面向开发者和企业用户开放。

  据悉,这个在 Gemini 系列中定位中量级的模型,在性能上已经超越了体型和性能最强的模型 Gemini Ultra。

  Google 还推出了一个新的视频生产力工具「Vids」。据 Google 介绍,用户只要会制作 PPT,就可以在 Vids 中制作视频。

  在本周,端侧大模型面壁 MiniCPM 小钢炮乘胜追击,迎来了第二弹的四连发,主打的就是「小而强,小而全」。

  其中,MiniCPM-V2.0 多模态模型明显地增强了 OCR 能力,刷新开源模型最佳 OCR 表现,通用场景文字比肩 Gemini-Pro、超越全系 13B 量级模型。

  此前,我们曾经介绍过 Magnific AI 出色的图片风格迁移能力,即将任意一张图像转化为其他风格,并尽可能保留原图像的内容。

  本周,据澎湃新闻报道,百度创始人、董事长兼 CEO 李彦宏近期在内部讲话中,就 AI 业界中的焦点话题发表看法。

  一年前文心刚刚发布的时候,我们内部是有过很激烈的讨论的,最后当然大家也了解这一个结果,我们的决定是不开源。为啥不开源?

  当时的判断是,市场上一定会有开源的模型,而且是不止一家会开源。在这种情况下,多百度一家开源不多,少百度一家开源也不少。

  在李彦宏看来,虽然 Llama 也鼓励开发者们去贡献各种各样的数据、代码,但是实际上最主要的贡献还是 Meta 内部的开发者,因此, Llama 并不是一个真正由大家一起来协同开发的产品。

  李彦宏还认为,相较于开源,闭源才具有真正的商业模式,只有赚到钱才能聚集算力、聚集人才。

  大家比较一下,比如硅谷有一个优秀的人才,他有 OpenAI 的 offer,有 Meta 的 offer,有 Llama 的 offer,他会去哪儿?这是非常显而易见的选择。

  本周,Anthropic 首席执行官 Dario Amodei 在接受《》的采访表示, AI 正处于「指数曲线」上,并以个人曾在 OpenAI 五年的工作经历为例做进一步解释。

  2018 年,OpenAI 开发了一个名为 GPT-1 的模型,其所需的计算能力仅为现在模型的 1/100000。

  作为最早「缩放定律」的一批人,Amodei 曾预测如果对这些模型的投资从当时 10000 美元增加到 1亿、10 亿甚至 100 亿美元,那么将会有许多惊人的成果出现。

  此外,「当 ChatGPT 发布时,就像过去三年中我们预期会出现的所有增长和兴奋,突然之间爆发出来,迅速占据了公众的视野。」

  Dario Amodei 还认为,让模型拥有个性的同时保持客观性和实用性,避免陷入各种伦理困境,这将大大促进其被广泛采用。

  上个月,埃隆·马斯克预测,AGI 将会在 2025 年底到来,但并不是任何一个人都这么乐观。

  近日,Meta 首席科学家、图灵奖获得者 Yann LeCun 在伦敦举行的一次活动中,表示 LLMs 永远无法达到人类水平的智能。

  这是人类智能的四个基本特征 , 就此而言,还有动物智能 ,目前的AI系统都无法做到

  Yann LeCun 认为,对话流利的 LLMs 看似很聪明,但实际上,它们对现实的理解非常粗浅。同时 在他看来,一个四岁孩子在与世界的互动中看到的数据信息是世界上最大的 LLMs 的 50 倍。

  大部分人类知识并非以语言形式存在,因此除非对系统架构进行改变,否则这些系统没办法实现与人类相当水平的智能。

  • 米乐体育官方APP苹果版水波浪背景
  • 米乐体育官方APP苹果版水波浪背景
  • 米乐体育官方app下载苹果水波浪背景
  • 米乐体育官方app下载苹果水波浪背景