产品中心

eva内衬包装

珍珠棉包装

免费热线：
17731502126
地址：唐山市开发区大庆道106号
手机：0315-5100217

当前位置：首页 > 案例-米乐体育官方app下载苹果

苹果再放 AI 大招！新模型能够「读懂」你的电子设备屏幕 Hunt Good 周报

发布日期：2024-04-18 作者: 米乐体育官方app下载苹果

本周，康奈尔大学发布了一篇名为「Ferret-UI：基于多模态大语言模型的移动 UI 理解」的论文。

Ferret-UI 被描述为一种新的 MLLM，专为理解移动 UI 屏幕而定制，具有「指向、定位和推理功能」。它最大的特点是有一个放大系统，可以将图像放大到「任何分辨率」，使图标和文本更易于阅读。

为了做处理和训练，Ferret 还将屏幕分成两个较小的部分，将屏幕切成两半。相较于其他大语言模型，传统的更倾向于扫描较低分辨率的全局图像，这降低了充分确定图标外观的能力。

虽然不知道最终是否会被整合到 Siri 中，但 Ferret-UI 提供了对 iPhone 进行高级控制的可能性。通过了解用户界面元素，Siri 能够最终靠在应用程序中自行选择图形元素，为用户在应用程序中执行操作。

本周，福布斯红杉资本和Meritech Capital 一同遴选出 AI 领域最有前途的五十家 AI 初创公司。

只需点击几下鼠标，任何人都可通过Pika的生成式人工智能软件制作出潜水员探索水下海洋生物，又或是老虎在郁郁葱葱的印度森林中徘徊的视频。

这家新兴勇于探索商业模式的公司拥有一支 13 人的团队，大部分成员为女性，目前估值为 2.5 亿美元。

本周，据彭博社报道，Adobe 正在使用 Midjourney 的图片，训练其文生图模型 Firefly。

消息的人偷偷表示，关于使用 Midjourney 的 AI 生成图片来训练 Firefly 模型在 Adobe 内部一直有着很大的分歧。

即使在 Firefly 开发的早期阶段，一些员工也不同意 Adobe 将 AI 生成的图像纳入到Firefly 训练数据中。

据彭博社报道，在用于训练 Firefly 的 Adobe Stock 数据库中，有 5700 万条数据被标记为 AI 生成的，这约占数据库中图像总数的 14%。

而此前 Adobe 发言人指出，用于训练 Firefly 的图像中只有 5% 来自其他平台创建的 AI 图像。

提交至 Adobe Stock 的每张图像，包括其中极少数由 AI 生成的图像，都需经过严苛的审核流程。这一流程旨在确保图像中不含有任何知识产权、商标、可辨认的角色或标志，以及不涉及艺术家姓名的提及。

本周，计算机协会 ACM 宣布，将「计算机界最高荣誉」图灵奖授予复杂性理论先驱、普林斯顿高等研究院教授艾维·维格森。

美国计算机协会（ACM）强调了艾维·维格森对计算理论的基础性贡献，包括重塑人类对计算中随机性作用的理解，以及数十年来在理论计算机科学领域的领导地位。

值得关注的是，维格森教授在 2021 年也曾获得被誉为数学界的诺贝尔奖——阿贝尔奖。此外，他还是 2017 年阿里达摩院刚成立时首批「十大祖师」之一。

近日，老乡鸡宣布将其最核心的内容对消费的人、监管部门以及同行全面公开，包括菜品配料、食材供应商明细、操作工艺等菜品制作涉及到的所有环节。

677 页共 20 万字，包含 202 个供应商明细，484 个三卡追溯档案（餐厅菜品追溯卡 188 个，央厨食材追溯卡 136 个，外采原料追溯卡 160 个）的《老乡鸡菜品溯源报告》向社会全面原文公开。

老乡鸡称顾客可以对照报告在家做出老乡鸡同样的菜，而共享给同行的 202 家食材供应商信息能解决所有食材来源问题。

自从在 MWC 2024（世界移动通信大会）亮相后，标榜要做「AI 时代的 iPhone」的 Ai Pin 终于发货，第一时间上手的外媒也抱着极大的热情和好奇，全方位体验了这款「奇葩」产品。

但如果你想知道 Ai Pin 是否值得购买，所有人也都会异口同声地叫醒你：NO

我真正可以依靠 Ai Pin 做的唯一一件事就是告诉我时间。——The Verge

周二在伦敦举行的一次活动中，Meta 证实，它计划在下个月发布 Llama 3 的初始版本——这是其用于为生成式 AI 助手提供动力的下一代大型语言模型。

Meta 全球事务总裁尼克·克莱格（Nick Clegg）表示：「我们大家都希望在接下来的一个月内，甚至更短的时间内，很快就会开始推出我们的新一代基础模型系列——Llama 3。」

他还描述了一系列不同能力和适应性的产品版本即将发布。「今年，我们将陆续推出多个具有不一样功能和多样性的模型，启动时间很临近。」

该公司没有透露 Llama 3 中使用的参数大小，但预计它将拥有约 1400 亿个参数，并与 OpenAI 的 GPT-4 相媲美。

Meta 此前发布了三种尺寸的 Llama 2，最大的参数为 70B。值得一提的是，Meta 在过去一年中囤积了 35 个 H100 GPU，以加强 AI 基础设施。

继上个月推出 Grok-1.5 大模型之后，马斯克近日再次推出首个多模态模型 Grok-1.5 Vision。

据 xAI 透露，他们计划很快邀请参与早期测试的用户以及现有的Grok-1.5的使用者体验 Grok-1.5 Vision。

Grok-1.5 Vision 不仅仅可以理解文本信息，还能够高效处理各类文档、图表、截图以及照片中的信息。

xAI 在官方博客中演示了 7 个 Grok-1.5V 案例，包括将白板上的流程图草图转化为 Python 代码、根据孩子的绘画生成睡前故事、解释流行语、将表格转化为 CSV 文件格式等等。

按照 Udio 的规定，它和 Suno 一样，不支持用某个艺术家的声音生成歌曲。不过，Udio 可以用艺术家的风格作为提示词，比如「贝多芬」。

让 Udio 唱中文歌，有种霸王硬上弓的感觉，咬字不清晰又错误频出，发音有点像塑料粤语，不了解是否是拿港台歌训练的 AI，且素材不是很够。

Udio 目前发布的是免费测试版，注册账号之后，每个人每月最多可以生成 1200 首歌曲，按照理想情况，40 秒内就能生成一首。

和 Suno 类似，Udio 的创作界面非常直观，输入提示词，点击生成，等待 AI 创作完毕。也与 Suno 一样，Udio 通过 API 调用 ChatGPT 编写歌词。

除了让 AI 自由发挥，Udio 也能更加定制化，让你输入自己的歌词，添加具体的流派标签，选择生成纯音乐，或者包含歌词和人声的歌曲。

用户可以上传会议录音、电视节目等音频内容，无需书面记录就可让其解读和总结。Gemini 1.5 Pro 于 2 月份发布，当时面向开发者和企业用户开放。

据悉，这个在 Gemini 系列中定位中量级的模型，在性能上已经超越了体型和性能最强的模型 Gemini Ultra。

Google 还推出了一个新的视频生产力工具「Vids」。据 Google 介绍，用户只要会制作 PPT，就可以在 Vids 中制作视频。

在本周，端侧大模型面壁 MiniCPM 小钢炮乘胜追击，迎来了第二弹的四连发，主打的就是「小而强，小而全」。

其中，MiniCPM-V2.0 多模态模型明显地增强了 OCR 能力，刷新开源模型最佳 OCR 表现，通用场景文字比肩 Gemini-Pro、超越全系 13B 量级模型。

此前，我们曾经介绍过 Magnific AI 出色的图片风格迁移能力，即将任意一张图像转化为其他风格，并尽可能保留原图像的内容。

本周，据澎湃新闻报道，百度创始人、董事长兼 CEO 李彦宏近期在内部讲话中，就 AI 业界中的焦点话题发表看法。

一年前文心刚刚发布的时候，我们内部是有过很激烈的讨论的，最后当然大家也了解这一个结果，我们的决定是不开源。为啥不开源？

当时的判断是，市场上一定会有开源的模型，而且是不止一家会开源。在这种情况下，多百度一家开源不多，少百度一家开源也不少。

在李彦宏看来，虽然 Llama 也鼓励开发者们去贡献各种各样的数据、代码，但是实际上最主要的贡献还是 Meta 内部的开发者，因此， Llama 并不是一个真正由大家一起来协同开发的产品。

李彦宏还认为，相较于开源，闭源才具有真正的商业模式，只有赚到钱才能聚集算力、聚集人才。

大家比较一下，比如硅谷有一个优秀的人才，他有 OpenAI 的 offer，有 Meta 的 offer，有 Llama 的 offer，他会去哪儿？这是非常显而易见的选择。

本周，Anthropic 首席执行官 Dario Amodei 在接受《》的采访表示， AI 正处于「指数曲线」上，并以个人曾在 OpenAI 五年的工作经历为例做进一步解释。

2018 年，OpenAI 开发了一个名为 GPT-1 的模型，其所需的计算能力仅为现在模型的 1/100000。

作为最早「缩放定律」的一批人，Amodei 曾预测如果对这些模型的投资从当时 10000 美元增加到 1亿、10 亿甚至 100 亿美元，那么将会有许多惊人的成果出现。

此外，「当 ChatGPT 发布时，就像过去三年中我们预期会出现的所有增长和兴奋，突然之间爆发出来，迅速占据了公众的视野。」

Dario Amodei 还认为，让模型拥有个性的同时保持客观性和实用性，避免陷入各种伦理困境，这将大大促进其被广泛采用。

上个月，埃隆·马斯克预测，AGI 将会在 2025 年底到来，但并不是任何一个人都这么乐观。

近日，Meta 首席科学家、图灵奖获得者 Yann LeCun 在伦敦举行的一次活动中，表示 LLMs 永远无法达到人类水平的智能。

这是人类智能的四个基本特征，就此而言，还有动物智能，目前的AI系统都无法做到

Yann LeCun 认为，对话流利的 LLMs 看似很聪明，但实际上，它们对现实的理解非常粗浅。同时在他看来，一个四岁孩子在与世界的互动中看到的数据信息是世界上最大的 LLMs 的 50 倍。

大部分人类知识并非以语言形式存在，因此除非对系统架构进行改变，否则这些系统没办法实现与人类相当水平的智能。

上一篇:【48812】米乐体育APP官网APP(官方)下载装置安卓苹果通用 v121ml

下一篇:【48812】离了个大谱！这个色情使用居然能霸榜苹果商铺下载量榜首？

您好，欢迎来到米乐体育官方APP苹果版_米乐体育官方app下载苹果！一家多年从事海绵包装和各类海绵制品的生产厂家。

eva内衬包装

珍珠棉包装

苹果再放 AI 大招！新模型能够「读懂」你的电子设备屏幕 Hunt Good 周报

杠杆原理是什么详细的介绍在这里！

【48812】利率的期限结构理论最重要的包括什么

关于2024《咖啡年刊》你想知道的都在这里！

【48812】作文：精彩的篮球赛

【龙江体育】《体育锻炼国家标准》30秒跳绳有利提升心肺功能

【48812】跳绳运动被社会广泛认可现正式参加“规范”系统！

【48812】各位同学留意了！跳绳、仰卧起坐、掷实心球等项目有了“新规范”

【48812】2022年义务教育体育与健康课程标准及项目解读

【48812】勾手投篮一项现已快要在NBA失传的绝世武功!

【48812】你没见过最奇葩的观念：奥尼尔背身不及格