AI视野：必应推出GPT-4Turbo模型；抖音测试“AI搜”功能（pin the buddy）

大模型动态

必应推出GPT-4Turbo模型

微软推出Bing Chat的最新模型，GPT-4Turbo，为用户提供更准确和最新的信息。目前仅限部分用户试用，使用方法需通过检查资格确认。

【AIBase提要:】
GPT-4Turbo发布: 微软推出Bing Chat的最新模型，GPT-4Turbo，升级版GPT-4，截至2023年4月信息，提供更好的搜索结果。
试用资格检查: 用户需通过在Bing Chat中检查源代码或上传图像以确认试用资格。
功能升级计划: 微软还计划升级代码解释器功能，使其更符合OpenAI的标准，提升开发人员使用Copilot的便利性。

阿里团队推新AI模型I2VGen-XL

视频合成领域迎来新突破，阿里团队提出I2VGen-XL模型，通过静态图像引导实现高质量视频生成。该模型采用两阶段方法，综合考虑语义准确性和细节连续性，利用庞大数据集优化多样性和鲁棒性。

项目体验网址:https://top.aibase.com/tool/i2vgen-xl

【AiBase提要:】
创新方法: I2VGen-XL模型通过两阶段策略，解耦语义与细节，以单张图像为引导实现视频合成。
数据优化: 研究人员收集了庞大数据集，包括3500万文本-视频对和60亿文本-图像对，提高模型的语义准确性和细节连续性。
性能优势: 在与顶级方法的比较中，I2VGen-XL展示出更丰富、多样化的运动，具有良好的泛化能力，适用于不同图像类型。

苹果发布开源多模态机器学习模型「Ferret」

苹果与康奈尔大学合作推出的开源多模态大型语言模型「Ferret」，能够在图像中的任何位置以任何精度进行元素定位，标志着苹果在AI领域更加开放。

地址:https://top.aibase.com/tool/ml-ferret

【AiBase提要】
开源模型发布:苹果公司与康奈尔大学研究人员悄然发布了多模态语言模型「Ferret」，首次在GitHub上亮相，展示了苹果在AI研究上更加开放的一面。
️ 图像元素定位:「Ferret」能够在图像中的任何位置以任何精度进行元素定位，为用户提供有用的信息，标志着在图像处理方面的重要进展。
苹果开放姿态:这一开源发布显示出苹果对有影响力的AI研究的承诺，与其通常的保密立场形成鲜明对比。

AI应用

抖音测试“AI搜”功能

抖音正测试名为“AI搜”的AI搜索功能，用户可通过智能搜索在APP内获得AI生成的答案，包括抖音视频和第三方网站信息。

点击体验:https://top.aibase.com/tool/doubao

【AiBase提要:】
AI搜索功能测试中: 抖音APP正在测试名为“AI搜”的功能，用户可通过搜索界面使用智能搜索获取AI生成的答案。
用户互动升级: 用户在“AI搜”中可输入问题，系统通过智能搜索总结答案，不满意可补充问题或在“你可能还想了解”选择系统筛选的信息获取新答案。
多来源答案: 答案来源包括抖音内视频和第三方网站，用户可直接选择视频来源，查看详细讲解。

小红书内测AI聊天机器人

小红书内测名为“Davinic达芬奇”的AI聊天功能，以智能问答为主，覆盖生活多方面，基于Meta的LLAMA大模型进行训练，旨在提供用户个性化的智能推荐和伴聊体验。

【AiBase提要:】
"Davinic达芬奇"是小红书内测的AI聊天功能，以智能问答为主，覆盖旅游、美食、文化、生活等方面。
功能基于Meta的LLAMA大模型，自9月开始测试，旨在为用户提供更个性化的内容和交友对象。
小红书通过机器学习和数据分析技术，致力于为用户带来智能推荐、伴聊等多方面的AI体验。

视频编辑工具Fairy 通过自然语言即可转换风格

Fairy是由MetaGenAI开发的视频编辑工具，支持通过自然语言指令对视频进行风格转换和物体/角色变换，速度快，可处理相对较长视频。

项目地址:https://top.aibase.com/tool/fairy

论文地址:https://arxiv.org/pdf/2312.13834.pdf

【AiBase提要:】
Fairy是由MetaGenAI开发的视频编辑工具，支持风格转换和物体/角色变换。
⚡ Fairy在14秒内能生成120帧512×384视频，保持高质量和时间连贯性。
Fairy采用基于锚点的跨帧注意力机制，支持并行计算，提高处理速度。

AI新鲜事

ChatGPT领衔全球最受欢迎的AI工具

根据Writerbuddy.ai的调查，2023年被誉为AI之年，ChatGPT以超过140亿次访问量成为全球最受欢迎的生成式AI工具，尽管引起一些担忧。

【AiBase提要:】
ChatGPT在2023年以超过140亿次访问量领衔全球最受欢迎的AI工具，成为生成式AI领域的无冕之王。
尽管ChatGPT今年遭遇一些负面报道，但其机器人能够执行多项任务，从规划日程到撰写详细简历，仍然备受用户欢迎。
除了ChatGPT，排名前十的其他AI工具如Character.ai、Quillbot等在AI聊天、写作和图像生成领域也取得了显著的访问量。

OpenAI计划新一轮融资

OpenAI正处于初步谈判阶段，计划以至少1000亿美元的估值筹集新一轮融资，旨在推动其发展，特别是支持Tigris芯片项目的研发。

【AiBase提要:】
OpenAI计划新一轮融资，预计估值至少1000亿美元，将成为美国市值第二高的初创公司。
预计融资将支持OpenAI的Tigris芯片项目，旨在开发能与Nvidia媲美的AI半导体芯片。
OpenAI的ChatGPT已在人工智能领域取得重大突破，新一轮融资有望推动公司在人工智能芯片领域的发展。

Gemini Pro被证实和GPT3.5差距不大

谷歌Gemini Pro与GPT-3.5进行深入比较，研究表明在多个任务上GPT-3.5几乎全面优于Gemini Pro，但整体差距不大。

论文地址:https://arxiv.org/pdf/2312.11444.pdf

【AiBase提要:】
研究发现: 在CMU的深入实验中，Gemini Pro与GPT-3.5相比在多个任务上稍显不足，但总体性能相近。
任务对比: 测试涉及基于知识的问答、通用推理、数学问题、代码生成等领域，Gemini Pro在某些任务上表现较差，但在特定任务中超越了GPT-3.5。
多模态特性: Gemini Pro作为多模态模型，在特定领域表现出色，尤其在视频、文本和图像训练方面，但GPT-3.5Turbo仍在大多数测试中保持领先。

谷歌考虑用人工智能取代部分员工

谷歌正考虑通过新的人工智能工具自动化广告销售等职位，可能导致一些员工被重新分配或解雇。

【AiBase提要】
自动化广告销售: 谷歌推出人工智能工具，使广告销售团队的一些成员不再需要，考虑解雇或重新分配。
潜在职位风险: 除广告工作外，随着人工智能发展，更多传统职位可能被自动化取代，涉及多个行业。
长期利润考量: 谷歌用人工智能替代员工可能从长期视角增加公司利润，但引发关切与社会讨论。

Humane计划于2024年3月发布基ChatGPT可佩戴设备AI Pin

Humane公司计划于2024年3月推出售价699美元的AI Pin，这是一款基于ChatGPT技术的可佩戴智能设备，旨在减少屏幕使用时间，通过语音指令、通话、信息发送、语言翻译等实现多项任务。

【AiBase提要:】
AI Pin是Humane公司基于ChatGPT技术推出的可穿戴设备，售价699美元。
该设备通过语音指令、通话、信息发送、语言翻译等功能减少对智能手机的依赖。
AI Pin配备激光显示器，可显示时间、日期和通知，由虚拟助手提供多项实用功能。

苹果与新闻出版机构谈判，开发生成式AI系统

苹果公司正在与主要新闻和出版机构谈判，计划以至少5000万美元的多年期协议获得新闻文章档案的授权，以开发生成式人工智能系统。

【AiBase提要:】
苹果公司与新闻和出版机构谈判，意图以巨额协议获取新闻文章授权，推动生成式人工智能系统的发展。
谈判涉及知名新闻机构，包括Condé Nast、NBC新闻和IAC，但反应褒贬不一。
苹果力图在生成式AI领域迎头赶上竞争对手，计划将生成式人工智能功能整合到其应用程序和Apple News中。

‍聚焦开发者

智源开源数据集TACO

智源研究院推出TACO代码生成数据集，为模型提供更具挑战性的训练数据和评测基准，规模庞大、质量高，挑战当前流行模型，促进代码生成领域创新。

论文:https://arxiv.org/abs/2312.14852

智源开放数据仓库:https://data.baai.ac.cn/details/BAAI-TACO

【AiBase提要:】
TACO是代码生成领域新的训练数据集和评测基准，规模大、质量高。
实验结果显示当前代码生成模型在TACO评测中与GPT-4存在显著差异，提升空间巨大。
️ TACO数据集提供挑战性测试和精确标签，可促进模型性能研究和改进。

Lightricks发布LongAnimatediff

Lightricks公司推出LongAnimatediff项目，解决了Animatediff一次只能生成16帧视频的限制，提供两个模型，分别能生成64帧和32帧的视频，其中效果更好的是32帧模型。

项目地址:https://github.com/Lightricks/LongAnimateDiff/

【AiBase提要:】
64帧模型推荐: LongAnimatediff项目解决了Animatediff生成视频帧数限制，推荐使用64帧模型，效果优于32帧模型。
帧数调整方法: 使用LongAnimatediff时，需注意64帧模型的Motion_scale要调整到1.28，而32帧模型的Motion_scale要调整到1.15。
解决画面问题: LongAnimatediff通过提供更多帧数避免了生成时间过长导致画面一致性下降和崩坏的问题，为视频生成提供更好的效果。

腾讯开发AppAgent 可模仿人类在手机上操作APP

腾讯与德州大学达拉斯分校合作开发的AppAgent项目利用自主学习和模仿人类手势，在手机上执行多种任务，包括社交媒体发帖、邮件编辑、地图使用、在线购物和图像编辑。该项目经过广泛测试，涵盖10种不同应用程序，具备多模态代理、直观交互、自主学习和构建知识库等功能。

项目地址:https://top.aibase.com/tool/appagent

【AiBase提要:】
多模态代理功能: AppAgent基于大语言模型，能够处理多种信息类型，理解并执行复杂任务。
自主学习与知识库构建: 通过模仿人类直观动作，AppAgent学习应用程序操作方式，并构建知识库，提高执行任务的准确性。
提升用户体验: 创新技术使用户在手机应用操作上获得更便捷、高效的体验，执行跨应用程序复杂任务如发送邮件或编辑图片。

Tracking Any Object Amodally :让AI像人一样可以追踪任何对象

该项目由卡内基梅隆大学和丰田研究所联合开发，旨在让人工智能能够像人一样，即使在部分遮挡或不完全可见的情况下，也能全面理解和追踪物体。

项目地址:https://tao-amodal.github.io/

代码:https://github.com/WesleyHsieh0806/TAO-Amodal

AiBase提要:
自动驾驶增强安全性: 通过追踪部分遮挡的物体，使自动驾驶车辆更安全、可靠地识别和追踪行人或其他车辆。
Amodal感知提升追踪技术: 利用TAO-Amodal数据集，训练计算机能够理解并追踪被部分遮挡的物体，实现Amodal感知。
轻量级插件模块改进功能: 引入“Amodal Expander 插件”将标准的Modal追踪器转换为Amodal追踪器，提高追踪部分遮挡物体的准确性。

查看全文