TACO，开源的多模态动作模型，通过调用外部工具执行中间步骤，然后整合思想和行动输出以产生连贯的响应

让我们看看演示视频吧！

TACO，开源的多模态动作模型，在推理过程中，TACO产生思想和行动链（科塔），通过调用外部工具（如OCR，深度估计和计算器）执行中间步骤，然后整合思想和行动输出以产生连贯的响应。TACO模型在8个基准测试中的表现优于指令调整的基线，平均实现了3.6%的改进，在涉及OCR、数学推理和空间推理的MMVet任务中提高了高达15%。

项目地址：https://taco-project.github.io/

Github地址：https://github.com/SalesforceAIResearch/TACO

论文地址：https://arxiv.org/pdf/2412.05479

模型下载地址：https://huggingface.co/collections/Salesforce/taco-models-6764b2ad9ed8cf7fc0946581

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

TACO，开源的多模态动作模型，通过调用外部工具执行中间步骤，然后整合思想和行动输出以产生连贯的响应

评论(0)

提示：请文明发言取消回复

每日推文

TACO，开源的多模态动作模型，通过调用外部工具执行中间步骤，然后整合思想和行动输出以产生连贯的响应

相关文章

Segment Anything Model 2 （SAM 2），实时视频分割，自动追踪主体

BEN2，开源的背景去除模型，支持图片与视频去除背景

CogVideo，智谱开源的DiT模型，清影同源视频生成模型

YuLan-Mini，完全开源的轻量级的语言模型，24亿个参数

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复