让我们看看演示视频吧!

TACO,开源的多模态动作模型,在推理过程中,TACO产生思想和行动链(科塔),通过调用外部工具(如OCR,深度估计和计算器)执行中间步骤,然后整合思想和行动输出以产生连贯的响应。TACO模型在8个基准测试中的表现优于指令调整的基线,平均实现了3.6%的改进,在涉及OCR、数学推理和空间推理的MMVet任务中提高了高达15%。

项目地址:https://taco-project.github.io/

Github地址:https://github.com/SalesforceAIResearch/TACO

论文地址:https://arxiv.org/pdf/2412.05479

模型下载地址:https://huggingface.co/collections/Salesforce/taco-models-6764b2ad9ed8cf7fc0946581



微信扫描下方的二维码阅读本文

TACO,开源的多模态动作模型,通过调用外部工具执行中间步骤,然后整合思想和行动输出以产生连贯的响应插图

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。