
在科技领域的闪电战中,6月5日的晨曦见证了又一重磅炸弹的引爆。知名科技资讯平台marktechpost于昨日(6月4日)揭开神秘面纱,揭示了一个震撼业界的消息:英伟达(Nvidia)在文档级理解任务的激流中,推出了Llama Nemotron Nano VL这一视觉-语言模型的黑科技。
这座模型,如同Llama 3.1架构的巨轮,搭载了CRadioV2-H视觉编码器和Llama 3.1 8B指令微调语言模型的双重引擎。它犹如一位多才多艺的艺术家,能够同时处理多页文档中的视觉和文本元素,其上下文长度之长,可达16K,足以覆盖图像和文本序列的全貌。
在视觉-文本对齐的道路上,Llama Nemotron Nano VL巧妙地通过投影层和旋转位置编码,优化了token效率,对于长篇多模态任务,无论是面对多图像的挑战,还是解析复杂文本的考验,它都能轻松驾驭。

其训练过程,如同一场精心编排的交响乐,分为三个阶段:首先,在商业图像和视频数据集的海洋中,进行交错式的图文预训练;接着,通过多模态指令微调,提升与用户的交互式提示能力;最后,重新混合纯文本指令数据,优化在标准语言模型基准上的表现。
在训练过程中,英伟达的Megatron-LLM框架和Energon数据加载器,依托A100和H100 GPU集群,为模型的成长提供了坚实的土壤。在OCRbench v2基准测试中,Llama Nemotron Nano VL在OCR、表格解析和图表推理等任务上,展现出了令人瞩目的领先精度,尤其在结构化数据提取和布局相关问题解答中,其表现甚至可以与更大规模的模型相媲美。

在部署方面,Llama Nemotron Nano VL如同一位灵活多变的舞者,既能在服务器的高台之上翩翩起舞,也能在边缘推理的舞台边缘自由旋转。英伟达为其提供了4-bit量化版本(AWQ),结合TinyChat和TensorRT-LLM,实现了高效推理,兼容Jetson Orin等受限环境。
此外,模型还支持Modular NIM(NVIDIA推理微服务)、ONNX和TensorRT导出,英伟达更是通过预计算视觉嵌入选项,进一步降低静态图像文档处理的延迟,为企业应用提供了切实可行的解决方案。
更多详情,请参考以下链接:
New NVIDIA Llama Nemotron Nano Vision Language Model Tops OCR Benchmark for Accuracy
NVIDIA AI Releases Llama Nemotron Nano VL: A Compact Vision-Language Model Optimized for Document Understanding
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。