腾讯元宝中的DeepSeek之所以能读懂图片,是因为腾讯将其与混元的多模态能力进行了融合。
DeepSeek的V3和R1模型均为大语言模型,不具备识图能力。在DeepSeek的官方版本中,是通过OCR的方式先实现图片的文本识别,然后在进行模型处理。
但OCR实现的,仅仅是文本的抓取,它无法真正理解图片内容。所以此次,腾讯是在DeepSeek处理用户输入内容阶段,加入了混元的多模态理解能力,让其具备了更强的图像理解能力。
目前,腾讯元宝已经接入DeepSeek-R1满血版、DeepSeek-V3以及推理模型混元T1和混元Turbo等四个模型,且都已支持理解图片、解析文件、联网搜公众号、从微信上传文件等功能。
一位行业分析人士向记者表示,腾讯元宝的这次更新,并不是基于底层模型能力上的迭代,而是通过产品创新来实现的,说明基于现有技术架构的模块化创新同样能创造差异化价值。
该分析人士还指出,这种“轻量级改造”模式尤其适合需要快速迭代的C端场景,其关键在于企业对技术组件的解构与重组能力。
实际上,随着DeepSeek实现AI平权,整个行业在通用大模型能力上基本站在了同一起跑线上。未来,或许部分大厂还能够在大语言模型能力的迭代或者多模态模型方面有所突破,但对绝大多数企业而言,未来的竞争核心将是如何实现大模型能力的产品化落地。
腾讯早早意识到这一趋势,因此在过去半个月中,一改常态,十分敏捷地作出战略调整开始拥抱DeepSeek。
DeepSeek的V3和R1模型均为大语言模型,不具备识图能力。在DeepSeek的官方版本中,是通过OCR的方式先实现图片的文本识别,然后在进行模型处理。
但OCR实现的,仅仅是文本的抓取,它无法真正理解图片内容。所以此次,腾讯是在DeepSeek处理用户输入内容阶段,加入了混元的多模态理解能力,让其具备了更强的图像理解能力。
目前,腾讯元宝已经接入DeepSeek-R1满血版、DeepSeek-V3以及推理模型混元T1和混元Turbo等四个模型,且都已支持理解图片、解析文件、联网搜公众号、从微信上传文件等功能。
一位行业分析人士向记者表示,腾讯元宝的这次更新,并不是基于底层模型能力上的迭代,而是通过产品创新来实现的,说明基于现有技术架构的模块化创新同样能创造差异化价值。
该分析人士还指出,这种“轻量级改造”模式尤其适合需要快速迭代的C端场景,其关键在于企业对技术组件的解构与重组能力。
实际上,随着DeepSeek实现AI平权,整个行业在通用大模型能力上基本站在了同一起跑线上。未来,或许部分大厂还能够在大语言模型能力的迭代或者多模态模型方面有所突破,但对绝大多数企业而言,未来的竞争核心将是如何实现大模型能力的产品化落地。
腾讯早早意识到这一趋势,因此在过去半个月中,一改常态,十分敏捷地作出战略调整开始拥抱DeepSeek。