12月16日,无问芯穹发布正式开源其“端模子+端软件+端IP”端上智能一体化处理计划中的小模子——寰球首个端侧全模态懂得开源模子Megrez-3B-Omni,并同步开源了纯言语版本模子Megrez-3B-Instruct。据先容,Megrez-3B-Omni是一个为端而生的全模态懂得模子,抉择了最合适手机、平板等端侧装备的30亿参数黄金尺寸,构造规整,推理速率最年夜当先同精度模子300%。作为一个全模态模子,Megrez-3B-Omni同时具有图片、音频、文本三种模态数据的处置才能,并在三个模态的多种测评基准中获得了最优机能。Github: https://github.com/infinigence/Infini-MegrezHuggingFace:https://huggingface.co/Infinigence/Megrez-3B-Omni图片、文本、音频,全模态高机能Megrez-3B-Omni 谢绝就义任何模态的精度,在图片、文本、音频三个模态中均获得了同尺寸下最优机能。无论是跟同样三模态的VITA ( based on Mixtral 8×7B) 、Baichuan-Omni-7B ,仍是双模态的MiniCPM-V 2.6 ( based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B,又或是单一模态的Qwen、Baichuan 等模子比拟,Megrez-3B-Omni 在主流基准测试集上的表示都绝不减色。图片懂得:3B体量对标34B模子表示在图像懂得方面,Megrez-3B-Omni 作为一集体积仅为3B的模子,其综合机能表示能够片面超越34B的硕大无朋,超出LLaVA-NeXT-Yi-34B 等模子,是现在OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像懂得模子之一。与此同时,Megrez-3B-Omni 在场景懂得、OCR 等义务上也存在精良表示,可能正确洞察跟剖析图像中的场景内容,并高效地从中提取文本信息,且无论是含混的印刷体仍是庞杂的手写字,都可能轻松辨认。Megrez-3B-Omni 屏幕辨认Megrez-3B-Omni 手写体辨认文本懂得:超出上一代14B最佳模子在文本懂得方面,作为全模态懂得模子,Megrez-3B-Omni 不就义模子的文本处置才能,将上一代14B年夜模子的优良才能紧缩至3B范围,明显下降了盘算本钱、晋升了盘算效力。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个威望测试集上更是获得端上模子最优精度,在文本懂得方面获得寰球当先位置。Megrez-3B-Omni 文本懂得Megrez-3B-Omni 代码懂得音频懂得:轻松以音问图、以音解文、以音听音在语音懂得方面,Megrez-3B-Omni 的后果比肩行业主流计划。Megrez-3B-Omni不只支撑中文跟英文的语音输入,还可能处置庞杂的多轮对话场景,更能支撑对输入图片或笔墨的语音发问,实现差别模态间的自在切换。用户到任意模态内容,收回语音指令,Megrez-3B-Omni 就能依据语音指令直接呼应文本,让用户能够经由过程更少举措与模子开展更直不雅、天然的交互。Megrez-3B-Omni 语音懂得令人赞叹的推理效力模子的范围并不是决议其速率的独一要素,因而模子小并纷歧定就象征着速率快。凭仗对硬件特征的深刻懂得与应用,Megrez-3B-Omni 经由过程软硬件协同优化战略,确保了各参数与主流硬件高度适配,以实现硬件机能的应用最年夜化。与上一代及其余端侧年夜言语模子比拟,单模态版本的Megrez-3B-Instruct 在推理速率上获得了明显晋升,最年夜推理速率能够当先同精度模子300%。多场景机动利用Megrez-3B-Instruct 此次还特殊供给了WebSearch 功效,这一功效使得模子可能智能地断定何时须要挪用外部东西停止网页搜寻,帮助答复用户的成绩。用户得以构建属于本人AI搜寻,经由过程收集获取最新信息,战胜小模子的幻觉成绩跟常识贮备缺乏的范围。偶然,模子经由过程搜寻网页能够更片面地实现答复,而其余时间,模子本身已具有充足的常识来自力处理成绩,过多的搜寻挪用可能会下降推理速率跟后果。Megrez-3B-Instruct 经由过程在搜寻跟对话之间智能切换,防止了适度依附搜寻或完整不挪用搜寻的成绩。除了能够主动决议东西挪用机会之外,Megrez-3B-Instruct 还具有高低文懂得机能优良、可供给带参考信息的构造化输出等上风。现在,这些才能都已集成于Megrez-3B-Instruct 模子中,用户能够经由过程System Prompt 自在切换,同时享用到高精度模子推理才能与智能WebSearch 挪用收益。 端上智能须要一体化处理计划相较于云端年夜模子,端侧模子须要在资本无限的装备上疾速安排、高效运转,对下降模子盘算跟存储需要提出更高请求。无问芯穹技巧团队源起于清华年夜学电子工程系NICS-EFC试验室,在模子紧缩、推理减速及硬件能耗优化等范畴领有深刻的学术研讨跟深沉的工程实际教训,是模子轻量化、软硬件协同优化范畴的顶尖团队。无问芯穹表现,Megrez-3B-Omni是一个才能预览,接上去还将连续迭代Megrez系列,晋升主动化程度至“edge device use”后果,让用户只要要给出简略的语音指令,就可实现端装备的设置或利用操纵,并将它作为“端模子+端软件+端IP”端上智能一体化处理计划的主要形成推向市场。在这个计划中,除端侧全模态懂得模子外,另有端上推理软件跟IP计划计划,不只支撑CPU、GPU跟NPU 的同时推理,更能经由过程逾越软硬件档次的体系优化,额定带来最高可达70%的机能晋升,最年夜化端侧硬件机能的应用。经由过程“端模子+端软件+端IP”一体化计划,无问芯穹将连续努力于为端侧装备供给更完全、对硬件应用更高效的智能计划,增进年夜模子在端侧装备上实现更高推理速率与更低能耗,推进端侧智能更快欢迎AGI到来。雷峰网(大众号:雷峰网)雷峰网版权文章,未经受权制止转载。概况见转载须知。]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->