文章列表-AI魔法学院

文章列表

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

在本文中，作者介绍了 Baichuan-Omni，这是第一款开源的 7B 多模态大语言模型（MLLM），能够同时处理和分析图像、视频、音频和文本的模态，同时提供先进的模态交互体验和强大性能。

Baichuan-Omni 多模态大模型

OpenAI开源大模型调测工具Transformer Debugger：可以在训练大模型之前理解模型的运行情况并干预

这个工具可以帮助开发者调测大模型的推理情况，帮助我们理解模型的输出并提供一定的解释支持。

大模型调试工具

国内厂商语音识别与Whisper评测：现状与概况对比

一、语音识别现状二、评测意义与预期成果三、评测方案四、评测结果一、语音识别现状得益于近年来深度学习技术的快速发展，人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段

语音识别 Faster-Whisper

【大模型微调】 Llama 2 ：对话模型的全过程微调

该项工作的作者提出 Llama 2 模型：这是经过一系列预训练和微调的大语言模型 (LLM)，其参数规模从 7B 亿到 70B 不等。

大模型

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

8月25日消息，阿里云推出大规模视觉语言模型Qwen-VL，一步到位、直接开源。

大模型

国产编程大模型CodeGeex

CodeGeeX: 多语言代码生成模型架构：CodeGeeX是一个基于transformers的大规模预训练编程语言模型。

编程

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

而 OpenVoice 作为一款强大的多语言即时语音克隆AI工具，可以为用户提供高效、个性化的语音克隆服务，是一款值得推荐的项目。

tts 文本转语音

AI里的大模型，你了解么

AI大模型是“人工智能预训练大模型”的简称，是指具有大量参数和复杂结构的机器学习模型。

人工智能

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

开源的大模型数据集

大模型的算法模型开源越来越多，大模型工程化也越来越稳定。

开源模型数据集

大模型的研究新方向：混合专家模型（MoE）

随着不同应用场景的实际需求，大模型的参数会变得越来越大，复杂性和规模不断的增加，尤其是在多模态大模型的开发中，每个数据集可能完全不同，有来自文本的数据、图像的数据、语音的数据等，包含不同的模式，特征和标注之间的关系可能也大有不同

MoE 大模型

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

目前LipDub 支持28种语言，包括韩语、西班牙语、捷克语、泰米尔语和乌克兰语，它采用零镜头模式，可以在Captions的视频生成模型在没见过主题的情况下推出流畅的视频。

AI

打造音乐传奇：Suno推出音乐生成模型Suno V3，让每个人都能成为作曲家

Suno AI全新音乐生成模型Suno V3来临，掀起音乐界"ChatGPT时刻"，人人皆可成为作曲家、歌手，瞬间超越自我，打造独一无二音乐专辑就在此刻！

suno 歌曲音乐

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

惊艳推荐！8款好用又免费的文本转语音TTS工具

这种技术使用深度神经网络模型来合成语音，能够更自然地模拟人类的发音和语调，从而产生更加流畅和自然的语音输出。

TTS Maker 语音

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1