文章列表-AI魔法学院

文章列表

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

2.7B能打Llama 2 70B，微软祭出「小语言模型」！96块A100 14天训出Phi-2，碾压谷歌Gemini nano

凭借着2.7B的参数，「小语言模型（SLM）」Phi-2几乎打穿了所有13B以下的大模型——包括谷歌最新发布的Gemini Nano 2。

小语言模型

AI声音克隆 | 最全最简教程（权威版）

它是一种将文本内容转换为语音的技术，通过TTS技术，计算机可以将文字信息转换成人类可听懂的语音输出，实现语音合成的功能目前市场上的AI声音我们最多用的还是普通的

声音克隆教程

大模型的研究新方向：混合专家模型（MoE）

随着不同应用场景的实际需求，大模型的参数会变得越来越大，复杂性和规模不断的增加，尤其是在多模态大模型的开发中，每个数据集可能完全不同，有来自文本的数据、图像的数据、语音的数据等，包含不同的模式，特征和标注之间的关系可能也大有不同

MoE 大模型

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

今天介绍一个开源的完整的数字人项目：Fay Fay是一个完整的开源项目，包含Fay控制器及数字人模型，可灵活组合出不同的应用场景：虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、心理测评

Fay 开源项目数字人

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

8月25日消息，阿里云推出大规模视觉语言模型Qwen-VL，一步到位、直接开源。

大模型

领域大模型LLM训练Trick

问题一：进行领域大模型预训练应用哪些数据集比较好？

垂直训练大模型

动作识别模型有哪些

动作识别模型主要有： · TWO-STREAM CNN:网络顾名思义分为两个部分，一部分处理RGB图像，一部分处理光流图像。

动作识别模型

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

MaskGCT是一个两阶段模型：在第一阶段，模型使用文本预测从语音自监督学习（SSL）模型中提取的语义标记；在第二阶段，模型基于这些语义标记预测声学标记。

MaskGCT 声音克隆

StableDiffusion

StableDiffusion模型推荐系列（功能型）

前两天，我分享了SDXL的通用模型，这些模型不仅在生成高质量图像和艺术作品方面表现出色，搭配上LoRA模型还能在多个领域发挥重要作用，尤其是在平面设计与UI设计领域。

StableDiffusion 文生图

StableDiffusion

StableDiffusion模型推荐系列（全能型）

今天，我们要聊一聊AI绘画领域里的一个超有趣的话题：为什么Midjourney能用一个5.2模型轻松驾驭各种风格，而Stable Diffusion却需要我们切换无数个模型呢？

stablediffusion sd 文生图

厉害了，匹诺曹Pinokio！所有AI工具，一键安装，全部免费！整合AI绘画、AI视频、AI语音...

Pinokio，无脑一键部署主流AI模型项目！

AI绘画 AI视频 AI音乐

大模型量化：什么是模型量化，如何进行模型量化

What：什么是模型量化简单来说，模型量化（Model Quantization）就是通过某种方法将浮点模型转为定点模型。

大模型

[中文开源震撼首发]33B QLoRA大语言模型Anima真的太强大了！QLoRA技术可能是AI转折点！

我们开源了第一个中文QLoRA 33B大语言模型——Anima。

开源模型

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

内置HP2和HP3两个模型，HP3可能轻微漏伴奏但对主人声保留比HP2稍微好一丁点； 2、仅保留主人声：带和声的音频选这个，对主人声可能有削弱。

数字人声音克隆 GPT-SoVITS

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1