文章列表-AI魔法学院

文章列表

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

如果你有这样的困扰，那么你一定会对meta的开源AI模型seamless-communication感兴趣。

大模型开源模型语音

最强开源大模型Llama 3，在扎克伯格设想中其实是这样的

4、Llama 3模型之所以能够成为目前最强大的开源大模型，主要是因为这四大关键要素：模型架构、预训练数据、扩大预训练规模、指令微调。

Llama 3 大语言模型

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

LobeChat的开源，把AI功能集合到一起，真的太爽了。

AI开源集合

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

开源版妙鸭相机来了，无限出个人写真图（阿里达摩院出品）

FaceChain的模型由ModelScope开源模型社区提供支持。

妙鸭相机

最佳开源文生图大模型可图：安装与批量出图的完整教程

经过数十亿个文本图像对的训练，Kolors 在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面比开源和专有模型表现出显著优势。

可图 kolors

FaceFusion参数详解

（2.2）杂项参数（2.2.1）Skip Download ⚠️天朝网络必须得开（除非你的网络自动下载模型没问题）。

FaceFusion 文生图

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

目前，团队已将这一方法在GitHub上开源。

ControlNet

截至2023年5月份业界支持中文大语言模型开源总结及商用协议分析

目前，Flan-T5开源了很多个模型，最大的一个参数110亿。

大模型

只需四步就能构建自己的Agent！达摩院新开源框架小白也能用

开发者们可以参考上述教程很容易搭建属于自己的智能体，ModelScope-Agent 依托魔搭社区，未来会适配更多新增的开源大模型，推出更多应用。

大模型

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

一、什么是clone-voice clone-voice是一款免费开源的声音克隆工具，它凭借先进的人工智能技术，能够分析和模拟人类声音的特征，从而实现高质量的声音克隆.

clone-voice 声音克隆

Roop参数说明，ROOP->StyleGAN演示！

下面就挨个来介绍一下ROOP的参数。

视频 StyleGAN

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

StableDiffusion

StableDiffusion常用基础参数说明

图像总数是这个值乘以批次数。

文生图

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

<...11 12 13 141516 17 18 19 20 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1