文章列表-AI魔法学院

文章列表

Stable Diffusion

stable diffusion最全18种controlnet模型，详细教程讲解。

目前AIgc领域正在持续关注，等到年底的时候做一个最全面的视频和文字讲解，现在还是在等等，目前AI领域热度确实是在持续降温，但是呢，深入了解AI的人都知道，AI的发展不是想人一样需要很长时间的积累，有时候可能就是一个算法的突破

Stable Diffusion 文生图 controlnet

腾讯出品！开源AI数字人框架！号称可以不限时长

今天，介绍一个开源创新的虚拟人视频生成框架：MuseV MuseV是由腾讯音乐娱乐的天琴实验室开源，MuseV专注于生成高质量的虚拟人视频和口型同步，能够制作出具有高度一致性和自然表情的长视频内容

MuseV 视频数字人框架

被高估的Pika，被低估的多模态AI

例如，在医疗领域可以通过结合图像、录音和病历文本，提供更准确的诊断和治疗方案；在交通领域，结合图像和传感器数据，带来更智能、更安全的自动驾驶体验；在教育领域，将文本、声音、视频相结合，呈现更具互动性的教育内容

大模型多模态

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

动态表现力：通过上下文风格化的音频到运动模型（ICS-A2M），MimicTalk能够「捕捉和模仿目标人物的动态说话风格」，使生成的视频更加生动和富有表现力。

MimicTalk 开源模型

用so-vits-svc-4.1进行音色转换的极简教程

这里要求切割后的音频长度在5-15秒左右，不能太长或太短。

声音 sovits

用so-vits-svc-4.1进行音色转换的极简教程！

这里要求切割后的音频长度在5-15秒左右，不能太长或太短。

so-vits-svc 音色转换教程

RAG 2.0来了，它能成为生产落地的福音吗？

RAG 2.0方法就是克服这样的局部优化办法，通过将预训练、微调和对齐所有组件形成一个统一系统，通过反向传播同时优化语言模型和检索器，以最大化系统性能。

RAG 大模型

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

（LID）、语音情感识别（SER）和音频事件检测（AED）。

asr tts 声音

登顶的小熊猫模型出AI产品了！3步10秒出一张海报，可免费商用

操作上述简洁步骤，你将得到：平均10秒不到生成一张海报，文字部分几乎无差错，对没有海报制作经验的小白来说非常友好。

图形设计生成器文生图

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

这意味着它能够同时处理多个音频片段，大幅缩短了从语音到文本的转换时间。

Whisper 语音识别

苹果一次性开源了8个大模型！包含模型权重、训练日志和设置，OpenELM全面开源

同时升级计算机视觉工具包 CVNets 为 CoreNet！

OpenELM 大模型

开源免费离线语音识别神器whisper如何安装

whisper的日常用途 whisper的核心功能语音识别，对于学生党和工作党来说，可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿；对于影视爱好者，可以将无字幕的资源自动生成字幕，不用再苦苦等待各大字幕组的字幕资源

wisper 翻译免费

微软最强全自动数据可视化工具！现已开源

8.14，微软开源了之前已经发布的全自动数据可视化工具 LIDA。

大模型

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论~

的博客： https://www.datalearner.com/blog/1051696951947094 适合人类阅读的大模型输出速度单张显卡可以支撑的同时聊天人数

大模型

一文搞懂贝叶斯定理有什么用

在统计学里，长期以来，有频率学派和贝叶斯学派两大学派，他们互相鄙视对方，就像华山派的气宗与剑宗之争。

贝叶斯定理

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1