文章列表-AI魔法学院

文章列表

体验完阿里的EMO模型，我emo了

，这是一种让画面人物的口型与所配的语音或文字信息精确匹配的技术。

EMO 文生图

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

2023年人工智能行业总结

年底谷歌发布了多模态大模型Gemini，可以理解文字、图片、代码和音视频。

人工智能 AGI 思考总结

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

精通百种语言的翻译AI来了！Meta推出，免费、开源！

这个模型可以实现近101种语言之间的文本、音频、视频等多种形式的翻译，而且只需要一个模型就可以完成所有任务。

大语言模型

开源即巅峰！微软VibeVoice 7B模型：跨语言、多说话人、长文本一次到位

这一功能使得生成的音频更加接近真实的对话场景，每个说话者的声音特征和语调都能被准确地捕捉和再现。

VibeVoice 7B 语音

详解 Diffusion (扩散) 模型

目前，它们主要用于图像和音频生成。

Diffusion 开源模型

3 个令人惊艳的 GitHub 开源项目，诞生了！

AI 实现视频自动剪切近几年，短视频的风口一直在持续，各大社交网站也都针对短视频流量进行大力扶持。

开源模型

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

揭秘数字人困境：代理商亏钱、直播屡被封、刘润也不用了

做短视频是数字人最大用处吗？

数字人

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

例如，CNNs可以从语音频谱图中提取出关键的声学特征，而Transformer模型则可以对长文本进行深入理解，从而实现准确的情感分析和语音合成。

Westlake -Omni 语音

划重点！全网最全AI数字人工具合集！

· 编辑视频：添加各种特效、背景音乐、字幕，让视频更富有看点。

AI 数字人

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

用户可以上传各种类型的文件，包括文档、图片、音频和视频，同时还可以创建知识库，方便用户管理和搜索文件，还可以在对话中使用文件和知识库功能。

AI开源集合

只需四步就能构建自己的Agent！达摩院新开源框架小白也能用

写一篇关于Vision Pro VR眼镜的20字宣传文案，并用女声读出来，同时生成个视频看看。

大模型

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

短视频内容分类解析短视频语义进行场景分类 video-detecction 视频检测对视频信息进行内容解析

开源

<...8 9 10 111213 14 15 16 17 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1