文章列表-AI魔法学院

文章列表

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

今天给大家同时展示5款(Fish、F5、GPT、CosyVoice、MaskGCT)爆火的语音克隆-文本合成的效果展示。

语音克隆开源模型

4K star！录屏好帮手，超酷的实时按键显示工具

今天我就帮你找到了一个好用的工具，它开源免费效果还超酷，帮你完成实时可视化键盘按键的效果，它就是：Keyviz。

Keyviz 录频

大厂都在用的结构化Prompt，把写提示词变成填空题！

最近在做关于AI的一些项目，在过程中发现一些同学依然用不好ChatGPT，主要卡在Prompt的撰写这一步。

prompt 大模型

剪映克隆声音功能详解：剪映上线5秒“AI克隆音色”，一堆AI公司又要进入慢性死亡了...

这步操作可能会跟大家想象的不太一样。

剪映声音克隆

动作识别模型有哪些

two-stream方法很大的一个弊端就是不能对长时间的视频进行建模，只能对连续的几帧视频提取temporal context。

动作识别模型

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

2023年人工智能行业总结

年底谷歌发布了多模态大模型Gemini，可以理解文字、图片、代码和音视频。

人工智能 AGI 思考总结

胎教级SO-VITS-SVC使用教程：人工智能生成歌曲

本地环境搭建 python = 3.10 pip = 22.3.1 pytorch = 1.3.1 不同系统装python环境参考以下blog 一网成擒全端涵盖，在不同架构(Intel x86

音乐

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

另外，数字人短视频和直播的搭建页面和使用方法几乎是相同的，只需要选择数字人和AI语音，选择场景和贴图，拖拖拽拽布局好，点击生成就能出片，减少额外的学习成本。

数字人数字分身

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

LiveKit 支持语音、视频和数据流处理，内置了自动语音识别（ASR）和文本转语音（TTS）功能，简化了语音到文本和文本到语音的转换过程。

GPT-4o 语音交互

3 个令人惊艳的 GitHub 开源项目，诞生了！

各种 AI 工具层出不穷，无数网友惊叹技术进步之快。

开源模型

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

短视频内容分类解析短视频语义进行场景分类 video-detecction 视频检测对视频信息进行内容解析

开源

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

<...9 10 11 121314 15 16 17 18 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1