文章列表-AI魔法学院

文章列表

精通百种语言的翻译AI来了！Meta推出，免费、开源！

这个模型可以实现近101种语言之间的文本、音频、视频等多种形式的翻译，而且只需要一个模型就可以完成所有任务。

大语言模型

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

音色一:男音色-铿锵有力效果展示这是我经过挑选后男音对应的数据供768维。

chattts tts 文生语音

零一万物API开放平台出场！通用Chat多模态通通开放，还有200K超长上下文版本

3月，国内外模型公司动作频频。

零一万物 YI 李开复

2023年人工智能行业总结

年底谷歌发布了多模态大模型Gemini，可以理解文字、图片、代码和音视频。

人工智能 AGI 思考总结

AI绘画Stable-Diffusion风格化实战

在社交软件和短视频平台上，我们时常能看到各种特色鲜明的视觉效果，比如卡通化的图片和中国风的视频剪辑。

Stable-Diffusion 文生图

如何免费打造自己的数字人主播：StableDiffusion插件SadTalker打造本地数字人主播

Sadtalker是一个能够根据图片和音频生成视频的开源项目，它使用了一种叫做SadNet的神经网络，可以实现风格化的单图说话人脸动画。

数字人

硬核Prompt赏析：HuggingGPT告诉你Prompt可以有多“工程”

2303.17580.pdf HuggingGPT是近期非常火热的Agents方向的一个代表，它让ChatGPT这样的LLM能够使用HuggingFace社区的各种模型（包括但不仅限于文生图、图生文、语音转文字

提示词 prompt

你的下一个浏览器，可以是豆包电脑版！

万万没想到，现在看B站视频的打开方式，竟然可以这么AI了。

豆包浏览器

把ChatGPT装进二次元手办，你来吗？AI桌面机器人众筹

蓝牙音箱，语音控制小度丝滑流畅。

ai小车 esp32 开源

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

24年的第一个月，智源就发布了新一代text embedding模型BGE M3-Embedding，该模型支持超过100种语言，能够接受不同形式的文本输入，文本最大输入长度扩展到4192，并且支持包括稠密检索，稀疏检索，多向量检索三种不同检索手段。从实验结果上看，在多语言跟跨语种检索任务上，BGE M3-Embedding的效果超过之前提及的微软E5-mistral-7b微软E5-mistral-7b-instruct: 站在LLM肩膀上的text embedding以及openai去年底刚发布的第三代text embedding模型，对于长文本检 ...

BGE M3-Embedding 多语音检索

划重点！全网最全AI数字人工具合集！

· 选择语音：输入文字或录制语音，让数字人“说出”你想让他/她表达的内容。

AI 数字人

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

语音处理（Audio)：语音处理指机器从大量的语音数据中提取语音特征，学习和发现其中蕴含的规律的过程。

开源

3 个令人惊艳的 GitHub 开源项目，诞生了！

AI 实现视频自动剪切近几年，短视频的风口一直在持续，各大社交网站也都针对短视频流量进行大力扶持。

开源模型

GitHub星数暴涨，AIPC的开源实现，用AI记录电脑一整天的使用太简单了，功能非常多！

Screenpipe 使用 Rust 语言开发，并提供灵活的插件系统，可与 Ollama 等工具协同工作，适用于从屏幕和音频数据中获取实时分析的需求。

AIPC ScreenPipe 开源

StableDiffusion

AI绘画由入门到精通：StableDiffusion精讲课程

学会SD之后可以画图、抠背景、制作商品展示图、制作建筑图、做Logo以及图标、做宣传画，甚至可以换脸、写真、做动画视频等。

SD 视频课程 AI绘画

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1