文章列表-AI魔法学院

文章列表

Ollama的本地化又一图形工具ChatOllama，让你轻松玩转ollama，ChatGPT

2.2.安装本项目有两种安装方式，这里是使用离线下载安装方式，另外还有docker安装方式。

ChatOllama 安装

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

呵呵，不是不支持就是发音像老外学中文多语言切换？

MeloTTS 语音工具

[中文开源震撼首发]33B QLoRA大语言模型Anima真的太强大了！QLoRA技术可能是AI转折点！

我们开源了第一个中文QLoRA 33B大语言模型——Anima。

开源模型

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

【进阶】-文生图术语解释

念咒提示词组合 (prompts) 施法/吟唱/t2i 文本转图像 (txt2img) i2i

文生图

国内厂商语音识别与Whisper评测：现状与概况对比

本文旨在通过对国内几家主要厂商的语音识别技术与 Whisper 技术进行评测和对比，以期更全面地了解国内语音识别技术的现状与概况。

语音识别 Faster-Whisper

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件

huggingface.co/guoyww/animatediff 如果无法下载，公众号回复 animatediff 获取下载链接，找到 mm_sd_v15_v2.ckpt 放到本地的目录中即可

动画视频 AnimateDiff

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

Stable Diffusion

Stable Diffusion图生图（真人转动漫）

一、简介今天给大家分享使用Stable Diffusion图生图进行真人转动漫，木木共使用了五种模型进行真人转动漫测试，重绘幅度在0.45~0.6之间，如果重绘幅度过大，会导致生成的图片偏离主体样貌

StableDiffusion 图生图

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

在当今数字化时代，文本转语音（TTS）技术的应用愈发广泛，从智能语音助手到有声读物，从无障碍服务到教育娱乐领域，都离不开高质量的语音合成。

OuteTTS-0.1-350M 音频

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

该框架包括用于常见工作流程的插件，例如语音活动检测和语音转文本。

voice agent 开源音视频

Stability AI开年首个大模型：专写代码，支持18种编程语言，上下文100K，苹果笔记本离线就能跑

Stable Code 3B可理解处理18种不同的编程语言，上下文长度100K token。

Stability AI 大模型

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件库

huggingface.co/guoyww/animatediff 如果无法下载，公众号回复 animatediff 获取下载链接，找到 mm_sd_v15_v2.ckpt 放到本地的目录中即可

动画视频 AnimateDiff

硬核Prompt赏析：HuggingGPT告诉你Prompt可以有多“工程”

，它让ChatGPT这样的LLM能够使用HuggingFace社区的各种模型（包括但不仅限于文生图、图生文、语音转文字、文字合成语音等），从而让LLM能驱动其他智能Agent，实现多模态能力。

提示词 prompt

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1