文章列表-AI魔法学院

文章列表

开源免费离线语音识别神器whisper如何安装

whisper的日常用途 whisper的核心功能语音识别，对于学生党和工作党来说，可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿；对于影视爱好者，可以将无字幕的资源自动生成字幕，不用再苦苦等待各大字幕组的字幕资源

wisper 翻译免费

LLM大模型推理输出生成方式总结

参数设置：do_sample = False, num_beams>1 缺点：虽然结果比贪心搜索更流畅，但是仍然存在生成重复的问题 Multinomial sampling（多项式采样）方式

大模型

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

音乐可能是最具挑战性的音频类型，因为它由局部和长程模式组成，从一系列音符到具有多种乐器的全局音乐结构。

开源模型

中文LLaMA-2基座模型和Alpaca-2指令精调大模型-中文LLaMA-2以及Alpaca-2系列模型

词表扩展了中文字词（LLaMA：49953，Alpaca：49954），以期进一步提升模型对中文文本的编解码效率在本项目中，我们重新设计了新词表（大小：55296），进一步提升了中文字词的覆盖程度

大模型

SDXL风格插件，超越Midjourney的时刻来了

我在研究模型的时候，发现很多严肃的SD模型创作者都逐渐有一个困惑：模型层出不穷，却同质化严重，有没有一种可能，可以整合所有的大模型，就靠一个模型出图？

SDXL

构建开源多模态RAG系统

在这个新的冒险中，我们将深入研究使用开源大型语言多模态（LLMM）构建检索增强型生成（RAG）系统的过程。

RAG 大模型

Dynamic Prompts插件，魔法提示词由魔法帮你补全（插件篇）

怎么操作这个插件功能很多，基础功能不需要单独或者后台下载模型，装好就能用；我们需要的魔法功能在后面，我们逐一介绍下去，着急的可以跳过。

文生图提示词

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

这样，模型就可以学习到更准确和更流畅的翻译方式，而不需要有真实的双语言的语音数据集。

Translatotron 语音识别

阿里AI黑科技大揭秘：从通义千问到FaceChain，让图片和视频焕发新生！

阿里动作太过频繁，就我的脑海回忆，推出了挺多东西的，效果还都不错，今天盘点下都有哪些。

阿里云视频音频

Fastwhisper + Pyannote 实现 ASR + 说话者识别

github.com/SYSTRAN/faster-whisper 二、pyannote.audio介绍 pyannote.audio是一个用Python编写的用于扬声器diarization的开源工具包

faster-whisper 语者识别 ASR

最强开源数字人对口型系统介绍

使用过原版开源的Wav2Lip的都知道，原作者使用分辨率很低的图像数据集训练的模型，嘴部特别清晰，基本没啥价值，但是这个框架和算法倒是不错，如果想得到高清模型，得付出相当大的精力去收集高清数据集从头训练

数字人开源模型

从零开始用LangChain、Pinecone和LLMs搭建你自己的文档问答系统

一、简介今天我们将深入探讨使用LangChain和Pinecone创建基于文档的问答系统的过程，利用最新的大文本语言模型（LLMs），如OpenAI GPT-4和ChatGPT。

知识库 langchain

无显卡+纯本地跑Qwen1.5版模型！0基础闭眼部署指南！适用绝大部分开源模型！llama2+Mistral+Zephyr通杀！

点击下方小程序申请加入！

Qwen1.5 开源模型

一文汇总大语言模型LLM所有prompt提示词框架的论文出处

从最小到最多）：https://arxiv.org/abs/2205.10625 - Step Back（后退提示）：https://arxiv.org/abs/2310.06117 - ART（自动推理和工具使用

prompt 提示词

Stable Diffusion

深入浅出学习Stable diffusion之线稿转效果图

模型类型：我们要知道现在的集中主要流行模型。

Stable Diffusion 文生图大模型

<...84 85 86 878889 90 91 92 93 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1