文章列表-AI魔法学院

文章列表

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

当训练至 10 亿个词元时，单词知识和整体清晰度得到显著增强，模型能够生成更加准确、流畅且富有表现力的语音，类似青少年在语言能力上的快速提升。

OuteTTS-0.1-350M 音频

基于Ollama本地部署谷歌开源Gemma大模型！

论文内的性能如下图：好了，以上就是Gemma的简单介绍，有兴趣的小伙伴可以看下原文：传送门：https://blog.google/technology/developers

ollama gemma qwen

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

nbsp; Roadmap 以较小的文件体积稳定持续地录制屏幕只识别发生变化的画面，在数据库中存储索引完善的图形界面

Windrecorder 录屏

来个优秀的开源人脸识别项目！

InsightFace 的主要功能如下： 1. 2D 人脸识别：基于卷积神经网络（CNN）的人脸识别算法，可以对人脸图像进行特征提取和匹配，从而实现人脸识别。

人脸识别开源项目

数字人：从科幻走向现实的技术革命

创建数字人需要多方面的技术支持，包括计算机图形学、动作捕捉、语音合成以及人工智能算法等。

数字人语音

改进召回（Retrieval）和引入重排（Reranking）提升RAG架构下的LLM应用效果

基于 LLM 的检索工作原理简图在LLM开发中有一个原则就是尽可能的使用大模型的能力，LLM并不只是最后作答，在关键词增强，答案一致性判定等上面都可以使用，在这里就可以利用大模型来判定生成结果最合适的候选问答

大模型

【分享】SDXL模型最佳拍档！COMFY UI上手指南

如果遇见上图这种缺模块的情况，直接通过管理器安装缺失模块即可。

大模型

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论~

而成年人的平均阅读速度在每分钟200-300个单词之间，不过不同的人差别很大，下图展示了一些研究结论：可以看到，根据相关的研究，高中生的阅读速度是每分钟300个单词左右，而成年人在每分钟

大模型

如何将 GPT 幻觉发生率从 20% 以上降低到 2% 以下

我们做的第一件事是让 GPT 对用户查询的意图进行分类。

大模型

Giraffe：世界上第一个商业可用的32K长上下文开源LLM（基于Llama-2）

概述我们进行了各种各样的实验，试图延长模型的上下文长度。

开源模型

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

经过特别调优的 Mixtral 在 MT-Bench 上取得了 8.30 的高分，不仅成为 LMSys 排行榜上最优秀的开源模型，而且通常比像 Google (Gemini Pro) 这样的知名品牌更加出色

开源模型 Mixtral 8x7B

一文带你认识ELMo

分为以下三步：第一步：得到word embedding，即上图的E。

embedding

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

audio2photoreal的核心技术是基于深度学习的图像生成模型，它可以从音频中提取语音特征，然后用这些特征来控制人脸和身体的运动。

audio2photoreal 开源工具

ChatGPT提示工程5篇合集(一)：ChatGPT提示工程的两个关键原则 - 吴恩达和OpenAI合作（珍藏版）

这些标点符号可以是三个反引号、引号、XML标签、章节标题等，只要能够让模型明确地知道这是一个独立的部分即可。

prompt 提示词

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

这一功能已经集合进字节旗下即梦的视频生成模块内： AIbase上传了一张女孩的照片测试一下，即梦里面的对口型目前可以选择两种对口型方式： 1、文本朗读即梦的操作基本都很简单，只需要上传你要对口型的角色图片或视频

Loopy 视频

<...82 83 84 85 868788 89 90 91 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1