文章列表-AI魔法学院

文章列表

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

而且DALL-E 2比较难生成包含正确文本的图像，比如下面的"deep learning"：最主要的原因还是CLIP image embedding本身，通过对比学习训练的CLIP image embedding

Kandinsky-3 文生图开源模型

智谱AI静悄悄的上线了一大波新模型，过年了，真的

至于上线到智谱清言上面给普通消费者用，可能还得几天，我线上试了一下还都是老模型，毕竟模型太多了，这切换上去估计也费点时间。。。

智谱AI 大模型

用ComfyUI整了一套照片转Q版手办的工作流

这次在弄ComfyUI的时候本来用原生的，后来跟着教程学的时候很多插件没有，于是又按照了秋叶的集成版，直接解决了插件找不到的问题。

comfyui 文生图

如何避免大语言模型绕过知识库乱答的情况？LlamaIndex 原理与应用简介

在索引构建过程中，LlamaIndex 不会生成 Embedding，而是在查询时生成，这种设计避免了在索引构建期间为所有文本块生成 Embeddings，这可能会导致大量数据的开销。

大语言模型

[中文开源震撼首发]33B QLoRA大语言模型Anima真的太强大了！QLoRA技术可能是AI转折点！

chatbot评测集比较简单，真正比较考验模型能力的复杂逻辑推理及数学问题上小模型和大模型差距还是很明显的。

开源模型

耗时7天，终于把15种ControlNet模型搞明白了

的功能介绍，安装方法，模型采集方式，实操案例，以及下面几个目前很好玩的功能 1.动漫转真人 2.真人转动漫 3.控制人物姿势、表情 4.线稿AI上色 5.固定主角大家只要跟着一步一步操作，一定能学会

文生图

国内厂商语音识别与Whisper评测：现状与概况对比

一、语音识别现状二、评测意义与预期成果三、评测方案四、评测结果一、语音识别现状得益于近年来深度学习技术的快速发展，人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段

语音识别 Faster-Whisper

CodeGeeX：Tab一下，代码自动生成

我们对数据进行了去重和清洗，整个代码语料含有23种编程语言、总计1587亿个标识符（不含填充符）。

大模型

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

项目贡献开发者： o • 秦增一，麻省理工学院&MyShell o • 赵文亮，清华大学 o •

tts 文本转语音

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

BERT的核心思想是通过在大规模文本语料上进行无监督预训练，学习到通用的语言表示，然后将这些表示用于下游任务的微调。

Bert-vits 语音

Stable Diffusion

Stable Diffusion｜提示词高阶用法（二）双人同图

A4000显卡，SDWebUI原创生成仅用提示词 - 绘制多人图与上一篇分享一样，作者依旧将通过一个案例进行双人图撰写的说明，在这个案例中，作者将使用统一的SD参数配置，随机数种子，模型选择以及硬件环境

文生图

完全指南——使用python提取PDF中的文本信息（包括表格和图片OCR）

机器生成的pdf文件：这些pdf文件是在计算机上使用W3C技术(如HTML、CSS和Javascript)或其他软件(如Adobe Acrobat

大语言模型 python

9个范例带你入门langchain

ensp; 需要向LLM准确地传达我们的问题 1，短文本问答 # 概括来说，使用文档作为上下文进行QA系统的构建过程类似于

大模型

发现一个好东西，一键本地运行各种大模型！包括最新的Qwen1.5

软件目前完全免费，已经支持苹果的Mac M系列，微软的Windows系统，Linux系统。

Qwen1.5 大模型

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

而上传图片的限制，可能会让用户进行多次尝试——系统会校验图片像素大小、人脸清晰程度、非多人、版权风控、画风检测、不能有头部倾斜、露出手部等条件。

EMO 阿里全民演唱

<...66 67 68 697071 72 73 74 75 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1