文章列表-AI魔法学院

文章列表

语音、视频转文字神器：开源whisper介绍

下图展示了使用large-v2模型对Fleurs数据集进行的WER（词误率）语言拆解。

人工智能大模型 wisper

Stable Diffusion

Stable Diffusion 必装插件查缺补漏，你还有哪个没装？(下）

安装完成后上传一张图像，然后选择一个反推模型（一般使用 wd14-vit-v2.git ），点击 Interregats 进行反推，就能得到关于图像的一组提示，并显示每个关键词的相关性权重。

文生图 Stable Diffusion

大模型高效微调：🤗 PEFT 使用案例

✅ Deberta-v2

大模型

回望做大模型一年后的感悟

大模型应该分为两类，一类是从头开始训练的基础模型，比如：Yi、QWen、Baichuan、ChatGLM、DeepSeek等等；另一类是continue pretraining和sft类别的模型。

大模型感悟

微调、训练大模型概念介绍及论文笔记：Tuning系列论文笔记

P-tuning不改变预训练阶段模型参数，而是通过微调寻找更好的连续prompt提示，来引导已学习到的知识的使用；Fine-tuning可能在调整模型参数过程中，可能带来了灾难性遗忘问题提示微调v2

训练微调

AI绘画 | Midjourney高质量肖像提示词的写法（附50+肖像提示词prompt）

一、逼真肖像提示词的注意事项 1.确保使用 -v 5 以上模型大家都知道Midjourney的模型从V2-V5，生成的图像质量也越来越高，目前最新版本是V5.2,真正在逼真度上有质的飞跃的是从V5

文生图

大模型实践总结

P-Tuning v2：让Prompt Tuning能够在不同参数规模的预训练模型、针对不同下游任务的结果上都达到匹敌Fine-tuning的结果。

大模型训练

所有生命分子一夜皆可AI预测！AlphaFold 3改变人类对生命的理解，全球科学家都能免费使用

§ 为了避免扩散方法在一些无结构区域产生幻觉，还引入了一种新的交叉蒸馏方法，通过AlphaFold-Multimer v2预测的结构数据来丰富训练数据。

AlphaFold 3 蛋白预测

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

seamless-communication是基于神经网络的模型，它使用了多种技术，融合了SeamlessM4T v2 多语言性、SeamlessStreaming 的低延迟性、 SeamlessExpressive

大模型开源模型语音

腾讯开源混元AI绘画大模型

(Optional) Install flash attention v2 for acceleration (requires CUDA 11.6 or above) python -m

腾讯混元文生图

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

install pydantic<2 coqui-ai TTS语音克隆模型配置随后下载2.0版本的模型，下载地址： https://huggingface.co/coqui/XTTS-v2

coqui-ai TTS 语音

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

因此，作者选择了 DINO-V2 作为 ID 提取器的底座，使用单个线性层将 ID 提取器的 token 对齐到预训练的文本到图像的 UNet 中。

Anydoor 文生图

7.1k Star！RAGFlow：最新开源OCR+深度文档理解的RAG引擎、大海捞针测试、降低幻觉、服务化API集成进业务！

o o • 2024-05-08 集成大模型 DeepSeek o o • 2024-04

OCR RAG 开源

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

很熟悉的感觉吧，很像tfidf，也跟RetroMAE-V2的第二部分特征很相似，这部分特征更在意文本中各个token的信息，重要的token就赋予更高的权重。

BGE M3-Embedding 多语音检索

Langchain中改进RAG能力的3种常用的扩展查询方法

StrOutputParserimport numpy as np cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2

检索增强生成 Langchain

<1 2 345 6 7 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1