文章列表-AI魔法学院

文章列表

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

用户可以选择适合他们个人偏好或特定场景的声音，从而实现个性化的沟通体验。

AI开源集合

解读 | SuperCLUE 2023年9月全面测评大模型四大能力

这表明这些模型在工具使用和任务规划两个关键能力上表现优秀，拥有类似贾维斯等科幻电影中人类超级助手的潜力，可以根据需求自主完成任务。

大模型方法论

改进召回（Retrieval）和引入重排（Reranking）提升RAG架构下的LLM应用效果

对于那些不熟悉《the Great Gatsby》的人来说，叙述者后来从Gatsby那里发现，开车的其实是Daisy，但Gatsby替她背了黑锅。

大模型

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

第二部分蒸馏损失，研究人员将三种不同方式的相似度得分进行加权求和作为teacher分数，然后让三种相似度得分去学习teacher得分的信息，由此得到3个蒸馏损失。

BGE M3-Embedding 多语音检索

AI绘画：两组赛博咒语和ComfyUI使用方法！

这一点比sdw要人性化很多。

文生图

7个有用的Prompt参数

ChatGPT和Midjournal使得生成式人工智能的应用程序激增。

prompt

Stable Diffusion

用 Stable Diffusion 10分钟实现电商模特换装/换模特

如今，服装可以穿在任何人身上，甚至塑料模特身上。

Stable Diffusion 文生图

ComfyUI，你开启XL钥匙打开了新世界

可以选择的新世界至于很多人跟我一样，觉得密密麻麻有如电路板一样的操作界面太劝退了，我这两天在学习的过程中思考了一下，我准备之后的文章都会提供2套思路，分别是： 1.🤔

ComfyUI 大模型

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

款模型语音克隆--效果展示案例2: 萝莉语音克隆-5款模型语音克隆-带数字文本-效果展示案例3: 萝莉语音克隆-5款模型语音克隆-长文本-效果展示案例4: 中文动漫人物语言克隆

语音克隆开源模型

什么是GPTs！如何创建自己的第一个GPTs？

这里面有三个选项： Only me (自己使用) Only people with a link (通过链接分享给他人) Public (发布给公众使用) 创建完成后我们测试一下

大模型应用 chatgpt

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

20 个提升您设计水平的DALLE-3提示词

翻译提示：“为儿童读物创作一幅插图，其中包含[特定人物或场景，例如‘森林里一只会说话的兔子’]。”

提示词 DALLE

长窗口大战要终结了？谷歌魔改Transformer，推出了“无限注意力”

谷歌的研究人员，引入了压缩记忆，保存了了完整的上下文记录。

大模型上下文

Fastwhisper + Pyannote 实现 ASR + 说话者识别

我们随着整个业务的拓张会发现跟阿里云有非常紧密的联系因为刚开始伟光在介绍的时候也讲阿里云也是阿里巴巴的云所以这个过程中一会儿也可以稍微展开跟大家讲一下我们跟云是怎么一路走来的 SPEAKER_04[35.70s -> 62.40s] 其实的确的话就对我们互联网公司来说如果不能够问当地的人口的话我想我们可能整个的就失去了后边所有的动力不知道你们各位怎么看就是我们最大的这个问题是不是效率优先

faster-whisper 语者识别 ASR

Qwen7b微调保姆级教程

在多轮对话模式下,我们按照如下格式构造包括多轮对话中所有机器人回复内容的标签。

Qwen7b 大模型

<...79 80 81 828384 85 86 87 88 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1