文章列表-AI魔法学院

文章列表

国内厂商语音识别与Whisper评测：现状与概况对比

一、语音识别现状二、评测意义与预期成果三、评测方案四、评测结果一、语音识别现状得益于近年来深度学习技术的快速发展，人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段

语音识别 Faster-Whisper

【本地部署】智谱chatglm3-6B第三代！性能如何？支持调用tools+Agent+代码执行！小白教程！附网盘下载！

瞄向GPT-4V的技术升级：瞄向GPT-4V，ChatGLM3 本次实现了若干全新功能的迭代升级，包括：多模态理解能力的CogVLM，看图识语义，在10余个国际标准图文评测数据集上取得SOTA；

chatglm 智普大模型

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

十篇高质量的AI-Agents相关论文，让AI教你认识AI-Agents

我的下一篇将围绕《LLM Powered Autonomous Agents》进行深度解读，并建立相关联的知识体系与在知识库，也将成为一个开源可索引的关于超级个体与AI-Agent的高质量知识库。

开源模型

全球生成式 AI 应用全景图

生成式 AI 应用按应用领域可以分为工具型应用、通用软件、行业软件、智能硬件四大类，从产品形态上将沿着AIGC（内容生成）、Copilot（智能助手）、Insight（知识洞察

大模型

吴恩达Prompt教程之总结图解

本篇文章是前几篇文章的总结，一图胜千言，所以用如下的思维导图将吴恩达老师Prompt教程进行了梳理。

prompt 教程吴恩达

Stable Diffusion

Stable Diffusion ControlNet：Reference“垫图”功能，不炼丹也能保持同一人物

+attn：仅参考输入图，自适应实例规范+Attention链接 reference_only：仅参考输入图，今天主要讲这个预处理器。

文生图

图片拖拽神器DragGAN介绍及官方安装文档说明

拖放图像编辑是一项功能强大的技术，它涉及训练生成模型来根据用户提供的指令转换图像。

开源

扣子更新图像流功能，字节版 ComfyUI 来了！

用户无需编程基础，即可通过创建节点的方式，搭建工作流，轻松部署使用复杂的 Stable Diffusion.如果你是研究 AI 生图的朋友，却不知道 ComfyUI，那就好比 Agent

ComfyUI 图像流文生图

再也不用担心 AI 图片脸崩手崩了

接着回到 WebUI 文生图或图生图的界面，就可以看见 ADetailer 出现在列表中啦。

ADetailer 安装文生图

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

金融行业的开源AI大模型

而行业大模型，就像专业的本科生、研究生、博士生或者是行业从业人员，对自己领域的知识能够快速理解，对业务能够迅速处理。

开源大模型

一张图看懂IT人的江湖地位

一张图看懂IT人的江湖地位

工作

AI赋能实验室：儿童绘本插图

含义解析：此幻想艺术的儿童插图风格，描绘出一个充满好奇心和顽皮举止的动物角色，将要在一个活力四溢而又神秘的场所开启它的冒险旅程。

插画文生图

Stable Diffusion

深入浅出学习Stable diffusion之线稿转效果图

，T站，吐司首先看一下成果：这是一个白膜图，当然你手绘也可以，以下以专业的景观设计方向为参考：然后两秒出图：当然这里还没有怎么调节VAE，多次尝试滤镜将达到更好的效果

Stable Diffusion 文生图大模型

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1