文章列表-AI魔法学院

文章列表

开源免费离线语音识别神器whisper如何安装

whisper的日常用途 whisper的核心功能语音识别，对于学生党和工作党来说，可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿；对于影视爱好者，可以将无字幕的资源自动生成字幕，不用再苦苦等待各大字幕组的字幕资源

wisper 翻译免费

AI知识库总是不准？教你无脑用GPT整理结构化数据集...

Langchain-ChatGLM的架构图，加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本作为上下文和问题一起添加到

GPT

LlamaIndex的QueryPipeline在实现RAG应用后，Agent应用也可以实现了（附开发示例）

整个执行过程分为四步： a）获取Agent输入b）利用ReAct Prompt 调用 LLM 生成下一个操作/工具（或返回响应）。

Agent QueryPipeline 大模型

AI面部增强器-Remini

Remini可以在工作狗官网-AI导航，AI画像分类里找到访问入口。

Remini 面部增强修复文生图

Stable Diffusion

Stable Diffusion生成卡通证件照

高分辨率修复（从 616x768到1232x1536）：放大算法 4x-UltraSharp，重绘幅度 0.2，其他默认配置以上即为本期Stable Diffusion生成卡通证件照的操作流程

Stable Diffusion

会“追问”的Agent，大模型知识库另类实践

基于交互的严肃性，应用输出内容必须能够达到100%的准确，尤其是在针对政策类、法规类和操作手册类文档。

大模型

AI生成卡通人物项目|VToonify

所得到的完全卷积架构接受大小可变的视频中的非对齐面部作为输入，为输出的自然动作提供了完整的面部区域。

AI生成卡通人物 VToonify

为你推荐开源项目：Meridian——专属个人情报站！

14, 2025：US Reverses Tech Tariff Exemption Amid Deadly Sumy Strike & Gaza Hospital Hit 开发流程与AI协作

Meridian 开源项目

pdf2htmlEX：效果相当好的一个PDF转HTML程序，和原始PDF几乎一模一样。

Chrome渲染PDF，再导出成HTML，甚至图片都转成了 base64 字符，所以一个网页就可以包含完整的文本、字体和图片等内容这是我的 pdf2htmlEX 分支，旨在允许开放协作以帮助保持项目活跃

PDF转换

阿里AI黑科技大揭秘：从通义千问到FaceChain，让图片和视频焕发新生！

阿里动作太过频繁，就我的脑海回忆，推出了挺多东西的，效果还都不错，今天盘点下都有哪些。

阿里云视频音频

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

model, mel, options) print(result.text) 程序返回： Erwin_0.wav|Erwin|ZH|如果这个作战顺利

Whisper 语音优化

QWen1.5: 卓越模型之路

我们相信多语言能力的提升，对于其整体通用能力也具有正向的作用。

Qwen1.5 开源模型

LangChain Agent原理介绍

the action to take, should be one of [Calculator, Search] Action Input: the input to the action # 动作的输入

langchain

什么是BERT？

为了完成具体的分类任务，除了单词的token之外，作者还在输入的每一个序列开头都插入特定的分类token（[CLS]），该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用

embedding

如何从零开始训练专属 LoRA 模型？4600字总结送给你！

方法二：删除部分特征标签比如训练某个特定角色，要保留蓝眼睛作为其自带特征，那么就要将 blue eyes 标签删除，以防止将基础模型中的 blue eyes 引导到训练的 LoRA 上。

训练

<...84 85 86 878889 90 91 92 93 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1