文章列表-AI魔法学院

文章列表

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

OpenAI则是用做“大”模型的思路做视频生成——准备足够大量的视频，用多模态模型给视频做标注，把不同格式的视频编码成统一的视觉块嵌入，然后用足够大的网络架构+足够大的训练批次（batch size）+ 足够强的算力

sora openai 视频生成

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

从国内外的网友分享反馈来看，大家还挺喜欢文艺复兴，最受欢迎的片段是让个路人马轮番演唱《野狼Disco》。

音频阿里

有感情的语音合成开源模型：ChatTTS安装使用详解

根据生成的语音效果来看，不比微软最近发布的晓晓差，甚至更好！

ChatTTS 语音合成

搭建程序员自己的在线工具库 it-tools

作为程序员，在日常工作中，需要借助一些工具来提高我们工作效率，鄙人日常用得最多的工具，有JSON格式化,SQL格式化,XML格式化,JSON转Execl等等。

开源项目工具类

从零开始学习大模型-第一章-大模型简介

大模型的简介大模型（Large Models），是指在人工智能领域，特别是在自然语言处理（NLP）和机器学习中，指的是那些拥有大量参数的深度学习模型。

大模型从零开始

2023年人工智能行业总结（精简版）

ChatGPT的出现创下了用户最快增长纪录，这主要得益于人工调教和大模型的涌现现象。

人工智能行业总结

CodeGeeX2来了!效果超LLaMA2-70B

得益于ChatGLM2优秀特性，CodeGeeX2更好支持中英文输入，支持最大 8192 序列长度，推理速度较一代 CodeGeeX-13B 大幅提升，量化后仅需6GB显存即可运行，支持轻量级本地化部署

CodeGeeX2 开源模型

耗时7天，终于把15种ControlNet模型搞明白了

——让出的图与我们脑海里想象的画面一致但目前现状是：随机性太强很多时候能不能出来一个好看的画面，只能通过大量的「抽卡」实现，以数量去对冲概率这种情况下，如果能用好控制出图的三个最关键因素，能让

文生图

【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision

我们在30个不同类型的下游CV 任务上进行了基准测试，并展示了我们模型强大的迁移能力，其在很多下游任务上不需要任何额外的数据也能比拟完全supervised的模型。

OpenAI 自然语言监督

【语音识别】OpenAI语音力作Whisper

在68万小时标注数据的加持下，预训练 Whisper 模型表现出了强大的泛化到多种数据集和领域的能力。

语音转文字 whisper

AI提示词|一词千金，写提示词的这个技巧你一定没想到！(二）

动词的使用：在制定提示时使用特定的动词（如“解释”、“重新诠释”、“简化”等）可以更精确地指导AI的输出。

提示词写作

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

MiniCPM 系列模型，包括四个模型： · OCR 能力惊艳，当前端侧最强多模态模型

MiniCPM 大模型

LangChain Agent 原理解析

虽然 LLM 在语言理解和交互决策制定方面展现出了令人印象深刻的能力，但它们的推理（例如链式思考提示）和行动（例如行动计划生成）的能力主要被视为两个独立的主题。

大模型

造梦师手记：SDXL迎来了AI插画师

使用指南（将与时俱进）推荐使用 ComfyUI 生成图像。

文生图漫画

Stable Diffusion

Stable Diffusion 30种采样器全解！

o Euler：ODM求解器，简单直接，可收敛——能产生最终稳定图像。

Stable Diffusion采样器

<...64 65 66 676869 70 71 72 73 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1