Open-Sora:高效的制作家用视频
Open-Sora开启视频制作新时代,以开源技术支持,让每个人都能轻松创作出高质量视频,激发创意潜力。
OOTDiffusion:一个虚拟服装试穿开源工具
OOTDiffusion是一个基于潜在扩散技术的虚拟试衣开源工具,由Xiao-i Research团队开发。它支持半身和全身两种试衣模式,能够根据不同性别和体型进行自动调整,甚至允许手动调整以适应个人需求。
Ollama:在本地运行Llama2、Gemma等多种大模型
Ollama,一个能够在本地轻松运行Llama2、Gemma等大模型的框架,突出了其简易安装、多模型支持和丰富生态等特点。
V-JEPA:由Meta AI研究团队开发的一种自监督学习方法
V-JEPA(Video Joint-Embedding Predictive Architecture)是由Meta AI研究团队开发的一种自监督学习方法,专门用于从视频中学习视觉表示。它通过预测视频中的特征表示进行训练,完全基于视频内容本身,无需人工标注或其他外部监督。
GPT-SoVITS:语音克隆技术项目
GPT-SoVITS是一个创新的语音克隆技术项目,它能够仅通过一分钟的声音录音克隆出相应的声音。这个开源项目不仅效率惊人,输出质量高,还支持零样本和少样本文本到语音(TTS)转换。
ChatGPT Crawler:一个开源的网页抓取工具
GPT Crawler是一个开源的网页抓取工具,旨在通过自动化配置帮助用户轻松收集网页文本信息,并生成文本文件。这些文件可用于上传至OpenAI,辅助构建自定义的AI Assistant,支持创建多种基于AI的集成应用。GPT Crawler的简便操作和灵活配置,使其成为数据收集和AI应用开发的理想选择。
Face-to-Sticker:把你的笑脸变成趣味贴纸
Face-to-Sticker,将个人笑脸或朋友搞怪表情轻松转换成个性化的贴纸和表情包。操作简单,乐趣无穷,不仅能够在社交圈中增加互动乐趣,还能通过售卖这些创意贴纸开启收益之门。
EMO(Emote Portrait Alive):生成会说话唱歌的 AI 视频
Emote Portrait Alive,基于音频驱动的AI模型能够让照片中的人物根据提供的音频内容进行动作和表情变化,创造出既真实又充满想象力的视频。EMO模型的核心技术是Audio2Video扩散模型,它通过处理音频嵌入和去噪生成与音频内容匹配的视频。
CodeFormer:基于深度学习的人脸修复工具
CodeFormer是一款基于深度学习的人脸修复工具,由南洋理工大学S-Lab团队开发。它能够清晰化模糊人脸、修复色彩失真,甚至去除照片马赛克,帮助用户恢复和保存珍贵的回忆。
BibiGPT:一键总结 & 对话,支持多平台
BibiGPT哔哔终结者是一款基于GPT-3.5架构的人工智能应用,专为提高信息处理效率而设计。它能够自动生成文本摘要、视频内容总结,并支持多语言翻译,适用于学习、内容创作、日常娱乐等多种场景。通过提供开发者API,BibiGPT也能够轻松集成到各类应用程序中,为用户提供快速、准确且便捷的服务。
VSP-LLM框架:高效的视觉语音处理
VSP-LLM框架——高效的视觉语音处理新方向
Whisper:把视频和语音文件转换成文字
Whisper项目允许用户轻松将语音和视频文件转换为文本,支持多种语言识别,无需高性能GPU即可在家用电脑上运行。通过简单的步骤,用户可以搭建自己的语音识别服务,为视频制作字幕、整理访谈记录等多种应用场景提供强大支持。