呆呆鱼吃鱼

10:33 · 2024年11月6日 · 周三

一个可以从普通视频中还原出人物真实3D动作的项目：GVHMR，还原的动作自然流畅，非常接近现实中真实动作

速度很快，45秒视频0.28秒就能处理完，基本可以实时处理，像运动分析、虚拟试衣等的场景

这是浙大等开源的一个基于重力-视角坐标系的人体运动恢复方法，可以从单目视频中恢复出真实世界坐标系下的人体运动，重点是它能还原出整个运动轨迹

支持批量处理整个文件夹的视频

支持各种人体动作，比如走、跑、跳等，适合处理长视频

github：https://github.com/zju3dv/GVHMR

16:09 · 2024年10月31日 · 周四

英伟达等刚刚推出了用于人形机器人的多功能神经网络全身控制器：HOVER

它首次实现了用统一控制器来处理，像机器人的导航、步行操控和桌面操控等多种不同类型任务，还能模仿人类动作，它模拟一年的训练量，只需50分钟

它可以完成导航行走、物体操作、桌面作业、复杂动作的协调、人机交互任务等

可以无缝切换不同控制模式，支持全身运动模仿学习项目：https://hover-versatile-humanoid.github.io
论文：https://arxiv.org/abs/2410.21229

arXiv.org

HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots

Humanoid whole-body control requires adapting to diverse tasks such as navigation, loco-manipulation, and tabletop manipulation, each demanding a different mode of control. For example, navigation...

15:50 · 2024年10月31日 · 周四

一款轻量级、能在移动设备上实时运行的数字人模型：Ultralight-Digital-Human

需要准备一段3到5分钟的视频，视频中的人物需要全程露脸，声音清晰无噪音

项目提供了一个康辉老师的口播示例，整体看起来流畅自然，没有明显的卡顿

github：https://github.com/anliyuan/Ultralight-Digital-Human

GitHub

GitHub - anliyuan/Ultralight-Digital-Human: 一个超轻量级、可以在移动端实时运行的数字人模型

一个超轻量级、可以在移动端实时运行的数字人模型. Contribute to anliyuan/Ultralight-Digital-Human development by creating an account on GitHub.

15:49 · 2024年10月31日 · 周四

构建本地多智能体互联网研究助手
OpenAI Swarm + Ollama + Llama 3.2

利用 OpenAI Swarm 智能体框架, 结合 Ollama 本地推理 Llama 3.2 模型, 构建本地多智能体互联网研究助手, 共构建了三个智能体:
- Agent 1: 响应用户输入,
@DuckDuckGo
进行网络搜索
- Agent 2: 利用搜索内容进行研究分析
- Agent 3: 重组分析结果进行研究书写

项目技术栈:
-
@Ollama
本地 Llama 3.2 模型推理
-
@OpenAI
Swarm 多智能体编排框架
-
@Streamlit
前端界面

项目代码:https://github.com/patchy631/ai-engineering-hub/tree/main/openai-swarm-ollama

GitHub

ai-engineering-hub/openai-swarm-ollama at main · patchy631/ai-engineering-hub

In-depth tutorials on LLMs, RAGs and real-world AI agent applications. - patchy631/ai-engineering-hub

15:48 · 2024年10月31日 · 周四

Vue 的动效 UI 组件库也开始丰富起来了

对标 Magic UI 的 Spark UI https://404.li/spark-ui
对标 Aceternity UI 的 Inspira UI https://404.li/inspira-ui

还有国内开发者的 Stunning UI
https://www.stunningui.design/

spark-ui.dev

Spark UI

Experience The Magic Of Animated Components. Crafted With Vue, TypeScript, TailwindCss And Vueuse Motion ✨

09:37 · 2024年10月29日 · 周二

IC-Light V2: 基于 Flux 的图像重打光模型
IC-Light V2 是一系列基于 Flux 的 IC-Light 模型，专门用于操作图像中的打光效果。这些模型还是由 ControlNet 的作者开发，目前正处于 WIP（工作进行中）阶段，仅发布了前景条件模型。

11:30 · 2024年10月23日 · 周三

OpenAI满血版o1剧透：数学代码能力提升

OpenAI即将推出的满血版o1模型在数学和编码能力上表现出色，远超o1-preview和GPT-4o。目前，满血版o1正在进行测试评估，未来还将增加网页浏览、文件和图像上传等功能。

o1系列分为满血版o1、o1-preview和o1-mini，分别侧重于深度思考、预览功能和速度优化。尽管满血版o1整体表现优异，但在某些高难度任务上，o1-preview反而表现更好。

量子位

📮 热点投稿 @ZaiHuabot
京东淘宝无门槛红包 m.fanli.me

11:30 · 2024年10月23日 · 周三

Anthropic 发布 Claude 3.5 Sonnet 和 Claude 3.5 Haiku，推出计算机使用功能

Anthropic 发布了升级版 Claude 3.5 Sonnet 和全新模型 Claude 3.5 Haiku。Claude 3.5 Sonnet 在编码方面取得了显著进步，超越了所有公开模型。Claude 3.5 Haiku 则在许多评估中与 Claude 3 Opus 性能相当，但成本更低，速度与前一代 Haiku 相似。

同时，Anthropic 还推出了具有计算机使用能力的公测版，使 Claude 能够像人一样使用电脑，进行屏幕查看、光标移动、按钮点击和文本输入等操作。目前，该功能仍处于实验阶段，Asana、Canva 等公司已开始探索其应用。Claude 3.5 Sonnet 现已向所有用户开放，计算机使用测试版也已在 Anthropic API、Amazon Bedrock 和 Google Cloud’s Vertex AI 上线。Claude 3.5 Haiku 将于本月晚些时候发布。

Anthropic

📮 热点投稿 @ZaiHuabot
京东淘宝无门槛红包 m.fanli.me

15:57 · 2024年10月18日 · 周五

给大家分享一个可以提升部署在 cloudflare、vercel 或 netlify 的网页在中国的访问速度和稳定性

类似 http://vercel.cdn.yt-blog.top 的开源免费实现方案在这里了👇：
https://github.com/xingpingcn/enhanced-FaaS-in-China

原理和saas回源优选ip一样

image_2024-10-18_15-57-42.png

53.5 KB

15:28 · 2024年10月18日 · 周五

基于RAG的本地PDF对话工具：rag-chatbot

支持同时处理多个PDF输入
支持Huggingface和Ollama的任意模型
github：https://github.com/datvodinh/rag-chatbot

15:27 · 2024年10月18日 · 周五

这个Flux LoRA挺有意思，生成的图片中包含同一人物的4张图，以及相同形象的卡通人物。
模型地址：https://huggingface.co/Shakker-Labs/FLUX.1-dev-LoRA-One-Click-Creative-Template

15:44 · 2024年9月26日 · 周四

MIMO：AI换人
AI换脸是替换视频中的人脸，MIMO直接实现了AI换人，并且保持原视频中人物的动作。看演示视频，人物是有闪烁和动作不准的情况。阿里的项目，依旧是有Github但未开源。
项目地址：https://menyifang.github.io/projects/MIMO/index.html…

menyifang.github.io

MIMO

This paper targets to mimicking anyone anywhere with complex motions and object interactions.

15:41 · 2024年9月26日 · 周四

MIMO：AI换人
AI换脸是替换视频中的人脸，MIMO直接实现了AI换人，并且保持原视频中人物的动作。看演示视频，人物是有闪烁和动作不准的情况。阿里的项目，依旧是有Github但未开源。
项目地址：https://menyifang.github.io/projects/MIMO/index.html…

menyifang.github.io

MIMO

This paper targets to mimicking anyone anywhere with complex motions and object interactions.

15:35 · 2024年9月26日 · 周四

MIMO：AI换人
AI换脸是替换视频中的人脸，MIMO直接实现了AI换人，并且保持原视频中人物的动作。看演示视频，人物是有闪烁和动作不准的情况。阿里的项目，依旧是有Github但未开源。
项目地址：https://menyifang.github.io/projects/MIMO/index.html…

menyifang.github.io

MIMO

This paper targets to mimicking anyone anywhere with complex motions and object interactions.

14:54 · 2024年9月26日 · 周四

MIMO：AI换人
AI换脸是替换视频中的人脸，MIMO直接实现了AI换人，并且保持原视频中人物的动作。看演示视频，人物是有闪烁和动作不准的情况。阿里的项目，依旧是有Github但未开源。
项目地址：https://menyifang.github.io/projects/MIMO/index.html…

17:36 · 2024年9月20日 · 周五

可灵今天更新了 1.5 模型。

原生输出 1080P 视频，复杂提示词理解能力大幅提升。

我跑出了最近最牛批的一条视频，放到一般 3D 动画可能都没这么好。

提示词：镜头拉远，猛兽站起来，然后开始抬头咆哮，咆哮后开始下雨。

可灵甚至自己添加了怪兽咆哮施法的时候角发光，天色变暗的效果，太牛了。

16:48 · 2024年9月20日 · 周五

5 分钟上线 AI 社交卡片（promptor：云中江树），欢迎体验～

https://malette.art/workflow/ea8c659d77d5401…

上线步骤：
1. 在 https://malette.art 平台搭建社交卡片 comfyui 工作流： https://malette.art/comfyui/share/ ；d45e5f1d218a4555911e41b0298ee05e
2. 在 https://malette.art 上将工作流部署成 API ；
3. 完成 https://pic.x.com/3e0joamp8i

16:30 · 2024年9月20日 · 周五

周五软件分享

- GlazeWM（图一）：一个专门用于 Windows 的平铺式窗口管理器，类似于 i3，自动实现新窗口的平铺。https://github.com/glzr-io/glazewm

- Xnapper（图二）：一个截图美化的在线工具，可以为截图加各种边框。https://xnapper.com/app

- sisi：用自然语言搜索本地图像的命令行工具 https://github.com/frost-beta/sisi

更多软件 #科技爱好者周刊（第 318 期）https://ruanyifeng.com/blog/2024/09/weekly-issue-318.html…

科技爱好者周刊