![Yisu Zhou Profile](https://pbs.twimg.com/profile_images/1025581034463670272/W5Dk_f0p_x96.jpg)
Yisu Zhou
@makzhou
Followers
897
Following
6K
Statuses
5K
Assoc. Prof of edu & sociology at @UM_1981. Focusing on the greater China and comparative ed. Tweeting about politics, data analytics, sci-fi, & spurs bball
Macau & Shanghai
Joined March 2007
RT @andrewbatson: The Great Transformation, Odd Arne Westad and Chen Jian's new book on the pivotal decade of the 1970s in China, has gotte…
0
113
0
GEMINI 上一代模型分析油管视频就很好了!
一句话提示词:如何让 AI 帮你解析视频 今天看到 OpenAI 发的新广告视频,虽然看着挺酷,但我一开始是没看太懂的,但又不好意思装懂,就发给 AI,让它帮我解析一下,先看看这解析的结果: *** 这个视频是 OpenAI 的新视频,名为 “What do you want to create next?”。 视频从一个简单的黑点开始,逐渐演变成由小圆点组成的像素化图像。这些图像以黑白两色呈现,展示了各种不同的事物: 视频中出现的图像包括: - 圆点逐渐增加,从一个点变成四个点,然后变成更多点组成的正方形。 - 由圆点组成的像素人像,展示了举重、跑步等动作。 - 进一步展示了由圆点构成的城市天际线、汽车、骑马的人、树叶、山脉等更复杂的图像。 - 画面利用圆点呈现出 3D 透视效果。 - 黑底白点的负片人脸图像。 - 由圆点构成的骷髅骨架。 - 抽象的形状,DNA 双螺旋结构,以及弯曲的表面。 - 两个像素小人相遇的场景。 - 一个人坐在桌子前使用电脑的画面。 - 地球和电脑被线条连接起来的图像,象征互联网连接。 - 电路板的图像。 - 声音波形图标。 视频的末尾,画面由白色背景转为黑色背景,并显示了白色文字 “All progress has a starting point.” (所有进步都有一个起点)。最终,视频展示了 OpenAI 的标志和 ChatGPT 的标志。 在音频方面,背景音乐贯穿始终,视频中穿插了一些语音片段,包括: - “We are live on TV mom.” (妈妈,我们在电视直播!) - “That's one small step for a man.” (这是个人的一小步) - “What do you want to create next?” (你接下来想创造什么?) 总的来说,这个视频通过 “圆点” 这一简单的元素,展示了从无到有,从简单到复杂的创作过程。视频寓意着 OpenAI 和 ChatGPT 等强大工具,都是从最基本的元素开始构建,并鼓励用户利用这些工具去创造 “接下来” 的无限可能。视频结尾的提问 “What do you want to create next?”,是对所有用户发出邀请,激发大家利用 OpenAI 的技术进行创新和创作。 *** 那么如何借助 AI 解析视频? 用 AI 解析视频,这个难点不在于写提示词,而是在于选合适的模型,普通的语言模型只支持文本,多模态模型通常只支持文本和图片,真正能理解视频并且做的比较好的还得是 Google 的 Gemini,GPT-4o 号称是支持视频,但是通过 ChatGPT 并不能直接解析视频内容,Claude 3.5 Sonnet 只支持文本和图像。 但 Gemini 能直接利用自身的多模态能力理解视频。比如上面的内容就是 Gemini 解析的结果,提示词只有一句话: > 请解读一下 OpenAI 的新视频 What do you want to create next? 不过 Gemini 的问题是访问不容易,要么用官方 Gemini 的 App,要么用 Google 的 AIStudio, Google AIStudio 是免费的,通过网址 aistudio .google. com 就能访问,不过对访问的 IP 有限制,国内无法直接访问。 如果你能访问 AIStudio 的话,可以从左侧选择 “Create Prompt”,然后上传视频,输入提示词,在右边选择模型“Gemini 2.0 Flash Thinking Experimental 01-21”,点击“Run”按钮就可以开始生成。 我测试了一下,虽然 Gemini 2.0 Pro/Gemini 2.0 Flash 都可以理解视频,但还是 “Gemini 2.0 Flash Thinking” 的效果最好,毕竟这是类似于 DeepSeek R1 一��的推理模型。 如果你对多模态的原理有兴趣或者想寻找其他开源替代,建议看看《Multimodal Large Language Models (MLLMs) transforming Computer Vision》这篇文章
0
0
1
RT @SpursCulture: Stephon Castle tonight: 33 PTS 4 REB 2 AST 66.7 FG% 60.0 3P% 90.9 FT% 4 words 👇🏽 ROOKIE OF THE YEAR
0
379
0
RT @ClausWilke: This will be bad for universities, but it'll be even worse for independent research institutes or federal labs. And it'll c…
0
44
0
RT @robert_baiguan: The most successful movie in China's cinema history is now Nezha 2. The main protagonist is a mythical figure called "N…
0
73
0
RT @MSU_Basketball: Celebrating the 25th anniversary of the 2000 National Championship team this weekend 🏆🏆
0
69
0
Farley well said. There is another aspect in addition to the "competition thesis": mutual learning. To paraphrase: it's the fishing that matters more than the fish.
Ford CEO Jim Farley to Friedman: “The way we compete with them is to get access to their I.P. just the way they needed ours 20 years ago, and then use our innovative ecosystem and American ingenuity and our great scale…to beat them globally.”
0
0
0