小熊的小站

TISR第六届解决方案

CVPR 2025 研讨会上举办的第六届热成像超分辨率（TISR）挑战赛（PBVS 2025）的结果、数据集以及获奖团队所采用的技术方案。

2026-01-06

#深度学习

似黄粱梦，辞丹凤——2025年终总结

本来想凑个300篇博客再发总结，奈何繁忙，只能以290篇作结。这一两年于我而言真的是无比特殊的，在这一年正式告别初步的本科时代，然后进入一个四向皆通却充满艰难选择的道路。（年终总结还是太难写，写得极为痛苦，删删写写）关于过去 “相遇就此拥着最爱归家生活别过份地童话化故事假使短过这五月落霞没有需要惊诧”

2025-12-31

#回忆 #生活

A Unified Definition of Hallucination, Or： It's the World Model, Stupid

（arxiv 2025）将不同领域（翻译、摘要、QA、Agent、多模态）中的幻觉统一定义为”不准确的（内部）世界建模“。

2025-12-31

#深度学习 #大模型

Blink：用于增强多模态理解的动态视觉token分辨率

（arxiv 2025）

2025-12-28

#深度学习 #大模型

JustRL： Scaling a 1.5B LLM with a Simple RL Recipe

（arxiv 2025）清华大学、伊利诺伊大学厄巴纳-香槟分校和上海人工智能实验室出品。

2025-12-28

#深度学习 #大模型

SmartSight：通过时间注意力坍缩在不损害视频理解的前提下缓解视频大模型中的幻觉问题

（arxiv 2025）

2025-12-27

#深度学习 #多模态 #大模型

Investigating Spatial Attention Bias in Vision-Language Models

（arxiv 2025）本论文关注一种有趣的空间注意力偏差：当输入为左右拼接的双图时，模型在生成描述顺序上显著倾向于先描述左侧内容。

2025-12-25

#深度学习 #多模态 #大模型

T5Gemma2

将强大的多模态、多语言和长上下文能力引入到编码器-解码器架构（Gemma模型）中。

2025-12-24

#深度学习 #多模态 #大模型

Steer LLM Latents for Hallucination Detection

（ICML 2025） Truthfulness Separator Vector = TSV

2025-12-18

#深度学习 #大模型

Agentic Context Engineering：面向自改进语言模型的动态上下文演化

(arxiv 2025) 斯坦福

2025-12-18

#深度学习 #大模型 #agent