Attention Is All You Have

发表于 2025-10-03 标签闲话几句

2017 年，《Attention Is All You Need》悄然问世，带来了 Transformer 的架构，这个此后被搜广推领域广泛应用、并成为后来掀起新一轮 AI 革命的 LLM 的基石。Transformer 让机器拥有了某种 “超级注意力”：一种可以并行处理全局信息、计算序列中所有元素关联权重的强大机制。它不需要像人类一样逐字逐句地阅读和理解，而是可以一瞬间 “看到” 全部，并找出其中最关键的连接

但是一个巨大的悖论和困境正在上演。人类创造了看似拥有 “无限可扩展注意力” 的机器，但人类自身所拥有的，却是一套古老而有限的生物注意力系统。机器的核心是 “更多、更快、更全局”，而人类的核心是 “选择、聚焦、做减法”。我们正用着自己这套需要休息、会疲劳、极易分心的心智系统，去对抗一个由 “超级注意力” 算法驱动的、旨在无限捕获我们注意力的科技环境

对于碳基生物而言，更加残酷的一个事实是 "Attention Is All You Have"。因为对人类来说，注意力是与生俱来、且每日额度恒定的核心生命资产。而这唯一的货币投向何处，你的生命就投资何处，最终也将到达何处。我们一直在说 “人是环境的产物”，究其原因，也许是人在某个环境中，不得不将其的注意力倾注到这个环境设定的规则里最关注的事情，进而决定了人将变为何种产物

如果说注意力是人最宝贵的财富，那如何保护自己的注意力便是一个值得探讨的命题。本文尝试对这部分展开一些探索，包括人的注意力为何是有限的，这少得可怜的注意力在当下的注意力经济中是如何被各种争夺，以及如何构建自己的注意力框架。本文是笔者最近感觉自我工作效率低下后的一次寻根问底求法的过程，祝开卷有益～

有限的注意力预算

看不见的大猩猩

1999 年，心理学家克里斯托弗・查布里斯和丹尼尔・西蒙斯设计了一个堪称经典的 “看不见的大猩猩”(The Invisible Gorilla) 实验。这个看似简单的实验设计，却揭示了一个令人不安的真相：我们对自己感知能力的自信，很大程度上是一种错觉

在这个实验中，参与者被要求观看一段视频，数一数身穿白色球衣的队员一共传球多少次。视频中间，一个穿着大猩猩服装的人走入镜头，捶打胸膛，然后缓缓离开。结果却令人震惊：超过一半的参与者全神贯注于计数，完全没有看到那个明显的大猩猩。而当被告知真相时，许多参与者坚决不相信，甚至怀疑实验者更换了视频。他们对自己的观察能力如此自信，以至于无法接受如此明显的事物竟从自己的意识中完全消失

这个实验生动地揭示了注意盲视（Inattentional Blindness）：当我们的注意力高度集中于某一事物时，会对其他显而易见的信息视而不见。这不是粗心，而是我们大脑信息处理能力的根本瓶颈。后续研究进一步证实，即便是飞行员、放射科医生等经过严格专业训练的人员，在专注执行特定任务时，同样会错过显而易见的关键信息。比如在一项医学影像研究中，83% 的放射科医师在寻找特定病灶时，竟未注意到图像角落处一个明显的外星人贴图

我们的注意力就像一个聚光灯，光柱之外的一切，都会沉入黑暗。大脑的前额叶皮层就像专业的灯光师，为了确保主要任务的完成质量，会有意抑制次要信息的处理

认知心理学中的有限容量理论（Limited Capacity Theory）指出，人类的注意力是一种有限的认知资源。当同时进行多项任务时，如果总需求超过资源总量，整体的表现就会下降。这个其实跟 “心智带宽” 的概念也有点像，人的注意力通道是一条带宽受限的通道，在执行一项任务时消耗的带宽越多，可用于执行其他任务的带宽就越少，从而导致整体性能下降。这通常通过双任务范式 (Dual-Task Paradigm) 的实验来证明：让参与者同时执行两项不同的任务（主任务和次任务）来研究认知负荷对任务执行能力的影响。比如一边记忆单词一边做数学题，他们的表现通常会比只做一件事时差

注意力的反向塑造

在这个信息爆炸的时代，我们每个人的注意力都成为了一种稀缺资源。但比这更深刻的真相是：注意力不仅是资源，更是一把雕刻刀。你持续关注什么，你的心智、能力甚至大脑结构，就会朝着那个方向演化；这种塑造发生在多个层面，从即时的认知表现到长期的个人发展，背后有坚实的心理学和神经科学依据

心理学家威廉・詹姆斯在《心理学原理》中提到：“我的经验是由我选择注意的东西决定的”。我们并非体验世界的全部，我们只体验我们关注的那部分。你的注意力过滤器，决定了哪些信息能进入你的意识，从而构建你的个人现实

伦敦大学学院的神经学研究显示，不同领域的专业训练会诱导特异性的脑结构改变，在这篇文献中《Navigation-related structural change in the hippocampi of taxi drivers》指出，通过脑扫描研究，发现伦敦出租车司机大脑中负责空间记忆的海马体后部显著更大，因为这些司机们需要花费数年时间持续将注意力集中在记忆伦敦复杂的街道网络上。这就像健身增肌，只不过他们锻炼的是大脑中负责导航的特定区域。

类似的神经可塑性现象在不同领域的专家身上都有体现：

钢琴调音师的左侧听觉皮层灰质密度显著增高，他们的耳朵能分辨出常人无法察觉的微小音高差异
品酒师的嗅觉皮层与眶额叶皮层连接增强，能构建出复杂的风味地图
专业棋手的顶叶皮层更为活跃，能在脑海中预演数十步棋局的演变

这些结构性改变印证了 Hebbian theory 中提出的 "神经元同步放电则连接增强" 原则，当你持续将注意力投入某个领域，相关神经元回路就会被反复激活，最终物理性地强化这些连接，就像小径因频繁行走而变成康庄大道

然而，这种强大的神经可塑性是一把双刃剑。哲学家尼尔・波兹曼在《娱乐至死》中发出的警告，在今天这个算法时代显得尤为紧迫：媒介的形式本身会潜移默化地塑造我们的思维方式和认知习惯

在电视时代，一切信息都必须以娱乐的方式出现，碎片化、图像化、追求瞬时刺激的特性，则塑造了浮躁和浅薄的文化。今天的我们身处一个由算法驱动的、比电视强大无数倍的超注意力捕获网络中，如果我们放任自己的注意力被无限切割、被廉价娱乐填满，我们就在主动重塑一个不利于深度思考的大脑。神经科学研究显示，持续的多任务处理和碎片化注意力会：1）强化大脑对快速反馈的依赖，削弱前额叶皮层的抑制控制能力 2）减少默认模式网络的激活，而这一网络正是创造性思维和深度整合的发生地 3）导致注意力残留效应，即使切换任务后，大脑仍有一部分资源被先前任务占用

如同在《工作、体制化与自由》一文中提到的，短视频带来的高频、短期的刺激，代价是词汇量、语义精度和表达能力的下降，是阅读长内容的耐心和能力的丧失，是系统性思考与推理能力的衰退，也是空虚感的重要来源

无限的注意力争夺战

在这个信息过载的时代，我们每个人的注意力都成了各方势力争夺的战场。正如经济学家赫伯特・西蒙所预言：“信息的丰富导致了注意力的贫乏”。我们正生活在这个预言的实现中，每个人的认知预算都在被精心设计的系统持续透支

注意力经济下，你才是被售卖的商品

我们每日有限的 “注意力币”，已经成为当今世界最炙手可热的商品，由此催生了 “注意力经济（Attention economy）”。这个价值数千亿美元的注意力经济，其商业模式异常清晰：将用户的海量注意力聚合起来，然后 “打包” 卖给广告商。如同在《The Social Dilemma》中发出的发人深省的警告：If you're not paying for the product, you are the product

这个系统的精妙之处在于，它不再是被动地等待你的关注，而是主动地捕捉你的意识。收割我们注意力的武器，正是由《Attention Is All You Need》所启发的技术架构。社交媒体、短视频平台、新闻资讯 App 的背后，是复杂精密的推荐算法系统，它们的优化目标极其单纯：最大化用户停留时长和互动率。它们就像永不疲倦的角斗士，为了争夺你的 “注意力币” 而疯狂角力

这些系统巧妙地利用了人类大脑的进化弱点：

对不确定性的痴迷：下拉刷新机制与老虎机的 "可变奖励" 模式同出一辙，每一次刷新都在激活我们大脑中的多巴胺系统，创造着 "下一次会有更好内容" 的期待；如同斯金纳箱里那只不断按压开关期待得到奖赏的小白鼠一样
对负面信息的警觉：坏消息、冲突、八卦往往能获得更多点击，因为我们的生存本能要求我们时刻警惕潜在威胁
对社交认同的渴望：点赞、评论、转发的通知提示，，触发了我们大脑中与社会接纳相关的奖励回路

"无限滚动"、"自动播放"、"个性化推荐"—— 这些都不是中性的功能设计，而是精心计算的 "注意力捕获装置"。它们像是一条永不停止的传送带，让你在无意识中持续消耗着宝贵的认知预算

深度工作 vs 碎片化响应

在 "注意力经济" 的持续冲击下，我们正在丧失一种至关重要的核心能力：深度工作（Deep Work）。这其实也是计算机科学家卡尔・纽波特在同名的书籍《深度工作》中提出的概念，指的是 “在无干扰的状态下专注进行的职业活动，使个人的认知能力达到极限。这种努力能够创造新价值，提升技能，且难以复制。” 如程序员编写复杂的核心代码、作家撰写书籍章节、科学家推导关键公式、设计师构思核心创意等；与之相反的是那些对认知要求不高的、逻辑性的事务性任务，通常在受到干扰的情况下开展的工作

从神经学和心理学角度出发，深度工作都是具备巨大价值的

从神经学角度出发，专注力是一种需要训练的能力。从上面的注意力反向塑造的理论可知，行为会重塑大脑，而深度工作能够强化专注相关的神经回路，从而变得更擅长专注和思考。反之，不断分心会永久性地削弱这种能力
从心理学的角度出发，深度工作中所达到的理想状态，其实这也是我们常说的心流状态 (Flow)，其特点往往是需要高度专注、创造价值、有门槛，其关键点之一是不受到外界的过多干扰。心流是幸福感、满足感和意义感的重要来源。高质量的工作生活本身就是一种巨大的回报，如果乔帮主在 Stanford 那场著名的演讲中的提到的一样

I’m convinced that the only thing that kept me going was that I loved what I did. You’ve got to find what you love—and that is as true for work as it is for your lovers. Your work is going to fill a large part of your life, and the only way to be truly satisfied is to do what you believe is great work. And the only way to do great work is to love what you do.

然而事实是，我们已陷入集体性的 "碎片化响应" 模式。现代工作环境几乎是与深度专注为敌的。开放式办公空间虽然促进了表面上的协作，却成了持续干扰的温床。我们不断地在邮件、即时消息、会议通知和突发请求之间疲于奔命。更恐怖的是，我们似乎默许并推崇这种 "忙碌文化"，将碎片化的响应等同于工作效率。快速回复邮件、同时处理多个任务、频繁参与会议 —— 这些行为获得了组织的即时奖励，却让我们远离了那些真正需要深度专注才能完成的价值创造工作

但从生物学的角度出发，人类大脑的构造决定了我们本质上是序列处理器，而非并行处理器。所谓的 “多任务处理” 实际上是一个快速、耗能的 “任务切换” 过程，而每一次切换都伴随着显著的生物学代价（switch cost）

1）效率下降与时间浪费。虽然每次切换可能只需要十分之几秒到几秒钟来重新定向注意力，看似短暂，但在一天内成百上千次的切换中累积起来，就是个巨大的时间黑洞。另外就像一壶水每次烧到一半就关掉，重新再烧，整体煮沸的时间远大于一次性烧开

2）错误率增加与认知残留。当你从任务 A 切换到任务 B 时，关于任务 A 的思维碎片（attention residue）并不会立刻消失。它们会干扰你对新任务 B 的专注，导致你在 B 上犯更多错误，或者感觉思维 “粘滞”。在切换的缝隙中，大脑容易将不同任务的规则混淆。比如，你正在写邮件，然后去回了条微信，再回来写邮件时，可能会不小心把微信的缩写或表情符号用在邮件里，这就是典型的接口错误

3）加速心智疲劳与压力荷尔蒙。任务切换是一种高能耗的认知活动。每一次 “规则卸载与加载” 都需要消耗大量的葡萄糖（大脑的主要燃料）和氧气。这解释了为什么没做什么 “正经事”，只是不停回邮件、看消息，一天下来也会感觉心力交瘁 —— 你的大脑一直在进行高强度的内部搬运工作。持续的、不可预测的干扰（如 IM 软件消息、邮件）会激活大脑的 “威胁监测” 网络杏仁核，引发低度的应激状态，分泌皮质醇等压力荷尔蒙。长期如此，会导致慢性疲劳、焦虑和创造力枯竭

4）对学习与长期记忆的深层损害。将短期记忆转化为长期知识，需要海马体的深度处理；深度、不受干扰的专注是这一过程的关键。频繁的任务切换会阻止信息进入深度处理流程，导致你感觉 “学了很多，但什么都没记住”。更可怕的是，长期的多任务习惯会重塑我们的大脑神经回路。它会让我们的大脑习惯于寻求新奇和刺激，变得越来越不耐受无聊和沉默。最终，当你需要长时间专注于一本复杂的书籍或一份困难的报告时，你会发现自己已经失去了这种能力 —— 你的 “专注力肌肉” 已经萎缩了

我们正在用人类本质上的串行处理大脑，去拙劣地模仿机器并行处理的 "多头注意力" 机制。Transformer 模型可以真正地同时处理多个信息流并理解其复杂关联，而人类的所谓 "多任务"，只是在浅层次事务上消耗注意力，牺牲了深度思考和创造性产出。我们试图成为机器，却在过程中丧失了身而为人的独特优势

设计你的 Transformer

在这个注意力被疯狂争夺的时代，我们需要从被动的注意力消费者转变为主动的架构师。就像 Transformer 模型通过精心的结构设计实现高效的信息处理，我们也需要构建属于自己的 "个人注意力架构"，从而帮助我们在信息洪流中保持清醒，将宝贵的注意力资源投入到真正重要的事物上

定义核心 Query

在 Transformer 中，Query 是主动发出的提问，它决定了模型要在海量信息（Key）中寻找什么。同样，管理注意力的第一步，是向自己发出一个清晰的 Query：我当下最核心的目标和价值是什么？或者用更加大白话来说，我到底要什么？

说实话要回答这个问题并不容易，知道自己要什么、想成为什么样的人、这一生要怎么过，本身就是一个极度非标的、需要花费大量时间和心力、持续做自我探索才能得到答案，又或者终其一生都没有答案的问题

虽然长期的目标不那么好定义，单独短期的目标还是相对明确的。比如说每个季度初，可以写下 1-3 个最重要的 “灯塔” 目标。它们应像灯塔一样，指引你所有的努力方向，这有点像的不少互联网公司的 okr 制度

另外，可以定义每日的 Query 清单：每天清晨起床，可以拟定下 “我的注意力最需要投注在哪三件事上？” 这能帮你设定一天的注意力基调

优化 Key-Value 对

定义了 Query 之后，就需要对输入的信息进行过滤和权重分配。这意味着需要强化高价值的 Key 和弱化低价值的 Key

强化高价值 Key：主动寻找和增加与你的核心 Query 相关的信息源。例如，如果你的 Query 是 “提升专业技能”，那么专业的在线课程、行业报告、高质量的书籍就是高价值的 Key。它们背后的 Value 是职业成长和核心竞争力
弱化低价值 Key：勇敢地对那些与你核心目标无关的 Key 说不。这相当于在计算注意力权重时，直接给它们乘以一个接近 0 的衰减系数。无关的微信群、八卦新闻 App、无尽的推送通知，都应被纳入此列

这需要我们对输入信息进行权重分配，建立一个精密的过滤系统。实战中有一个分级过滤策略值得尝试（其中不少理念出自上面的《深度工作》这本书）

第一层：环境级过滤

卸载那些最消耗你时间的娱乐应用（尤其是短视频和社交媒体 App）。或者可以只在电脑端使用它们，增加使用门槛
减少用网络来消磨碎片时间：排队、等车时不要立刻刷手机获取碎片化，这会让你的大脑习惯于这种 “分心” 的模式。可以做一些连续性强的事情，如听播客
关闭所有非关键通知，只保留电话、短信和极少数重要通讯工具的通知，减少这些信息对你的中断
使用 Freedom、Cold Turkey 等工具在工作时段屏蔽干扰网站

第二层：内容级过滤

取消关注那些让你焦虑、或总是推送无用信息的公众号、博主和邮件列表
订阅 2-3 个高质量的输入信息源，关注少数几个领域内的顶尖专家，而不是被算法推荐牵着走
建立 "信息食谱" 概念：蛋白质（深度内容）、维生素（跨界知识）、碳水化合物（日常资讯）

第三层：时间级过滤

设定固定的工作时间，如每天在固定时间进行深度工作，形成一种习惯和节奏；设定固定的信息处理时段，比如上午 10-11 点处理邮件和企业 IM 的消息
晚间 10 点后启动 "数字宵禁"，停止处理工作信息
每周日上午进行 "信息斋戒"，通过冥想等方式给大脑留出消化的时间和空间

“Multi-Head” 策略

Transformer 的多头注意力（Multi-Head Attention）机制，真正在硬件层面同步计算多个注意力函数，然后将结果拼接融合，它的每个 head 都拥有独立的计算资源，来并行捕捉信息的不同方面

但对人类而言，如果前面提到，人类大脑的构造决定了我们本质上是序列处理器，而非并行处理器。所谓的 “多任务” 只是快速切换，并付出巨大的切换成本 —— 包括时间延迟、错误率增加和心智疲劳等

因此，我们的策略不是成为机器，而是向机器学习其架构的 “专注” 与 “模块化” 思想，通过极致的规划，在时间线上模拟出并行的效果，从而最大化我们串行处理器的效能。如果我们把注意力模块化地分配，可以粗略将注意力划分为 4 种重要的 head：深度工作、日常事务、创意探索和恢复休息

“深度工作” 头

进入深度工作状态，本质是触发 “心流”(FLow) 。心流状态下，大脑会释放去甲肾上腺素、多巴胺、内啡肽等神经化学物质，这些物质不仅能提升幸福感，还能显著增强专注力、模式识别能力和创造性思维。这是一种一旦中断就难以重建的高价值状态。

进入深度工作状态有一些可尝试的建议

1）设定启动仪式：在深度时间块开始前，进行一个简单的仪式（如泡一杯茶、整理桌面、深呼吸三次），告诉大脑 “准备进入状态了”。这能形成强大的条件反射

2）明确产出目标：不要只写 “写报告”，而是写 “完成报告引言部分和三个核心论点的初稿”。具体的目标能牢牢锁住你的注意力

3）环境设计：工作台极简主义，即保持桌面整洁，只留下当前任务所需的物品。多余的物品都是视觉上的干扰源；噪音管理，环境嘈杂下使用降噪耳机，播放白噪音、自然声音或专注音乐（如 Lo-fi），隔绝 auditory distraction

4）番茄工作法：对于难以进入深度状态的人，可以从 25 分钟专注 + 5 分钟休息的 “番茄钟” 开始训练。当你深度工作能力增强后，可以尝试延长专注时间至 50 分钟或 90 分钟

“日常事务” 头

如同前面提到的 “注意力残留” 效应，当你从一项未完成的任务切换到另一项时，你的注意力资源并不会立刻完全转移，一部分会 “残留” 在之前的任务上。而批量处理琐事，就是为了将这些残留效应集中并最小化，避免它们污染你的深度工作时间

具体的建议，可以安排 1-2 个固定时间（如上午 11 点，下午 4 点），批量处理邮件、回复消息、报销等琐碎事务。其他时间绝不查看；同时也为这个时间块设置一个倒计时（如 45 分钟）。时间压力会迫使你更快地决策和行动，避免在琐事上过度完美主义

“创意探索” 头

当你停止专注思考，进入放松、漫无目的的状态时，大脑的 “默认模式网络” 会被激活。这个网络并非在休息，而是在后台进行信息整合、连接不同记忆、并孵化创意。许多 “Aha! moment” 都发生在此刻，因为它连接了意识思考未能触及的遥远节点

关于创意探索，也有一些具体的方法论

1）主动安排 “无聊” 时间：刻意在日程中留白，不安排任何活动，允许自己发呆、散步、望窗外

2）跨界刺激：阅读与你专业完全无关的书籍、杂志或纪录片。异质性的信息是创意的最佳催化剂

3）创意捕捉：在 “创意探索” 时间后，安排一个简短的（5-10 分钟）记录时间，将脑海中浮现的任何想法记录下来，无论它们当时看起来多么不靠谱

“恢复休息” 头

这里说的恢复休息，不是上了一周的班之后身心俱疲后，通过胡吃海喝，通宵打游戏追剧等来缓解表层焦虑的行为。高质量的休息不是一个纯被动的接收过程，而是一系列主动为大脑做的优化：系统性清理与重置（睡眠）、硬件升级与优化（运动）、软件调试与抗干扰训练（冥想正念）

1）睡眠：睡眠远非简单的休息。它将你的大脑从信息收集模式切换到关键的维护模式。在此期间，大脑会进行深度清理，清除白天积累的代谢废物（如 β- 淀粉样蛋白），巩固记忆，并将知识从海马体转移到皮层，形成长期记忆。将睡眠视为非协商性投资，如同对待 “深度工作” 头一样，在日历上锁定睡眠时间，保证睡眠的时长和质量；除了夜间睡眠，中午 20 分钟左右的短睡能有效清空工作记忆，为下午的深度工作块重启认知资源。关于睡眠的原理和重要性，可以参考这期播客《我们为什么要睡觉》：情商和心理治疗都靠睡觉？

2）运动：身体活动是最高效的健脑术。有氧运动能直接促进脑源性神经营养因子（BDNF）的释放，这种物质如同为大脑神经元 “施肥”，能促进神经细胞生长、增强连接，直接提升学习效率、记忆力和专注力的 “硬件基础”。定期运动就是在为你的整个认知系统进行硬件升级

3）冥想正念：如果说睡眠是清理缓存，运动是升级硬件，那么冥想就是对注意力这款 “核心软件” 的调试和优化。每天 10-15 分钟的正念冥想，其核心价值不在于增加注意力时长，而在于极大地提升你的 “元认知” 能力 —— 即觉察到注意力涣散（Mind-Wandering）并将其温和而坚定地拉回的能力。这就像是每日为注意力进行的 “健身操”，长期练习能显著增强你对心智的控制力

正向传播与反向传播

如果我们把上面构建的注意力系统视为一个需要训练的神经网络。没有反馈的练习只是重复，无法带来精进。唯有通过 “反向传播” 计算误差并调整参数，模型才能变得更聪明。个人的注意力系统也需要持续的训练和迭代优化

正向传播比较直观，就是在每个规划好的时间块内，心无旁骛地执行单线程的 “正向传播”，即按照上面提到的 Multi-Head 策略，实现 “认知闭合”，屏蔽一切干扰，让思维在单一任务上深度推进

反向传播是最关键的一步。你需要一个反馈回路，可以粗略将其分为每日回顾与每周回顾

每日回顾

每天结束后可以花几分钟回顾一下当天的注意力分配情况，问自己一些关键性问题

1）一致性分析：“我计划的注意力投向与实际投向一致吗？” → 如果不一致，是计划不切实际，还是执行时意志力溃散？

2）漏洞溯源：“今天最大的注意力‘漏洞’是什么？” → 不要笼统地归咎于 “手机”。追问下去：是微信消息？是突如其来的邮件提醒？还是内心的焦虑感让你主动去寻找分心？

紧接着的问题就是 “明天如何堵上这个漏洞？”。这里的方法说实话会比较多样，需要针对性地制定微策略，同时也是因人而异。比如说如果是微信，能否将其放入定时开关的 “专注模式”？如果是邮件，能否关闭桌面通知？如果是内心焦虑，能否先花 5 分钟用纸笔梳理焦虑来源？

每周回顾

每周的回顾也是一个阶段性的回顾，比如说设定在工作日的最后一天如周五下午，可以从以下方面来梳理清楚过去一周的精力花费在了哪些方向上

1）审视 “注意力预算” 的分配：回顾过去一周的时间记录或日程表。你投入在不同 “注意力头”（深度、事务、创意、休息）上的时间比例是否健康？是否在低回报的浮浅工作上超支？

2）识别高价值活动：过去一周，哪些 “正向传播” 带来了最大的成就感和实际产出？下周如何复制并扩大这类活动？

3）优化日程模板：根据本周的洞察，为下一周设计一个更合理的 “串行多头” 日程模板。例如，发现下午 3 点后精力难以集中，就把 “深度工作头” 全部调整到上午

记录的工具比较多，市面上有比较多的 APP，对于 Mac 笔记本的用户，笔者推荐的其实是自带的日程软件，跟《时间贫困》：一个人的时间花在哪里，是看得见的里提到的时间记账法比较类似

你是你所有注意力的总和

从《Attention Is All You Need》到 “Attention Is All You Have”，这不仅仅是一次文字的戏仿，更是一个时代命题的转换。我们见证了机器如何凭借 “超级注意力” 崛起，也亲历了自身有限注意力在洪流中的飘摇。但本文的目的，并非制造如同纺织工人面对蒸汽机时、我们面对已经或即将取代大量工作岗位的 AI 时的那份焦虑和恐惧，是揭示一个更为根本的真相：你的注意力流向何处，你的生命就走向何处

Transformer 模型通过精妙的架构，将有限的算力精准投注于最有价值的信息关联上。这恰恰是我们最需要向机器学习的智慧 —— 不是学习它的 “无限”，而是学习它的 “专注” 与 “效率”。我们无法扩展注意力的总量，但可以像优化一个精密模型那样，去设计它的分配

你定义的核心目标，是你向世界发出的 Query；你精心筛选的信息环境，是你为自己构建的 Key-Value 仓库；而你模块化管理的日程与精力，则是你独一无二的 Multi-Head 策略。每日的反省与每周的复盘，就是你这个系统的反向传播算法，在误差中学习，在迭代中进化

我们守护和优化注意力，不是为了更高效地完成工作，而是为了更清醒地度过这一生。你的注意力，是你用来雕刻自我和塑造现实的唯一刻刀。你将它持续投向哪里，哪里就会在你生命中生长、壮大。你关注知识，便成为智者；你关注创造，便成为创造者；你关注所爱之人，便构筑了深厚的关系

在这个万物都在争夺你注意力的时代，能够清醒地决定自己要看什么、想什么、爱什么，或许就是我们这个时代最珍贵的自由与最大的力量。毕竟 Attention is all you have, and finally all you are

本文的一些参考内容

《Attention Is All You Need》
《心理学原理》
《Navigation-related structural change in the hippocampi of taxi drivers》
《娱乐至死》
《工作、体制化与自由》
《The Social Dilemma》
《深度工作》
‘You’ve got to find what you love,’ Jobs says
《我们为什么要睡觉》：情商和心理治疗都靠睡觉？
《时间贫困》：一个人的时间花在哪里，是看得见的
The Invisible Gorilla
Inattentional Blindness
Limited Capacity Theory
Hebbian theory
Attention economy
Flow
Attention Residue