0%

在大选前,我曾看过一篇文章,用非常翔实的数据,做了一个数学模型,最终预测川普获胜。当时我觉得整体分析过程挺不错,收藏了那篇文章。

如今,我想回头去看看那篇文章中的模型,哪些分析结果与实际不符,竟然发现作者把自己的文章给删除了

太可惜了。算法预测失败是很正常的呀!关键是复盘,总结,让大家看到问题出在哪里,这也是学习,甚至是更重要的学习呀。

People learn when they’re surprised.

为什么现在的教科书中让人提不起兴趣?

astonishing facts were presented without astonishment.


过去追求快,结果却很慢。真的慢下来,才发现:慢就是快。
结合我自身来说,很多时候为了赶进度,两倍速囫囵吞枣地看视频,有了一个大概的认识,但当我关上视频时,刚才看的什么也就完全忘得一干二净了。只有当真正静下心来看,能与别的东西连结起来,才是真正的收获。

研究生刚创业的时候,一腔热血,觉得自己要学习乔布斯,改变世界。Change the World。

后来,来了美国,和一个 Google 的同学聊天,启发很大。其实,我们不需要改变世界,对这个世界产生一点影响,就够了。所谓的 Make an Impact。

但是现在,我的观念又变了。我觉得,产生一点影响都是奢求。现在,我喜欢的说法,是产生一点涟漪。Make a Ripple。

你看,我是不是越来越没追求?

但我却觉得,我越来越进步了。因为,不再年少轻狂,理解了梦想和现实的分界。

慢慢来,哪怕产生一点涟漪,或许才是实现梦想的开始。

再不济,涟漪虽浅,但也证明,我在这里。

The meaning of swag

  • Hey mam. What’s poppin?
  • Yo. what up dawg? Good to see you here.
  • Yes, are you here for the audition as well?
  • I mean, who isn’t. I’m all pumped up right now.
  • You have a great chance of winning among all these readers.
  • Come on bruh. Look at you. You got the swag, the talent and everything.

哲学篇

常道

无所不在谓之道,自其所得谓之德。(道是普遍的原理,德是自己的行动。)


道可道,不知道的东西也可以去研究它,研究它的性质和意义。


就像根号2大家不知道它的精确解,但是可以知道它的性质。


有物混成,先天地生。吾不知其名,强字之曰道。

惚兮恍兮,其中有象,惚兮恍兮,其中有物。

韩非:道是万物之所然,万理之所稽。(规律的规律)

有生于无

无,名天地之始。有,名万物之母。

天下万物生于有,有生于无。


中国女排冠军,郎平指导是无,得冠军是有。杯子用的是无,房子修的是墙,住的是无。

反者道之动

吾言甚易知,甚易行。天下莫能知,莫能行。(怨言)
老子认为是循环的,
将欲取之,必先予之。


车辆撞着翻栏杆行人,也要赔钱。其实是害了更多的行人。

责人容易责己难

知 不知 上,不知 知 病。

我讲得不一定对,现在认为自己讲的是对的,未来肯定不对。

大成若缺,大家不要互相颠覆,就像世界杯现场看和在家直播,各有各的好处。

非有公是——换位思考

老子偏理论,没什么例子,但是只讲道理。庄子偏向事例。

天下非有公是也,而各是其所是。

太阳绕地球还是地球绕太阳。庄子变蝴蝶还是蝴蝶变庄子。

人长期泡水要生病,泥鳅离了水反而要干死。各有各的活法,因此需要换位思考,不要把你的是非强加于别人。

道家与科学

科学:墨子。玄之又玄,众妙之门。

哥德尔不完备证明,是不是有限次增加后,能证明所有结论,答案是否定的。
故常无欲以观其妙,常有欲以观其徼(边界)。 有一利必有一害。
屠龙之技,比喻没有意义的技巧,伽利略造钟表,就是看教堂的摆动。
(1)道法自然,不信神仙。
(2)玄之又玄,清醒认识到人类认识规律的困难。
(3)无欲观其妙,有欲观其徼,对于理论研究和应用研究的定位有指导意义。

无为而治

太上不知有之,最好的管理是不知道有人在管理,太阳系是谁在管理?万有引力定律。


由规律自己来管理,大禹疏导水流。都江堰水利工程。

(1)鱼嘴分水提,外江泄洪排沙,内江引水灌溉。

(2)飞沙堰,进入内江的过量洪水和沙石排入外江

(3)宝瓶口,内江的水由此送入成都平原


表层水流向凹岸,即内江,底层水流向凸岸,即外江。
交通几乎不需要交警,体育比赛裁判只是辅助。
不是不管理,而是顺其自然,让规律去管理,

圣人不死,大盗不止

对仁义道德的强烈批判,冷眼热心。

窃钩者诛,窃国者诸侯。一将功成万骨枯,产生乱的/大盗的根源,就是老想着去建功立业,老想着去整别人。


大道废,有仁义。智慧出,有大伪。六亲不和,有孝慈。国家昏乱,有忠臣。

为什么需要仁义、忠臣、孝慈?是因为你乱套了,指明了原因,孔子讲的是解决的方法。

绝圣弃智,民利百倍。绝仁弃义,民复孝慈。绝巧弃利,盗贼无有。

儒家提倡仁义道德,劝说人民服从统治者。老子和庄子站在老百姓立场,指出产生大盗的根源是统治者对人民的压迫。

上德不德

上德不德,是以有德。按照规律来行动,就是德。道是普遍规律,德是行为。

与其相濡以沫,不如相忘于江湖。与其誉尧而非桀,不如两忘而化其道。

对于统治者无所谓,只要用道来约束人民就行。

德”不需要另外炒作,只要按照“道”做好事造福于人,有了效果,就是功德无量。做好事时只要想到如何有利于人,就是最高的道德,不需要另立标准来鉴定是不是道德。

逍遥游

鲲鹏展翅九万里,翻动扶摇羊角。有待,自由依赖于约束,依赖于客观规律。

为而不争

真正努力的人都不争名,反而会做出成绩来。

夫唯不争,故天下莫能与之争。

干活时只想到怎样把活干好,某一天好处就突然降临了。
那些争得头破血流的,都没得到。

功成身退天之道

孙叔敖,给子孙留一块最差的土地,这样没人来掠夺。

人无千日好,花无百日红。

丘吉尔:打仗就是为了保卫人民把我选下去的权利。


老子的“反者道之动”揭示了物极必反、乐极生悲的道理。无数历史事实一再证实这一理论。功臣被杀主要不是由于国君的随心所欲,而是执政需要;范蠡张良曾国藩识时务,完美收官。

鲁候养鸟

尊重差异

无名,万物之始也;有名,万物之母也。
万物初始是没有名字的;万物在被观测时才诞生。

故恒无欲也,以观其妙;恒有欲也,以观其缴。
我们要摆脱物质的束缚,才能看到“道”的奥妙;总是拘泥于物质,带有很强的目的性,只能看到我们想要看到的东西。

两者同出,异名同谓;玄 之又玄,众妙之门。
无名(精神)与有名(物质)同处于一处(道),名字相反却又指的是同一个世界。
既要唯物又要唯心,辩证地看问题。

天下皆知美之为美也,恶已;皆知善,此其不善已;
天下人都知道了美的标准,就会往那靠,就会有厌恶。

有无之相生也,难易之相成也,长短之相形也,高下之相盈也,音声之相和也,先后之相随也。
是以圣人居无为之事,行不言之教;万物作而弗始也、为而弗恃也,成而弗居。夫唯弗居也,是以弗去也。
老子中的圣人多指统治阶级,类似于柏拉图的理想国中的哲学王。
主语为万物,弗后面的主语为统治者。
万物自然生长而不是圣王创造的,万物自然运转而圣王不指望其回报,以此原理而产生的功劳,圣王也不据为己有。正因不居万物之功,所以他的功劳无法被消灭。

不上贤,使民不争;不贵难得之货,使民不为盗;不见xian可欲,使民心不乱。

不给贤能之人额外的特权,使民不争权。不赋予物品超过其功能的价值,使民不去做违法的事;不展现可以引起欲望的事物,使民心不乱。

是以圣人之治也:虚其心,实其腹,弱其志,强其骨;恒使民无知、无欲也,使弗智不敢弗为而已。则无不治矣。

强调统治者也清心寡欲,也愚民,类似于圣经中的吃苹果前的伊甸园。类似于站在上帝角度去看人类社会。而法家也强调愚民,但是让统治者有手段、多读书,是站在统治者角度看问题。
让智慧不敢乱作为而已。
但是不太现实,类似于潘多拉魔盒,一旦打开就不可能关上。吸毒似的现代化享受。

道冲(盅),而用之又弗盈也。渊呵,似万物之宗。

道是空虚的,而使用它时又是无穷无尽的。深邃啊,似乎是万物的本源。

挫其锐,解其纷,和其光,同其尘。湛呵,似或存。

它压抑自己的锋芒,化解自己的矛盾,柔和自己的光辉,混同于尘俗之中。隐沉啊,又好像存在。

吾不知其谁之子也;象帝之先。

我不知道它是从何而来的,似乎是上帝的祖先。

天地不仁,以万物为刍狗;圣人不仁,以百姓为刍狗。

无所谓的仁爱不仁爱,把百姓当作刍狗来自己运转、演戏。

天地之间,其犹橐、管乎?虚而不屈,动而愈出。

天地之间的空间和世界,它不正像风箱、乐管吗?静时不会竭尽,填满着气,运动时就会逃出。

多闻数穷,不若守于中。

博学多闻反而会无所适从,感觉所有人说的都有道理,不如自己内心的想法。
不如守住自己的内心与持中。

谷、神、不死,是谓玄牝,玄牝之门,是谓天地之根。

谷:空虚深藏,神奇莫测,永存无穷,我们把它叫做玄妙的母体。玄妙母体的生殖之门,就是天地万物的根源。

绵绵兮,其若存;用之,不勤。

天长地久,天地之所以能长且久者,以其不自生也,故能长生。

因为它们不为自己而存在,所以才能够长久存在。

是以圣人退其身而身先,外其身而身存。

因此圣王退己进人而反能在众人之先,置自身于度外反而能得到自身的生存。

不以其无私与?故能成其私。

这难道不是由于他的无私吗?所以能成全他自己。

四种范式:

  1. 非神经网络时代的完全监督学习
  2. 基于神经网络的完全监督学习
  3. 预训练、精调范式
  4. 预训练、提示、预测范式

演变的规律

规律一:每个范式都会涉及繁琐的,需要人工参与(提供先验)的特征工程
P1:特征工程
要进行特征模板定义环节
P2:结构工程
神经网络虽然解放手动配置模板特征的人力,但是需要人工去设计合适的网络结构。因此,需要人工去探究最适配下游任务的结构偏置(structral bias)。比如使用RNN还是CNN。
P3:目标函数挖掘
通过引入额外的目标函数到预训练语言模型上,以便让其更适配下游任务。有时也需要网络结构的探索,但不是主旋律,主要有以下两个原因。(1)预训练本身很费时,过度的结构偏置的探索开销过大(2)精调过程中,预训练模型本身的知识让大家“忘记”RNN和CNN的差异。
P4:Prompt挖掘
只是通过对合适prompt的利用将下游任务建模的方式重新定义。

规律2:新范式带来的收益可以让我们暂时“忽略”那些额外需要的人力代价
P1->P2: 虽然我们常常吐槽神经网络调参如炼丹,可是也在享受着不用手工配置模板,就能够得到还不错甚至更好结果的福利。与其说“炼丹“,我觉得神经网络的训练更像是“陶艺”,而传统的特征工程更像是“炼丹”,因为它对原材料(特征)的选择以及加入丹炉的顺序(特征组合)的要求几乎非常苛刻。
P2->P3: 虽然探究“哪一种损失函数引入到预训练语言模型中更适配下游任务”比较无聊,但比起排列组合各种网络结构,却不一定能获得好性能而言,前者似乎还行。
P3->P4: 虽然prompt的定义很繁琐,但是如果有个方法可以帮你回答“BERT效果都那么好了 ,我还研究个啥“这个问题,那它也挺有吸引力。并且,Prompt Learning激活了很多新的研究场景,比如小样本学习,这显然可以成为那些GPU资源受限研究者的福音。当然,我理解Prompt Learning最重要的一个作用在于给我们prompt(提示)了NLP发展可能的核心动力是什么。

Prompt Learning到底是什么

比如,假如我要判断“我喜欢这个电影” 这句话的情感(“正面” 或者 “负面”),原有的任务形式是把他看成一个分类问题

输入:我喜欢这个电影

输出:“正面” 或者 “负面”

而如果用Prompt Learning去解决的话,任务可以变成“完形填空”,

输入:我喜欢这个电影,整体上来看,这是一个 __ 的电影

输出:“有趣的” 或者 “无聊的”

Fine-tuning中:是预训练语言模型“迁就“各种下游任务。具体体现就是上面提到的通过引入各种辅助任务loss,将其添加到预训练模型中,然后继续pre-training,以便让其更加适配下游任务。总之,这个过程中,预训练语言模型做出了更多的牺牲。
Prompting中,是各种下游任务“迁就“预训练语言模型。具体体现也是上面介绍的,我们需要对不同任务进行重构,使得它达到适配预训练语言模型的效果。总之,这个过程中,是下游任务做出了更多的牺牲。

NLP的发展史本质上是下游任务和预训练语言模型关系的变迁史,性能大幅提高大概率是因为:

  1. 使用了预训练语言模型
  2. 使用了更强的预训练语言模型
  3. 更好地使用了预训练语言模型
    Prompting 本身不是目的,它是一种实现让下游任务和预训练语言模型更加接近的途径,如果我们有其它更好的方式,那就可以引领下一个范式。

Knowledgeable Prompt-tuning:

Incorporating Knowledge into Prompt Verbalizer for Text Classification

文本分类任务:通过构建标签词表,将分类问题转化为一个预测和标签相关词的问题。

帮助PLM回忆起自己在预训练时学习到的东西。使用一个模板,模板通常有两个空位置,用于填输入x的位置,和用于生成答案文本z的位置。答案搜索,然后答案映射。

“我估计,99.9999% 的人,都因为各种各样的原因,不会行动的。真正下定决心,行动起来,认真去做这件事儿,其实是一个门槛呀!”

是的。门槛不是能力,不是技巧,不是经验。仅仅是勇气,魄力,和决心!

如果更进一步去看,我们为什么不会行动?很简单,做任何事情都是有所谓的机会成本的。把时间投入进来做这件事情,就无法做别的事情了。

做这样一件事,确实有可能赚更多的钱,但关键这只是有可能呀。这就是风险了。真正实施的时候,我们不可能只关注成功的可能性,不关注失败的可能性呀。

你看,当我们看到事情的风险和机会成本的时候,就都觉得或许不值当了。

在我看来,这能解释社会中的很多现象。比如很多赚钱的“老板”,明明小时候学习成绩都不如那些“优秀的打工人”,怎么最后反而赚了大钱?

一个很重要的原因是,他们敢于去行动,愿意承担风险。他们早就不向着“打工人”的方向前进了,而直接朝更优解——老板的方向前进了。

但是,换一个角度想,他们之中很多人,之所以直接朝着老板的方向前进,其实是被逼的。因为对于他们来说,“当一名优秀的打工人”这个局部最优解,根本不在他们的选择里。

从这个角度看,其实他们并没有承担太大风险。所谓光脚的不怕穿鞋的。对他们来说,想办法去当个老板,机会成本是很低的。做个小生意,当个小老板,就是他们的“局部最优解”!但有的人越做越大,做成了比“打工人”更优的解!

但并不是所有人都能拿到这个更优的解呀。毕竟有风险嘛。幸存者偏差,又让我们忽视了那些失败的人,只看到了成功的案例,而且是极其成功的案例。

人工智能需要数据。普遍大家可能只关注“大”数据中的这个“大”。人工智能确实需要大数据,甚至是海量数据;但人工智能还需要,或者叫更需要,高质量的数据。


获得高质量数据的一个有效方式,就是人为标记。


高质量的标注数据,足以决定一家人工智能公司的竞争力。前阵子大热的华裔科学家李飞飞,加盟了Google。她的一大成就是参与建立了ImageNet。这是由167个国家的48940名工作者,用两年时间,过了近十亿张图片以后,形成的一个拥有1500万张标注图片的数据集。这是多大的工作量?


可能,更重要的问题是,这到底是体力劳动还是智力劳动?嗯,反正我怎么看怎么都觉得,是人类在给机器打工。

对于这种数据标注工作,简单的部分已经可以交给外包公司进行了。但是对于一些复杂的部分,或者还在探索的部分,还是需要“高级人员”自己动手来。一方面是对标注质量更放心,另一方面,可以一边标注一边实验结果,甚至要不断改进标注的方式。其实,标注数据只是人工智能领域底层的体力工作之一,只有从事人工智能领域的人才明白,看起来高大上的光环背后,是无尽的清洗数据和特征工程。其实一点也不高大上。

但是,或许,或许,所有的高大上的背后,都有着这样的辛酸。

世界卫生组织(WHO)对猝死的定义是:平素身体健康或貌似健康的患者,在出乎意料的短时间内,因自然疾病而突然死亡。

医学上对猝死分为两类:心源性猝死和非心源性猝死。

所谓的非心源性猝死,可能是因为药物,短时间过度酗酒,过敏,或者中毒产生的猝死。这些离我们大多数人可能比较远,不经常发生。

大多数社会新闻突发的猝死事件,不管是前一阵子的高以翔,还是一些程序员突然在工作岗位或者回家的路上猝死,基本都是心源性猝死。

怎么预防心源性猝死。第一条就是避免频繁地熬夜导致睡眠不足。

很多学术研究都表明,健康的饮食和锻炼,实际上比任何昂贵的药物都有效。

但是,大多数临床医生面临一个困境:患者来到医院,如果医生只是建议患者健康饮食,并且坚持锻炼,很容易被患者误以为是不负责任。

有医生呼吁,政府与其补贴医药行业,不如直接补贴水果和蔬菜价格,鼓励民众购买。

社会学家为此还真做了研究,发现,对水果和蔬菜价格做 30% 的补贴,就能提高民众多摄入 26% 的水果和蔬菜。


软件工程师的核心任务,就是写代码。如何提高代码质量,减少 bug,提高软件开发效率,是软件行业的老大难问题。为了解决这个问题,无数的技术方案或者工具被发明了出来。
编程范式的发明、函数式编程。
语言的新版本的新机制,大多时候都是为了减少bug。

每个软件工程师,不管是用什么范式,什么语言,什么版本,什么工具,怎么提前构架,设计,近乎都不可避免地,会写出 bug。

软件行业很多研究结果都表明:并没有明确的证据说明:使用了这些工具,软件工程中的 bug 就减少了。

国外技术专家 Hillel Wayne 有一个观点,让我拍案叫绝。

他的核心思想很简单。既然代码都是人写的,那么 bug 也就是人写的。所以,除了改善工具以外,可能,另外一个非常重要的,被很多人忽视的方式是:改善写代码的人。
睡眠,工作时长,工作压力。

毕竟,作为管理者,管理的是人。所有的工作,都是人做出来的。

管理者的管理方案,至少要让团队能够感受到:人,是重要的。

因为:人,真的是最重要的。

真正的大师,永远怀着一颗学徒的心。

A true master, is an eternal student.

数学家奥斯卡:

给时光以生命,而不是给生命以时光。


To the time to life, rather than to life in time.


使人成熟的不是岁月,而是经历。

海明威:

The world is a fine place and worth fighting for.

电影《七宗罪》引用了这句话,并加上一句:
“I agree with the second part.”

罗曼罗兰:

There is only one heroism in the world: to see the world as it is and to love it.
世界也许并不美好,生活的真相也许是残酷,但我们还是要奋斗。

一个人的奶奶说:

Some bugger will always have a faster car, a flashier house, a glitzier watch - but you were the only kids that ever had me for a nana。

那些物质的东西,其实并不宝贵。真正宝贵的,是你见到的人,遇到的事儿,拥有的经历和感悟。这些才让你成为你,值得你珍视一生。

有点像火蓝刀锋里:

If you keep doing what you’ve always done, you’ll keep getting what you always got.

龙柏川说他的老班长说:如果你想要得到你从未得到过的东西,你就要去做你从未做过的事。


以下是贺炜,央视的足球解说员,我都很喜欢:

一件看似不经意的小事,往往就是命运的转折,一次看似普通的再见,其实就是永别。


人的一生中最光辉的一天,并非是功成名就的那天,而是从悲壮与绝望中产生对人生的挑战,以勇敢迈向意志的那天
—福楼拜。


生活可能不像你想象得那么好,但是也不会像你想象得那么糟,人的脆弱和坚强都超乎了自己的想象,有时候脆弱的一句话就能泪流满面,有时候你发现自己咬着牙已经走了很长的路。

爱本身并没有错,爱谁都是自由,爱强者更是人类的天性。不过因为自己所爱的事物的强大就幻想自己也强大了,甚至觉得爱其他事物的人都已经被踩在脚下了,这就是病态,一种弱智的病态。

真正的成熟并不是去追求完美,而是直面自己的缺憾。


向上攀爬的那条路不是比站在顶峰更让人热血澎湃吗。


爱一件事物不是爱它的成败,而是爱它的全部。

本文解决了我和常清、吴金辰我们国庆一起聊天的困惑,总是说国内996,国外几乎不加班,为什么创新能力、互联网发展国内还是不如国外?

一个具体的实例说明加班可能适得其反

直到有一天,我看到这些高级的软件工程师们,把自己关在又挤又吵的会议室中,拼命地加班,真是拼命。周一到周日,每天早上 10 点到凌晨 3 点,甚至凌晨5点,连国庆节都来上班。就在这样的环境和状态下,连续干了三个多月。上线前,QA 找到了1000多个bug。你没看错,是一千多个。

最后,这个项目用了 1 年多的时间来返工。本来一个 6-8 个月的项目,团队被打了鸡血,想在3个月内完成,最终却花了近两年的时间来返工。

要知道,我以前在外国公司工作,外国老板看到团队在长时间加班,会感到焦虑的。因为加班,通常代表着有不好的事情正在发生。

所以对此,我是有点看不懂的。看不懂的是,为什么这么一群聪明的人,放着明亮宽敞的办公桌不用,硬要挤在一个又窄又小又吵又热的小空间里工作,而且要这么透支地写那么重要的很关键的系统级代码?

这就好像,一架在一个小作坊里被人加班加点赶工出来的飞机,谁敢坐啊?难道他们真的以为,有足够多的钱,足够多的人,然后拼命加班,就能打败对手吗? #### 在低级事情上努力是对学习高级知识的逃避 “努力就会成功”,“加班就会有成就”,“勤劳就会致富”…… 因为这类人基本上都是能力有限,不知道怎么提升自己的人,当他们看到只要拼命使力就可以成功的观点时,他们就会有共鸣,就会感动。不用学习那些晦涩难懂的高级知识,不用掌握和练习那些高级技能,自己只需要在低级的事情上拼命和努力,加更多的班和干更多的活,自己就会像电影中的那些小人物一样,总有一天会成功的。

因为,他们混淆了行动与进展,忙碌与多产。他们以为能靠蛮力可以弥补思维上的惰性,靠拼命可以弥补能力上的不足。喜欢或认同这句话的人,基本是能力上有问题的人。这类人适合做劳动密集型的事。不信你可以试试看,当一件事的难度超过一定程度的时候,那些聪明的人会找到更省力的方法;而能力上有问题的人,还是在那儿使蛮力。

应该怎么做?work-hrad -> work-smart

再回想一下,我以前在职场上的很多关键点,不是因为我加班了,而是因为在某些关键问题上,我跳出来解决了其它人都解决不了的问题。
我也有失败的时候,而我失败的时候,总是因为我搞不定事,即便是加班拼命努力也无济于事。是的,我的职业生涯的成长,最根本的不是你有多努力,有多勤奋,而是你能搞定很多人搞不定的事。
你不信,你可以看看你们公司那些不用加班,就算什么也不干,公司也要花钱养的技术人员。他们的成功,一定不是努力和加班加出来的。你会发现这些人拼的不是谁干的多,而是谁解决的问题更难。

我加班 996 的时候,从来都不是我成长最快的时候;而我和一群牛人在解决难题的时候,才是我成长最快的时候。
关键不在于谁写的代码多,关键在于我们解决了什么样的问题。
在这样的一个时代,你要做的,不是通过加班和拼命来跪着挣钱,而是通过技能,来躺着挣钱。

自己的一些想法

这让我想到高中时期经常用到的一个作文素材,核心是“金字塔绝对不是由奴隶建造的”,因为受压迫的奴隶不可能做出这种巧夺天工的建筑,最后也由考古学家证实,建造金字塔的是身份地位较高的平民和劳工,绝非奴隶!

许多作曲家和作家都曾说过,自己灵感迸发的时刻大多不是在工作时那种高强度的状态下,而是在洗澡淋浴时、和朋友闲谈时。

LegalHigh中动画导演的那一集让我印象一直十分深刻,导演的坚毅的台词。

RNN

由于深度神经网络DNN参数量过大以及丢失了时序信息,在NLP处理中不如RNN。

但是RNN关键在于将之前保存的信息应用到当前的任务之上。
当距离过大时,容易出现梯度衰减和爆炸。

所以采用LSTM和GRU弥补。

seq2seq

虽然RNN输入可以不定长,但是输出是定长的,所以无法解决机器翻译的问题。
seq2seq将输入通过Encoder编码成向量C,然后作为Decoder的一部分用来预测,Decode的输入是前一时刻Decoder的输出,所以可以输出不定长。

attention

当输入的句子很长时,将所有的输入都融合成一个向量C显然不合适。
attention就是将C变成一个随时间变化的权重变量。

transformer

由于RNN无法并行,attention的编码器和解码器还是使用了RNN。所以transformer完全抛弃了RNN,在编码器和解码器采用self-attention机制,可以很好地并行化。

BERT

BERT就是采用的transformer的编码器,