Skip to main content

哎!做数据科学,真的是挺没前途的一条路……

 

我不知道是不是只有我的公司是这样,还是其他公司都这样,总之楼主觉得做数据科学家真的是挺没前途的一条路,当然,那些算法大牛或者商界大佬除外。

楼主毕业后去了现在的公司,2年左右的工作经验,公司是传统行业,但是算是大厂,楼主的职能有点儿像consultant。

首先,90%的公司(我自己经历的,朋友经历的)感觉数据管理都是一团糟。很多公司根本不管garbage in, garbage out,自顾自扩张,最后招来了一堆数据科学家,却没有合理的数据。公司最后反而反问,为什么你们数据科学家解决不了问题。

楼主进了公司,被换了4个项目,每次都是爬数据,把数据弄进数据库,更悲剧的是,最近还要四处找数据。每天都在做数据底层的基建工作,没有任何visibility。楼主做了很多data dictionary一类的东西,拿这些数据做一些visual分析,但是没有任何data的support,也没有人一起做这个项目,楼主觉得特别孤独,也特别无助。

商业伙伴根本帮不上忙,组里的PM只会组织会议,然后在开会的时候说所有点子都是她的,她给我的指导,天天开会讨论想法,创意,但问题是,没有数据支持,没有人了解这些数据,他们的创意也只是纸上谈兵。只是,我老板明明知道东西都是我做的,却依然帮着PM。

楼主并不喜欢自己现在工作的领域,本来就对风险这一块兴趣不大。每天映着头皮,没有数据却要自己硬造结果,真的非常辛苦。工作不被认可。楼主自己甚至也丧失了动力。

因为140在这里等着,明年4、5月估计就可以跳了。可是发现大家做数据科学家的都不开心,都没有成就感,还不如SDE。不知道有没有哪个领域的DS是受到重视的?而不是在公司里一个所有部门都不待见的岗位?

热门回复

Junhai:

我觉得这就是为什么DS岗需求更大在于有工作经验的人而不是NG。

有先前的工作经验才知道好的数据基建是什么样子的,同时senior/manager/director的分量更容易去推动改进目前的现状。

DS的职责不只是等着别人给你perfectly formatted data来做分析,当上层input的部分职责缺失的时候,也应该提出和推进相关engineering/product需求。

angela_z:

目前也在传统行业(银行)做DS 个人感觉传统大厂(可能是唯一)值得做DS的domain就是fraud/financial crime 我在做的fraud detection project impact很大visibility非常高 作为DS受到的重视也大一些 要resource也比较容易要到 business partner会稍微听话一点(因为他们知道他们需要我们做的这个model或者analysis)

当然跟tech大厂没法比 只是说这算是传统行业范围内还能有一点发展空间的domain

但我也同意这也只是个中转的岗位 eventually还是想转到PM 所以现在一直在重点打磨communication skills

jingbix:

之前在药厂作statistician,后来因为公司在中国的业务扩张,作为公司唯一的中国人和凭借家庭在国内的医疗资源,帮助公司搞定了医院的几张大单,讲实话作sale赚的比data manager多太多了,这里不想讲太多,毕竟是个例。但有一点就是,data就是为了产品服务的,没有落地的产品,模型AI做的再好也没人买单。

所以data出路,要么就是走PhD research路线,毕竟这行有学历崇拜。要么就做一点年头转行创业作data consultant比如我所知道的WEB ADVERTISING啥的,不过话也说回来,现在这年头哪个职业都挺卷,其实心态放平了,事少钱多离家近,占一样就知足把。

xqfq:

之前先后在两家公司做过数据科学/ml/ds,现在滚回去读书做的一些project也和ml擦边,来分享一下我的经历和想法:

1.第一家公司是个做e-commerce的startup,希望通过ds提高customer service和marketing等面向客户领域的效率和质量,比如用知识图谱做客服机器人啊,分析社交媒体上提及的内容啊之类的,公司没有established的收集、清洗、“制造”数据pipeline,也没有自己的computation cluster,甚至没有doploy的pipeline,一切都需要我,一个刚从大学出来且是应数这样弱弱弱弱工程背景的人自己去做,我当时的方法就是上网爬数据,质量可想而知,直到我跑路其实成品效果都很一般般。而且当时我们是用的aws的cloud,我发现aws甚至提供基本快成型的ds/ml解决方案,更让我觉得在小公司、传统行业做ds真的很天坑。

2.第二家公司是一个挺大的自动驾驶公司,数据源充足、有解决数据不足的工程方案(iot啊、用大模型simulate啊之类的)、有数据清洗的pipeline、有计算资源、有分析bad case的系统balabala,最后我搞出来成果效果就很是不错。

3.现在我滚回去读书准备转sde了,在course project里也做了一些end2end ml project, i.e. 从用iot做数据采集到模型训练到deploy都是我自己做,而不仅仅等数据喂到嘴里或者是局限于爬虫爬数据这种最最最基本且有法律风险的数据收集手段,模型的效果比我以前在startup搞的好多了,且也更有意思,毕竟不只是调参侠。

My takeaways:

1.ds是一个复杂的工程问题,从数据采集到传输到质量监测到模型训练到测试到集成部署到auto label等等都需要扎实的sde背景,如果某公司做ds的是一群没啥经验甚至纯数学统计背景的人那你就别去了,没啥前途。反之,如果公司技术能力强你能学到很多。

2.ds至少目前来说有特定的适用场景,并不像有些人鼓吹的那样啥啥行业都能用,像自动驾驶这种你找个大爷开个车带个照相机在北京转几天就能刷刷刷产无数数据的行业天然就比其他行业适合。

3.ds这个行业很可能越来越centralized,i.e. 有数据有计算资源有技术的大公司比如亚麻兜售解决方案,下游公司只需要稍稍fine tune就能用。

4.基于以上几点,我觉得new grad如果想在ds领域发展,一定要提高自己的工程能力,且要去技术好的大公司。当然大佬到哪里不能分分钟搞一套系统出来。

又想起来一件事:

两年前我面美国某零售药品的公司的ds岗,他们说他们当时在做的项目之一是这样的:

1.场景

装药的冰箱老是坏,坏了不及时发现药就烂在里面了,于是他们想用ds预测冰箱什么时候坏,然后提前把要坏的冰箱换掉。

2.解决方案

在冰箱里面装上sensor收集数据,传到云上训练模型。

我不知道他们这个项目最后做得怎么样,但听起来就挺promising,结果也是quantifiable的。所以可能ds在传统行业没有前途这个结论takeaway也并不准确,重要的还是要了解ds的困难点在哪里、所在团队的背景能否解决这些困难点、多一点ownership i.e. creatively come up with ds适合和能够解决的问题、提高工程水平让自己的toolkit里装满解决问题的方案。

Comments

Popular posts from this blog

OWASP Top 10 Threats and Mitigations Exam - Single Select

Last updated 4 Aug 11 Course Title: OWASP Top 10 Threats and Mitigation Exam Questions - Single Select 1) Which of the following consequences is most likely to occur due to an injection attack? Spoofing Cross-site request forgery Denial of service   Correct Insecure direct object references 2) Your application is created using a language that does not support a clear distinction between code and data. Which vulnerability is most likely to occur in your application? Injection   Correct Insecure direct object references Failure to restrict URL access Insufficient transport layer protection 3) Which of the following scenarios is most likely to cause an injection attack? Unvalidated input is embedded in an instruction stream.   Correct Unvalidated input can be distinguished from valid instructions. A Web application does not validate a client’s access to a resource. A Web action performs an operation on behalf of the user without checking a shared sec

CKA Simulator Kubernetes 1.22

  https://killer.sh Pre Setup Once you've gained access to your terminal it might be wise to spend ~1 minute to setup your environment. You could set these: alias k = kubectl                         # will already be pre-configured export do = "--dry-run=client -o yaml"     # k get pod x $do export now = "--force --grace-period 0"   # k delete pod x $now Vim To make vim use 2 spaces for a tab edit ~/.vimrc to contain: set tabstop=2 set expandtab set shiftwidth=2 More setup suggestions are in the tips section .     Question 1 | Contexts Task weight: 1%   You have access to multiple clusters from your main terminal through kubectl contexts. Write all those context names into /opt/course/1/contexts . Next write a command to display the current context into /opt/course/1/context_default_kubectl.sh , the command should use kubectl . Finally write a second command doing the same thing into /opt/course/1/context_default_no_kubectl.sh , but without the use of k

标 题: 关于Daniel Guo 律师

发信人: q123452017 (水天一色), 信区: I140 标  题: 关于Daniel Guo 律师 关键字: Daniel Guo 发信站: BBS 未名空间站 (Thu Apr 26 02:11:35 2018, 美东) 这些是lz根据亲身经历在 Immigration版上发的帖以及一些关于Daniel Guo 律师的回 帖,希望大家不要被一些马甲帖广告帖所骗,慎重考虑选择律师。 WG 和Guo两家律师对比 1. fully refund的合约上的区别 wegreened家是case不过只要第二次没有file就可以fully refund。郭家是要两次case 没过才给refund,而且只要第二次pl draft好律师就可以不退任何律师费。 2. 回信速度 wegreened家一般24小时内回信。郭律师是在可以快速回复的时候才回复很快,对于需 要时间回复或者是不愿意给出确切答复的时候就回复的比较慢。 比如:lz问过郭律师他们律所在nsc区域最近eb1a的通过率,大家也知道nsc现在杀手如 云,但是郭律师过了两天只回复说让秘书update最近的case然后去网页上查,但是上面 并没有写明tsc还是nsc。 lz还问过郭律师关于准备ps (他要求的文件)的一些问题,模版上有的东西不是很清 楚,但是他一般就是把模版上的东西再copy一遍发过来。 3. 材料区别 (推荐信) 因为我只收到郭律师写的推荐信,所以可以比下两家推荐信 wegreened家推荐信写的比较长,而且每封推荐信会用不同的语气和风格,会包含lz写 的research summary里面的某个方面 郭家四封推荐信都是一个格式,一种语气,连地址,信的称呼都是一样的,怎么看四封 推荐信都是同一个人写出来的。套路基本都是第一段目的,第二段介绍推荐人,第三段 某篇或几篇文章的abstract,最后结论 4. 前期材料准备 wegreened家要按照他们的模版准备一个十几页的research summary。 郭律师在签约之前说的是只需要准备五页左右的summary,但是在lz签完约收到推荐信 ,郭律师又发来一个很长的ps要lz自己填,而且和pl的格式基本差不多。 总结下来,申请自己上心最重要。但是如果选律师,lz更倾向于wegreened,