如何科学上推特(什么是推特?如何发推特?)
近日,Towards Data Science的项目负责人Haebichan Jung就Twitter的NLP项目、数据科学工具等内容采访了Twitter数据科学家Alfonso Bonilla。
Alfonso Bonilla毕业于华盛顿大学,拥有计算语言学博士学位,此前他曾在沃尔玛实验室工作。
在采访中他也分享了颇为实用的NLP技巧,告诉你怎么入门。
以下是采访全文:
请描述一下你的职业背景?
我叫Alfonso Bonilla,是一名计算语言学家,目前在Twitter担任数据科学家。
关于计算语言学家到底是什么? 我认为,计算语言学是运用计算方法解决语言问题的语言学分支。
在过去的几年里,我对语言领域的机器学习模型的可解释性越来越感兴趣——尤其是涉及到面向消费者的产品时。
虽然结果和模型本身非常有效,但很难解释清楚,而且不一定与词性、语义或语法结构等语言相关。
我尤其对嵌入空间感兴趣,例如嵌入空间如何与语言概念相关,以及它是如何产生偏见的。
现在你在Twitter的哪个团队?擅长什么项目?这些团队是如何划分的?
我是一名数据科学家,从事Twitter在平台健康方面的工作,我们努力确保平台上的每个人都感到安全,并与真实可靠的信息交互。
Health只是Twitter数据科学的一个领域。Twitter的数据科学是跨越不同产品触达渠道组织起来的。
产品触达渠道是指用户与平台交互的地方,包括主时间轴、搜索、和用户引导。
Twitter的招聘流程如何? 这个过程与你在沃尔玛实验室的申请是否不同?
Twitter招聘过程中,我非常积极。
我和招聘人员进行了一次电话交谈,其中谈到了我为什么对Twitter感兴趣,以及对这个职位进行了讨论。之后,他们给了我一个带有结对编码的技术屏幕。
我之所以喜欢这次面试,是因为它并没有给我千篇一律的编码问题,而是真正专注于实际应用程序的编码。
蕞后一步是现场面试,包括4次面试。每次面试虽然简短但我都非常开心,侧重在关键的概念和兴趣的问题上。
尽管压力很大,但面试官真正想考察的是创造力,他们真正关注的是解决问题的能力。
沃尔玛的招聘过程也非常类似。我与招聘人员进行了电话交谈,然后通过技术屏幕进行结对编码,并在现场进行了4次面试。
除了沟通、问题解决和其他对数据科学至关重要的软技能外,这两种面试还会测试统计和编码等技术概念。
你常用的Twitter工具有哪些?
在日常生活中,我通常使用Python和SQL。还有一些常用的库和工具,如Jupyter、Sci-Kit learn、Numpy和Pandas,以及NLP特有的库,如NLTK、SpaCy和Gensim。
此外,Twitter还开发了一个名为Scalding的大数据工具。Scalding是一个Scala库,可以方便地指定Hadoop MapReduce作业。
目前您是一名NLP数据科学家。但也是经过正规训练的计算语言学家。你能谈谈这两个学科的异同吗?
这两者是高度相关的,但它们之间的界限真的很模糊。
计算语言学,更广泛地说,是专注于理解在不同层次和不同语境的人类语言。自然语言处理和计算机科学则侧重于计算机系统和软件的实现。
我喜欢这样思考:计算语言学使用计算方法来理解语言,而自然语言处理注重通过开发程序和算法来解决基于语言的问题。
两者都是高度跨学科的,相互影响,尤其是在技术方面。它们之间的主要区别在于其侧重点和解决的问题类型不同。 一个很好的例子是字段如何解析。
到底是什么解析? 解析的计算语言学问题是围绕形式语法展开的。但大多数NLP问题更关心解析中使用的算法。
两者的目标都是改进解析,但重点关注的问题不同,同时这些问题是高度相关的。
在你的日常工作中,这些相似之处和不同之处是如何体现的呢?
在我的工作中,不同主要的体现在我回答的问题上。
在我的工作中,很多与实现相关的问题都是基于NLP的,而与用户相关的问题则是基于CL的。
与实现相关的一个很好的例子是“如何有效地按主题分类推文?”
主题集群是一种特定类型的集群,其中按主题将推文或更一般的文档分组在一起。常用的技术包括LDA,K-means和Doc2Vec。
对我们而言,在推文分类时,系统且一致地将推文分组在一起至关重要。因为推文由用户,文本和网络组成,所以常用的技术是具有挑战性的。
面对这些的挑战,Twitter围绕“主题”群集进行了创新的工作,提出了LDA的一种变体,称为逻辑LDA的区别性主题建模。
Twitter是一个对话平台,而且进行对话的都是真实的人。了解他们如何使用Twitter将有助于我们开发更好的平台。推文分类是了解用户话题谈论方式的好方法。
为了纪念《权力的游戏》,Twitter的数据可视化团队创建了一个互动工具,从中可以看到用户如何谈论角色,以及他们如何谈论角色之间的关系。
对TDS社区中想要进入NLP数据科学领域的人有何建议?
对于有兴趣进入NLP领域的人,了解如何使用不同的NLP工具、何时使用以及为何使用非常重要。
为什么使用算法与算法本身一样重要。
在资源方面,我会先阅读Jurafsky & Martin的Speech and Language Processing。
这不是完整的清单,但是可以让你看到目前存在的问题和解决这些问题的好方法!
参考链接:
https://towardsdatascience.com/4-tips-you-need-to-know-on-nlp-from-a-twitter-data-scientist-635206c817e9
福利:关注本公众号
特别推荐
如果您对工业互联网、数据中台、精准营肖、智能推荐、人脸识别等业务经验和AI应用感兴趣,就来@派小僧 吧!
一线专家给你:
蕞全面的趟坑总结;
蕞前沿的实践经验;
蕞新落地的行业应用案例。
立即关注,一网打尽!
《云原生下数据治理的微服务架构》:
https://mp.weixin.qq.com/s/CyItUzXITwR3LHBNFOTQZg
海外精品引流脚本–最强海外引流
唯一TG:https://t.me/Facebook181818
更多海外引流脚本方案
如果你需要脚本演示、部署咨询或海外获客方案,可以通过下面入口继续查看。
