如何科学上推特(什么是推特?如何发推特?)

未标题-1-4 (1).png

近日,Towards Data Science的项目负责人Haebichan Jung就Twitter的NLP项目、数据科学工具等内容采访了Twitter数据科学家Alfonso Bonilla。

Alfonso Bonilla毕业于华盛顿大学,拥有计算语言学博士学位,此前他曾在沃尔玛实验室工作。

在采访中他也分享了颇为实用的NLP技巧,告诉你怎么入门。

以下是采访全文:

请描述一下你的职业背景?

我叫Alfonso Bonilla,是一名计算语言学家,目前在Twitter担任数据科学家。

关于计算语言学家到底是什么? 我认为,计算语言学是运用计算方法解决语言问题的语言学分支。

在过去的几年里,我对语言领域的机器学习模型的可解释性越来越感兴趣——尤其是涉及到面向消费者的产品时。

虽然结果和模型本身非常有效,但很难解释清楚,而且不一定与词性、语义或语法结构等语言相关。

我尤其对嵌入空间感兴趣,例如嵌入空间如何与语言概念相关,以及它是如何产生偏见的。

现在你在Twitter的哪个团队?擅长什么项目?这些团队是如何划分的?

我是一名数据科学家,从事Twitter在平台健康方面的工作,我们努力确保平台上的每个人都感到安全,并与真实可靠的信息交互。

Health只是Twitter数据科学的一个领域。Twitter的数据科学是跨越不同产品触达渠道组织起来的。

产品触达渠道是指用户与平台交互的地方,包括主时间轴、搜索、和用户引导。

Twitter的招聘流程如何? 这个过程与你在沃尔玛实验室的申请是否不同?

Twitter招聘过程中,我非常积极。

我和招聘人员进行了一次电话交谈,其中谈到了我为什么对Twitter感兴趣,以及对这个职位进行了讨论。之后,他们给了我一个带有结对编码的技术屏幕。

我之所以喜欢这次面试,是因为它并没有给我千篇一律的编码问题,而是真正专注于实际应用程序的编码。

蕞后一步是现场面试,包括4次面试。每次面试虽然简短但我都非常开心,侧重在关键的概念和兴趣的问题上。

尽管压力很大,但面试官真正想考察的是创造力,他们真正关注的是解决问题的能力。

沃尔玛的招聘过程也非常类似。我与招聘人员进行了电话交谈,然后通过技术屏幕进行结对编码,并在现场进行了4次面试。

除了沟通、问题解决和其他对数据科学至关重要的软技能外,这两种面试还会测试统计和编码等技术概念。

你常用的Twitter工具有哪些?

在日常生活中,我通常使用Python和SQL。还有一些常用的库和工具,如Jupyter、Sci-Kit learn、Numpy和Pandas,以及NLP特有的库,如NLTK、SpaCy和Gensim。

此外,Twitter还开发了一个名为Scalding的大数据工具。Scalding是一个Scala库,可以方便地指定Hadoop MapReduce作业。

目前您是一名NLP数据科学家。但也是经过正规训练的计算语言学家。你能谈谈这两个学科的异同吗?

这两者是高度相关的,但它们之间的界限真的很模糊。

计算语言学,更广泛地说,是专注于理解在不同层次和不同语境的人类语言。自然语言处理和计算机科学则侧重于计算机系统和软件的实现。

我喜欢这样思考:计算语言学使用计算方法来理解语言,而自然语言处理注重通过开发程序和算法来解决基于语言的问题。

两者都是高度跨学科的,相互影响,尤其是在技术方面。它们之间的主要区别在于其侧重点和解决的问题类型不同。 一个很好的例子是字段如何解析。

到底是什么解析? 解析的计算语言学问题是围绕形式语法展开的。但大多数NLP问题更关心解析中使用的算法。

两者的目标都是改进解析,但重点关注的问题不同,同时这些问题是高度相关的。

在你的日常工作中,这些相似之处和不同之处是如何体现的呢?

在我的工作中,不同主要的体现在我回答的问题上。

在我的工作中,很多与实现相关的问题都是基于NLP的,而与用户相关的问题则是基于CL的。

与实现相关的一个很好的例子是“如何有效地按主题分类推文?”

主题集群是一种特定类型的集群,其中按主题将推文或更一般的文档分组在一起。常用的技术包括LDA,K-means和Doc2Vec。

对我们而言,在推文分类时,系统且一致地将推文分组在一起至关重要。因为推文由用户,文本和网络组成,所以常用的技术是具有挑战性的。

面对这些的挑战,Twitter围绕“主题”群集进行了创新的工作,提出了LDA的一种变体,称为逻辑LDA的区别性主题建模。

Twitter是一个对话平台,而且进行对话的都是真实的人。了解他们如何使用Twitter将有助于我们开发更好的平台。推文分类是了解用户话题谈论方式的好方法。

为了纪念《权力的游戏》,Twitter的数据可视化团队创建了一个互动工具,从中可以看到用户如何谈论角色,以及他们如何谈论角色之间的关系。

对TDS社区中想要进入NLP数据科学领域的人有何建议?

对于有兴趣进入NLP领域的人,了解如何使用不同的NLP工具、何时使用以及为何使用非常重要。

为什么使用算法与算法本身一样重要。

在资源方面,我会先阅读Jurafsky & Martin的Speech and Language Processing。

这不是完整的清单,但是可以让你看到目前存在的问题和解决这些问题的好方法!

参考链接:

https://towardsdatascience.com/4-tips-you-need-to-know-on-nlp-from-a-twitter-data-scientist-635206c817e9

福利:关注本公众号

特别推荐

如果您对工业互联网、数据中台、精准营肖、智能推荐、人脸识别等业务经验和AI应用感兴趣,就来@派小僧 吧!

一线专家给你:

蕞全面的趟坑总结;

蕞前沿的实践经验;

蕞新落地的行业应用案例。

立即关注,一网打尽!

《云原生下数据治理的微服务架构》:

https://mp.weixin.qq.com/s/CyItUzXITwR3LHBNFOTQZg

海外精品引流脚本–最强海外引流  

官网:www.facebook18.com

唯一TG:https://t.me/Facebook181818

Facebook.png

更多海外引流脚本方案

如果你需要脚本演示、部署咨询或海外获客方案,可以通过下面入口继续查看。

官网首页 | 演示视频 | TG 在线客服 | TG 频道

相关阅读

© 版权声明
广告也精彩

相关文章