最近比较火的10篇大数据文章
2019-03-25 15:28:33 来源：评论：0 点击：

Sicara团队精挑细选,了10篇在今年7月发表的大数据相关文章（Sicara是一家从事Agile数据开发的公司，总部位于巴黎），我们一起来看一下把。

 
本文相继刊载了一些实用文章、科研论文讨论以及几篇与商业和科学有关的数据科学和信息架构（IA）论文。（文章排名不分顺序）
另外还登载了一篇描述一场早期人机大战的文章（不是象棋竞赛；这篇文章排在名单的第5位）。
SO，enjoy!
1 .《如何教机器自动编程？——NEAT学习》(How do we teach a machine to program itself? — Neat learning)作者:Murat Vurucu
 
Murat Vurucu 在这篇论文中，用简单的措辞和实例解释了一种名为“NEAT”的新方法。
NEAT通过按照特定规则对现有神经网络进行整合的方式，生成了新的神经网络，这些特定规则是受遗传学启发而归纳出来的。
这篇文章的唯一问题是：“neat”这个词并不双关，不包含“简洁”这层意义。
原文地址:
https://medium.com/towards-data-science/how-do-we-teach-a-machine-to-program-itself-neat-learning-bb40c53a8aa6
2.《基于树的学习算法实用指南》（A practical guide to tree based learning algorithms）作者：Sadanand Singh
 
你还在搜寻既实用又详尽的基于树的学习算法教程吗？别找了。这里有一本深入的教程，堪比增强版的Udacy，理论、彩图和代码示例在这里应有尽有。
该教程的作者Sadanand Singh还写过一本关于支持向量机(SVM)的类似教程，可点通过链接（https://sadanand-singh.github.io/posts/svmpython/）阅读该教程。
原文地址
https://sadanand-singh.github.io/posts/treebasedmodels/
3.《设想一下：通过重新组合熟悉的视觉概念来创造新的视觉概念》(Imagine this: Creating new visual concepts by recombining familiar ones)
符号→图像 图像→符号
“白色”手提箱 “帽子，橙色地板，品红色墙壁”
Deepmind发表的最新研究成果，宣布其在开发可以概括自身学习的算法的过程中，取得了新进展。
在这项研究当中，研究人员模仿了婴儿的学习方式——借助口头提示观察物体，并从中得出含义。他们成功地展示了对一些颜色和物体的泛化能力。
我们还发现，研究人员在架构中使用了无监督学习，这点尤为有趣。这篇论文绝对与《深度学习的未来》（名单中的第6篇论文）相得益彰。
原文地址
https://deepmind.com/
4.《计算机阅读肢体语言》(Computer Reads Body Language)作者： Byron Spice
 
机器学习系统的工作方式是，利用一台摄像机学习如何实时识别肢体语言，只需一台笔记本电脑，可以识别十几个人的肢体语言。
曾经，微软面向Xbox 360娱乐平台推出了体感游戏设备Kinect，但这样的光辉岁月似乎早已终结。
现在，卡内基梅隆大学的研究人员使用一种类似Kinect的精准肢体映射来训练他们的AI系统。它的输入是一台摄像机记录的即时影像，而更为准确的数据则作为地面真值。
该AI系统成功地对其训练作出了正确概括，所得结果也相当出色。研究人员已将他们的代码以开源的形式公开了出来。在查看代码之前，一定要看一下链接视频（地址：https://www.youtube.com/watch?v=LrCO8QcXfAY）
原文地址
https://www.cmu.edu/news/stories/archives/2017/july/computer-reads-body-language.html
5 .《人机对决》(How checkers was solved)作者： Alexis C. Madrigal
 
在Deep Blue与Garry Kasparov大战，AlphaGo对决李世石之前，最早的一场人机大战是世界顶级跳棋大师Marion Tinsley与Chinook超级计算机间的战局。Alexis C. Madrigal在这篇文章中饶有趣味地描述了90年代初期的这场人机对战。
这篇刊载在《大西洋月刊》上的文章不仅探讨了程序员和棋手的心理，还为了解机器学习当前取得的进步提供了启发。另外，这篇文章对读者文学素养的提高也大有裨益。
原文地址
https://www.theatlantic.com/technology/archive/2017/07/marion-tinsley-checkers/534111/
6 .《深度学习的未来》(The future of deep learning)作者： François Chollet
 
François Chollet在这篇文章中探讨了如何使机器学习模型更加接近于通用人工智能AGI。
此文延续了他之前在《深度学习局限》中提出的想法（这两篇文章都载于作者的《Python深度学习》一书中）。
作者围绕这个主题提出了一些务实的观点，而Agile数据工程师们的工作正离商业和经济价值的实现越来越接近，对于他们来说，这绝对是一篇好文章！
原文地址
https://dev.to/kasperfred/the-future-of-deep-learning
7 .《机器学习中的技术性债务》 (Technical debt in machine learning)作者：Maksym Zavershynskyi
 
Maksym Zavershynskyi在此文中简短而深刻地概述了机器学习项目中如何产生技术性债务的问题。
Maksym的论调有些夸张，但是他选择对这样一个鲜有人提及的论题进行探讨，还是十分令人欣赏的，而且Maksym的建议也很有实践价值。另外，Maksym还给出了一些研究相同论题的参考论文。
https://medium.com/towards-data-science/technical-debt-in-machine-learning-8b0fae938657
8 .《人工智能正在改变我们进行科学研究的方式》(AI is changing how we do science. Get a glimpse)
 
著名期刊《科学杂志》在此文中给出了机器学习和AI在科学上的5个应用案例，涉及的领域包括物理学、心理学、生物学、天文学和化学。
我们可以从中了解到，AI技术在前沿科学实验中真的是大放异彩。
《 AI is changing how we do science. Get a glimpse 》——选自《Science Magazine》
原文地址
http://www.sciencemag.org/news/2017/07/ai-changing-how-we-do-science-get-glimpse
9 .《我有数据，我需要理解这些数据，应该从哪里开始？》(I have data. I need insights. Where do I start? )作者 ：Rama Ramakrishnan
 
如果你从事的是数据科学方面的工作，那么你可能遇到过这个问题：大多数人不知道从哪里开始研究。
Rama Ramakrishnan认为，我们应把一个业务看作一个黑箱来探索。如果你是一名数据科学家，在研究数据之前，你应该先问自己希望看到什么样的数据。
原文地址
https://medium.com/towards-data-science/i-have-data-i-need-insights-where-do-i-start-7ddc935ab365
10 .《当前可作商业用途的人工智能工具列表》(A list of artificial intelligence tools you can use today — for businesses)作者：Liam Hänel
 
如果有人告诉你，人工智能目前仍然是实验室的事儿，你就给他看看这个名单。
目前，人工智能在商业上的应用越来越广，Liam Hänel 从不同领域中选出了数百家应用人工智能的公司。这份清单十分强大，而且列出的都是高质量的实用工具。