编辑整理:整理来源:腾讯视频,浏览量:88,时间:2022-06-12 21:30:02
知乎问答采集,知乎视频采买,知乎问答入口
网络信息收集。
网络信息是指通过计算机网络发布、传递和存储的各种信息。收集网络信息的最终目标是给广大用户提供网络信息资源服务,整个过程经过网络信息搜索、整合、保存和服务四个步骤。
其他收集数据的方法是:
1、调查法。调查方法一般分为普查和抽样调查两大类。
2、观察法。主要包括两个方面:一是对人的行为的观察,二是对客观事物的观察。观察法应用很广泛,常和询问法、搜集实物结合使用,以提高所收集信息的可靠性。
3、实验方法。实验方法能通过实验过程获取其他手段难以获得的信息或结论。实验方法也有多种形式,如实验室实验、现场实验、计算机模拟实验、计算机网络环境下人机结合实验等。现代管理科学中新兴的管理实验,现代经济学中正在形成的实验经济学中的经济实验,实质上就是通过实验获取与管理或经济相关的信息。
4、文献检索。文献检索就是从浩繁的文献中检索出所需的信息的过程。文献检索分为手工检索和计算机检索。
1024M Tunnel 攻城狮™
知乎专栏:https://www.zhihu.com/people/yeayee/activities
项目背景
无聊刷首页点到一个哥们签名:
关注一万个高颜值的知乎妹子!
然后看到他已经关注了一千多,
随机抽样几个,颜值真的还不错。
于是想知道我乎的妹子大V都有哪些?
具体操作
撸一个虫虫,
随意选择一个时尚专栏,
迭代获取url_token,
单线程,从凌晨挂机采集,
早上收获15391 rows × 7 columns
数据初探
结论:勤能补拙是良训
建议知乎以上面的三项指标,
和相亲节目联合作为硬性指标,
也就不会坑到我们程序员啦~啦~
签名云图,相似度,行业匹配,颜值识别?
稍后慢慢奉上~~~
有图有真相,
直接上图进行解说:
解说:一万五的知乎妹子的名字进行词频统计,看看你熟悉的谁中招了?
另外,经不完全统计,除了个人真实图像以外,用猫作为图像的占比很大!
解说:一万五的知乎妹子的签名进行词频统计,没错,很多都是运营高手!
‘微信’、‘公众号’作为签名位居榜首;‘喜欢、爱好者’表明特长也无可厚非;
但实在不明白‘一个’、‘人’、‘爱’、‘狗’、‘好’、‘做’这样的高频词代表了神马?
高能预警
解说:以粉丝数/(文章数+回答数)进行排行,可以看出影响力?
别以为这就完了,更厉害登场
解说: 零回答、零文章也可以在我乎玩的这么任性!
这些人虽然没有回答和文章,但是人家提问题多啊,或者已经是DAV。
嚯嚯,小伙伴们有啥问题赶紧用知乎体发问哈!!!
还想知道更多分析?
稍后一一奉上~~~
自己挖的坑,接上一弹留下的作业:
过程实现:
1.根据抓取的url本地存储图片;
2.用face_recognition筛选出人脸,阿猫阿狗的删除;
3.用pillow打上妹子的知乎ID;
4.人工剔除部分动画类妹子图片(可以省略);
5.处理华南理工大学数据集中的妹子颜值评分;
6.继续用face_recognition库中的face_distance获取图片的相似度(L2范数)。
原本是计划用face_recognition提取面部特征矩阵,
然后用Sklearn进行聚类分析,但是face_distance也可以做个大概判断。
PS:这个face_recognition很强大
http://link.zhihu.com/?target=https%3A//github.com/ageitgey/face_recognition/tree/master/examples
找到照片中的人脸Find faces in a photograph
https://github.com/ageitgey/face_recognition/blob/master/examples/find_faces_in_picture.py
识别照片中的面部特征Identify specific facial features in a photograph
https://github.com/ageitgey/face_recognition/blob/master/examples/find_facial_features_in_picture.py
def face_distance(face_encodings, face_to_compare): """ Given a list of face encodings, compare them to a known face encoding and get a euclidean distance for each comparison face. The distance tells you how similar the faces are. :param faces: List of face encodings to compare :param face_to_compare: A face encoding to compare against :return: A numpy ndarray with the distance for each face in the same order as the 'faces' array """ if len(face_encodings) == 0: return np.empty((0)) return np.linalg.norm(face_encodings - face_to_compare, axis=1)试验结果:
1.共提取了3600多张颜值较高的妹子图片;
2.用随机1000张生成照片墙,结果太大,我乎不能上传;
3.文中插图为照片墙的部分截图
4.需要原始数据(大图及华南理工数据集)可以站内私信。
作者详细介绍:
if civil: print("国家注册岩土工程师,隧道高级工程师,岩土论坛分版主;熟悉岩土及隧道数值分析,伪BIMer。") else: print("代表作网站intumu.com,微信小程序海豹战队。掌握爬虫;熟悉Flask,MongoDB,Pandas,Bokeh;了解Sklearn,XGboost,Pytorch,NLP。") while Wx_name: print("微信:nemoon")End.
运行人员:中国统计网小编(微信号:itongjilove)
微博ID:中国统计网
中国统计网,是国内最早的大数据学习网站,公众号:中国统计网
http://www.itongji.cn
热搜弹幕:知乎问答采集,知乎视频采买,知乎问答入口