股票数据爬取添加README.md

2023-12-27 17:32:52 +08:00
parent fc46e76d74
commit 175088644a
2 changed files with 124 additions and 0 deletions
--- a/stock_data/.todo
+++ b/stock_data/.todo
--- a/stock_data/README.md
+++ b/stock_data/README.md
@@ -0,0 +1,124 @@
+# 股票数据爬取
+
+## 股票的基础知识
+
+### 简介
+
+股票是一种证券，它代表了投资者对某个公司的所有权的一部分。股票的价格由市场的供求关系决定，通常反映了投资者对公司未来盈利能力的预期。股票的持有者可以通过股息或卖出股票来获得收益，也可以通过参与股东大会或委托代理人来对公司的经营管理发表意见或投票。
+
+### 种类
+
+股票的种类有很多，根据发行地点和投资者的不同，可以分为A股、B股、H股、N股、S股、L股等。
+
+- A股是指在中国大陆上市交易的人民币普通股，主要面向中国大陆的投资者；
+- B股是指在中国大陆上市交易的外币特种股，主要面向外国和港澳台的投资者；
+- H股是指在香港上市交易的人民币普通股，主要面向全球的投资者。
+
+其他的股票种类类似，只是发行地点和交易货币不同。
+
+### 股票市场
+
+股票在股票市场上进行买卖。常见的股票市场包括纳斯达克（Nasdaq）和纽约证券交易所（NYSE）。
+
+### 股票数据
+
+股票价格数据：股票的基本数据包括开盘价（当日第一笔交易的价格）、收盘价（当日最后一笔交易的价格）、最高价和最低价。
+
+成交量：成交量表示一段时间内的交易数量。高成交量通常伴随着市场波动。
+
+调整后的股价：考虑公司分红、拆股等因素后的股价，以便更好地反映实际投资回报。
+
+## 相关库
+
+tushare（积分制）
+https://www.tushare.pro/
+
+akshare
+
+efinance
+https://github.com/Micro-sheep/efinance
+https://pypi.org/project/efinance/
+https://zhuanlan.zhihu.com/p/388088384
+
+## 数据来源平台
+
+天天基金网
+https://www.1234567.com.cn/
+
+东方财富网
+http://quote.eastmoney.com/stocklist.html
+
+腾讯证券
+https://stockapp.finance.qq.com/mstats/
+https://gu.qq.com/sh000001/zs
+
+https://cn.investing.com/
+
+https://www.alphavantage.co/
+
+### 更多
+
+https://www.wstock.net/
+
+## 接口整理
+
+腾讯股票、新浪股票、天天基金网接口整理
+https://zhuanlan.zhihu.com/p/595505781
+
+## 用Python爬取股票的历史数据
+
+如果你想用Python爬取股票的历史数据，有很多平台可以提供这样的服务，比如东方财富网、网易财经、新浪财经等。这些平台通常会提供股票的代码、名称、开盘价、收盘价、最高价、最低价、成交量、成交额、涨跌幅、换手率等数据，有些还会提供股票的资金流向、技术指标、财务报表等数据。你可以根据你的需要选择合适的平台和数据。
+
+为了爬取股票的历史数据，你需要使用Python的一些库，比如requests、re、pandas等。requests库可以帮助你发送网络请求，获取网页的源代码；re库可以帮助你使用正则表达式，从网页的源代码中提取你想要的数据；pandas库可以帮助你将数据存储在数据框中，方便进行分析和保存。你还可以使用一些第三方的库，比如akshare、efinance等，它们封装了一些常用的股票数据接口，可以让你更方便地获取股票数据。
+
+下面，我将给你展示一个简单的例子，如何用Python爬取东方财富网的股票数据，并保存到本地的csv文件中。你可以参考这个例子，根据你的需求修改代码，或者查看更多的教程和文档，学习更多的知识和技巧。
+
+```python
+# 导入 requests、re、pandas 库
+import requests
+import re
+import pandas as pd
+
+# 定义一个函数，根据股票代码和页码，获取股票的历史数据
+def get_stock_data(stock_code, page):
+    # 构造 url，根据东方财富网的规则，cmd 参数表示股票代码，p 参数表示页码
+    url = "http://data.eastmoney.com/DataCenter_V3/stock2016/TradeDetail/pagesize=50,page="+str(page)+",sortRule=-1,sortType=,startDate=,endDate=,gpfw=0,js=var%20data_tab_1.html?rt=26794299&code="+stock_code
+    # 发送 get 请求，获取网页的源代码
+    r = requests.get(url)
+    # 使用正则表达式，从源代码中提取 data 参数的值，即股票数据的列表
+    pat = "data:(.*?),"
+    data = re.compile(pat, re.S).findall(r.text)[0]
+    # 将字符串形式的列表转换为 Python 的列表
+    data = eval(data)
+    # 返回股票数据的列表
+    return data
+
+# 定义一个股票代码，比如 600519，即贵州茅台
+stock_code = "600519"
+# 定义一个空列表，用来存储所有的股票数据
+stock_data = []
+# 定义一个页码变量，初始值为 1
+page = 1
+# 循环爬取多页数据，直到没有新的数据为止
+while True:
+    # 调用函数，获取第 page 页的股票数据
+    data = get_stock_data(stock_code, page)
+    # 如果数据不为空，说明还有新的数据，将数据添加到 stock_data 列表中
+    if data:
+        stock_data.extend(data)
+        # 打印提示信息，显示已经爬取了多少页
+        print("已爬取第"+str(page)+"页")
+        # 将页码加一，准备爬取下一页
+        page += 1
+    # 如果数据为空，说明没有新的数据了，跳出循环
+    else:
+        break
+# 将 stock_data 列表转换为 pandas 的数据框
+df = pd.DataFrame(stock_data)
+# 定义数据框的列名，根据东方财富网的规则，依次为日期、开盘价、收盘价、最高价、最低价、涨跌幅、成交量、成交额、振幅、换手率
+df.columns = ["日期","开盘价","收盘价","最高价","最低价","涨跌幅","成交量","成交额","振幅","换手率"]
+# 将数据框保存到本地的 csv 文件中，文件名为股票代码，编码为 utf-8
+df.to_csv(stock_code+".csv", encoding="utf-8", index=False)
+# 打印提示信息，显示已经保存了多少条数据
+print("已保存"+str(len(df))+"条数据到"+stock_code+".csv文件中")
+```