feat: streaming api

2026-04-22 18:33:08 +08:00
parent c17a131fe0
commit 42eb035f4b
8 changed files with 7025 additions and 2 deletions
--- a/.github/workflows/docker-build.yml
+++ b/.github/workflows/docker-build.yml
@ -0,0 +1,31 @@
 name: Build container
 env:
  VERSION: 0.0.1
  REGISTRY: https://harbor.bwgdi.com
  REGISTRY_NAME: harbor.bwgdi.com
 on:
  push:
    branches:
      - main
  workflow_dispatch:
 jobs:
  build-docker:
    runs-on: builder-ubuntu-latest
    steps:
      - name: Checkout
        uses: actions/checkout@v3
      - name: Login to Docker Hub
        uses: docker/login-action@v3
        with:
          registry: ${{ env.REGISTRY }}
          username: ${{ secrets.BWGDI_NAME }}
          password: ${{ secrets.BWGDI_TOKEN }}
      - name: Set up Docker Buildx
        uses: docker/setup-buildx-action@v2
      - name: Build and push
        uses: docker/build-push-action@v4
        with:
          context: .
          file: ./Dockerfile
          push: true
          tags: ${{ env.REGISTRY_NAME }}/library/qwen3-asr:${{ env.VERSION }}
--- a/14
+++ b/14
@ -0,0 +1,14 @@
 FROM python:3.12-slim
 RUN apt-get update && apt-get install -y ffmpeg && rm -rf /var/lib/apt/lists/*
 COPY --from=ghcr.io/astral-sh/uv:latest /uv /uvx /bin/
 WORKDIR /app
 COPY . .
 RUN uv sync
 ENV ASR_MODEL_PATH="Qwen/Qwen3-ASR-1.7B"
 EXPOSE 5000
 CMD ["sh", "-c", "uv run examples/api_unified_fastapi.py --asr-model-path $ASR_MODEL_PATH"]
--- a/README_BW.md
+++ b/README_BW.md
@ -0,0 +1,165 @@
 # Qwen3-ASR
 https://github.com/QwenLM/Qwen3-ASR
 ## 📦 Version History
 | Version | Date       | Summary                         |
 |---------|------------|---------------------------------|
 | 0.0.1   | 2026-04-22 | Initial version                 |
 ### 🔄 Version Details
 #### 🆕 0.0.1 – *2026-04-22*
 - ✅ **Core Features**
  - Initial Qwen3-ASR integration
 ---
 # Start
 ```bash
 docker pull harbor.bwgdi.com/library/qwen3asr:0.0.1
 # Run with custom model path
 # -e ASR_MODEL_PATH: Model name or local path inside container
 docker run -d --restart always -p 8000:8000 --gpus all \
  -e ASR_MODEL_PATH="Qwen/Qwen3-ASR-1.7B" \
  --mount type=bind,source=/path/to/your/models,target=/models \
  harbor.bwgdi.com/library/qwen3asr:0.0.3
 ```
 # Usage
 ## Non-streaming (HTTP POST)
 Transcribe an entire audio file.
 ```bash
 curl -X POST http://localhost:8000/asr/transcribe \
     -F "file=@audio.wav" \
     -F "language=Chinese"
 ```
 ## Streaming (WebSocket)
 Real-time incremental transcription.
 - **URL**: `ws://localhost:8000/asr/stream`
 - **Protocol**: 
    - Client sends `bytes`: float32 PCM 16kHz audio chunks.
    - Client sends `text`: `{"command": "finish"}` to stop.
    - Server sends `text`: `{"session_id": ..., "language": ..., "text": ..., "is_final": bool}`
 Example using Python `websockets`:
 ```python
 # coding=utf-8
 import argparse
 import asyncio
 import io
 import json
 import logging
 import urllib.request
 import numpy as np
 import soundfile as sf
 import websockets
 # Configure logging
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
 async def stream_audio_to_api(uri: str, audio_path: str, chunk_size_ms: int = 500):
    """
    Load audio and stream it in chunks to the ASR WebSocket API.
    """
    logger.info(f"Loading audio from {audio_path}...")
    # Load audio data
    if audio_path.startswith("http"):
        # Download from URL
        req = urllib.request.Request(audio_path, headers={"User-Agent": "Mozilla/5.0"})
        with urllib.request.urlopen(req, timeout=30) as resp:
            audio_bytes = resp.read()
        f = io.BytesIO(audio_bytes)
    else:
        # Load local file
        f = audio_path
    # Read audio as Float32
    wav, sr = sf.read(f, dtype="float32", always_2d=False)
    # Simple resample to 16k if needed (for better accuracy)
    if sr != 16000:
        logger.warning(f"Audio sample rate is {sr}, resampling to 16000...")
        dur = wav.shape[0] / float(sr)
        n16 = int(round(dur * 16000))
        x_old = np.linspace(0.0, dur, num=wav.shape[0], endpoint=False)
        x_new = np.linspace(0.0, dur, num=n16, endpoint=False)
        wav = np.interp(x_new, x_old, wav).astype(np.float32)
        sr = 16000
    # Calculate samples per chunk
    chunk_samples = int(sr * chunk_size_ms / 1000)
    logger.info(f"Connecting to WebSocket at {uri}...")
    try:
        async with websockets.connect(uri) as websocket:
            logger.info("Connected. Streaming audio...")
            pos = 0
            call_id = 0
            while pos < len(wav):
                chunk = wav[pos : pos + chunk_samples]
                pos += len(chunk)
                call_id += 1
                # Send binary Float32 data
                await websocket.send(chunk.tobytes())
                # Wait for immediate response (intermediate result)
                try:
                    response = await asyncio.wait_for(websocket.recv(), timeout=2.0)
                    result = json.loads(response)
                    if "error" in result:
                        logger.error(f"API Error: {result['error']}")
                        return
                    lang = result.get("language", "unknown")
                    text = result.get("text", "")
                    print(f"[Chunk {call_id:03d}] Lang: {lang:7s} | Text: {text}")
                except asyncio.TimeoutError:
                    logger.warning(f"Timeout waiting for response on chunk {call_id}")
                # Optional: simulate real-time performance
                # await asyncio.sleep(chunk_size_ms / 1000)
            # Send finish command
            logger.info("Finished streaming audio. Sending 'finish' command...")
            await websocket.send(json.dumps({"command": "finish"}))
            # Wait for final response
            try:
                final_response = await asyncio.wait_for(websocket.recv(), timeout=5.0)
                final_result = json.loads(final_response)
                print("\n" + "="*50)
                print("FINAL RESULT:")
                print(f"Language: {final_result.get('language')}")
                print(f"Text:     {final_result.get('text')}")
                print("="*50)
            except asyncio.TimeoutError:
                logger.error("Timeout waiting for final response")
    except Exception as e:
        logger.error(f"WebSocket Error: {e}")
 def main():
    parser = argparse.ArgumentParser(description="Qwen3-ASR Streaming API Client Test")
    parser.add_argument("--url", default="ws://localhost:8000/asr/stream", help="WebSocket API URI")
    parser.add_argument("--audio", default="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav", 
                        help="Path or URL to audio file")
    parser.add_argument("--chunk-ms", type=int, default=1000, help="Chunk size in milliseconds")
    args = parser.parse_args()
    asyncio.run(stream_audio_to_api(args.url, args.audio, args.chunk_ms))
 if __name__ == "__main__":
    main()
 ```
--- a/examples/api_streaming_fastapi.py
+++ b/examples/api_streaming_fastapi.py
@ -0,0 +1,128 @@
 # coding=utf-8
 import argparse
 import json
 import logging
 import uuid
 from typing import Optional
 import numpy as np
 import uvicorn
 from fastapi import FastAPI, WebSocket, WebSocketDisconnect
 from qwen_asr import Qwen3ASRModel
 # Configure logging
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
 app = FastAPI(title="Qwen3-ASR Streaming API")
 # Global ASR model instance
 asr_model: Optional[Qwen3ASRModel] = None
 server_args = None
@app.on_event("startup")
 async def startup_event():
    global asr_model
    logger.info(f"Loading ASR model from {server_args.asr_model_path}...")
    # Using vLLM backend for streaming
    asr_model = Qwen3ASRModel.LLM(
        model=server_args.asr_model_path,
        gpu_memory_utilization=server_args.gpu_memory_utilization,
        max_new_tokens=server_args.max_new_tokens,
    )
    logger.info("Model loaded successfully.")
@app.websocket("/asr/stream")
 async def websocket_endpoint(websocket: WebSocket):
    await websocket.accept()
    session_id = uuid.uuid4().hex
    logger.info(f"New session started: {session_id}")
    # Initialize streaming state for this session
    state = asr_model.init_streaming_state(
        unfixed_chunk_num=server_args.unfixed_chunk_num,
        unfixed_token_num=server_args.unfixed_token_num,
        chunk_size_sec=server_args.chunk_size_sec,
    )
    try:
        while True:
            # Receive message from client
            message = await websocket.receive()
            if "bytes" in message:
                # Binary audio data (Float32, 16kHz)
                raw_bytes = message["bytes"]
                if len(raw_bytes) % 4 != 0:
                    await websocket.send_json({"error": "Data length must be multiple of 4 bytes (Float32)"})
                    continue
                # Convert bytes to numpy array
                wav = np.frombuffer(raw_bytes, dtype=np.float32)
                # Perform streaming transcription
                asr_model.streaming_transcribe(wav, state)
                # Send back current intermediate transcription
                await websocket.send_json({
                    "session_id": session_id,
                    "language": getattr(state, "language", "") or "",
                    "text": getattr(state, "text", "") or "",
                    "is_final": False
                })
            elif "text" in message:
                # Command message
                try:
                    text_data = json.loads(message["text"])
                    if text_data.get("command") == "finish":
                        logger.info(f"Finish command received for session: {session_id}")
                        break
                except json.JSONDecodeError:
                    logger.warning(f"Received invalid JSON text: {message['text']}")
    except WebSocketDisconnect:
        logger.info(f"Client disconnected: {session_id}")
    except Exception as e:
        logger.error(f"Error in session {session_id}: {e}", exc_info=True)
        try:
            print(e)
            await websocket.send_json({"error": str(e)})
        except:
            pass
    finally:
        # Finish transcription and send final results
        try:
            asr_model.finish_streaming_transcribe(state)
            await websocket.send_json({
                "session_id": session_id,
                "language": getattr(state, "language", "") or "",
                "text": getattr(state, "text", "") or "",
                "is_final": True
            })
            logger.info(f"Sent final result for session: {session_id}")
        except Exception as e:
            logger.error(f"Error while finishing session {session_id}: {e}")
        try:
            await websocket.close()
        except:
            pass
        logger.info(f"Session closed: {session_id}")
 def parse_args():
    p = argparse.ArgumentParser(description="Qwen3-ASR Streaming API (vLLM backend)")
    p.add_argument("--asr-model-path", default="Qwen/Qwen3-ASR-1.7B", help="Model name or local path")
    p.add_argument("--host", default="0.0.0.0", help="Bind host")
    p.add_argument("--port", type=int, default=8000, help="Bind port")
    p.add_argument("--gpu-memory-utilization", type=float, default=0.8, help="vLLM GPU memory utilization")
    p.add_argument("--max-new-tokens", type=int, default=32, help="Max new tokens to generate per streaming call. Small value is recommended for low latency.")
    p.add_argument("--unfixed-chunk-num", type=int, default=4, help="Number of unfixed chunks in streaming")
    p.add_argument("--unfixed-token-num", type=int, default=5, help="Number of unfixed tokens in streaming")
    p.add_argument("--chunk-size-sec", type=float, default=1.0, help="Size of each chunk in seconds")
    return p.parse_args()
 if __name__ == "__main__":
    server_args = parse_args()
    # Note: Use uvicorn to run the FastAPI app
    uvicorn.run(app, host=server_args.host, port=server_args.port)
--- a/examples/api_unified_fastapi.py
+++ b/examples/api_unified_fastapi.py
@ -0,0 +1,188 @@
 # coding=utf-8
 """
 Unified Qwen3-ASR API Server
 ============================
 模型只加载一次，同时提供：
  - POST /asr/transcribe  （非流式，整段音频转写）
  - WS   /asr/stream      （流式，实时增量转写）
 启动示例：
  uv run examples/api_unified_fastapi.py --asr-model-path Qwen/Qwen3-ASR-1.7B
 非流式调用示例（Python）：
  import requests
  with open("audio.wav", "rb") as f:
      resp = requests.post("http://localhost:8000/asr/transcribe",
                           files={"file": ("audio.wav", f, "audio/wav")},
                           data={"context": "", "language": ""})
  print(resp.json())
 """
 import argparse
 import io
 import json
 import logging
 import uuid
 from typing import Optional
 import numpy as np
 import soundfile as sf
 import uvicorn
 from fastapi import FastAPI, File, Form, UploadFile, WebSocket, WebSocketDisconnect
 from fastapi.responses import JSONResponse
 from qwen_asr import Qwen3ASRModel
 logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s - %(name)s - %(levelname)s - %(message)s",
 )
 logger = logging.getLogger(__name__)
 app = FastAPI(title="Qwen3-ASR Unified API")
 # ── 全局单例 ──────────────────────────────────────────────────────────────────
 asr_model: Optional[Qwen3ASRModel] = None
 server_args = None
@app.on_event("startup")
 async def startup_event():
    global asr_model
    logger.info(f"Loading ASR model from {server_args.asr_model_path} ...")
    asr_model = Qwen3ASRModel.LLM(
        model=server_args.asr_model_path,
        gpu_memory_utilization=server_args.gpu_memory_utilization,
        max_new_tokens=server_args.max_new_tokens,
    )
    logger.info("Model loaded successfully.")
 # ── 非流式端点（HTTP POST multipart）─────────────────────────────────────────
@app.post("/asr/transcribe")
 async def transcribe_endpoint(
    file: UploadFile = File(..., description="音频文件（wav/mp3/flac 等 soundfile 支持的格式）"),
    context: str = Form(default="", description="可选上下文"),
    language: str = Form(default="", description="可选强制语言，如 Chinese / English"),
 ):
    """
    非流式整段转写。
    以 multipart/form-data 上传音频文件，返回最终转写文本。
    curl 示例：
      curl -X POST http://localhost:8000/asr/transcribe \\
           -F "file=@audio.wav" -F "context=" -F "language="
    """
    try:
        raw = await file.read()
        with io.BytesIO(raw) as buf:
            wav, sr = sf.read(buf, dtype="float32", always_2d=False)
        wav = np.asarray(wav, dtype=np.float32)
        results = asr_model.transcribe(
            audio=(wav, sr),
            context=context,
            language=language.strip() or None,
        )
        r = results[0]
        return {"language": r.language, "text": r.text}
    except Exception as e:
        logger.error(f"Transcribe error: {e}", exc_info=True)
        return JSONResponse(status_code=500, content={"error": str(e)})
 # ── 流式端点（WebSocket）──────────────────────────────────────────────────────
@app.websocket("/asr/stream")
 async def websocket_endpoint(websocket: WebSocket):
    """
    流式增量转写。
    协议：
      客户端 → bytes : float32 PCM 16kHz 音频块
      客户端 → text  : {"command": "finish"} 结束会话
      服务端 → text  : {"session_id": ..., "language": ..., "text": ..., "is_final": bool}
    """
    await websocket.accept()
    session_id = uuid.uuid4().hex
    logger.info(f"Stream session started: {session_id}")
    state = asr_model.init_streaming_state(
        unfixed_chunk_num=server_args.unfixed_chunk_num,
        unfixed_token_num=server_args.unfixed_token_num,
        chunk_size_sec=server_args.chunk_size_sec,
    )
    try:
        while True:
            message = await websocket.receive()
            if "bytes" in message:
                raw = message["bytes"]
                if len(raw) % 4 != 0:
                    await websocket.send_json({"error": "Data length must be multiple of 4 bytes (float32)"})
                    continue
                wav = np.frombuffer(raw, dtype=np.float32)
                asr_model.streaming_transcribe(wav, state)
                await websocket.send_json({
                    "session_id": session_id,
                    "language": state.language or "",
                    "text": state.text or "",
                    "is_final": False,
                })
            elif "text" in message:
                try:
                    cmd = json.loads(message["text"])
                    if cmd.get("command") == "finish":
                        logger.info(f"Finish command received: {session_id}")
                        break
                except json.JSONDecodeError:
                    logger.warning(f"Invalid JSON: {message['text']}")
    except WebSocketDisconnect:
        logger.info(f"Client disconnected: {session_id}")
    except Exception as e:
        logger.error(f"Error in session {session_id}: {e}", exc_info=True)
        try:
            await websocket.send_json({"error": str(e)})
        except Exception:
            pass
    finally:
        try:
            asr_model.finish_streaming_transcribe(state)
            await websocket.send_json({
                "session_id": session_id,
                "language": state.language or "",
                "text": state.text or "",
                "is_final": True,
            })
            logger.info(f"Final result sent: {session_id}")
        except Exception as e:
            logger.error(f"Error finishing session {session_id}: {e}")
        try:
            await websocket.close()
        except Exception:
            pass
        logger.info(f"Session closed: {session_id}")
 # ── CLI ───────────────────────────────────────────────────────────────────────
 def parse_args():
    p = argparse.ArgumentParser(description="Qwen3-ASR Unified API (streaming + non-streaming)")
    p.add_argument("--asr-model-path", default="Qwen/Qwen3-ASR-1.7B", help="Model name or local path")
    p.add_argument("--host", default="0.0.0.0")
    p.add_argument("--port", type=int, default=8000)
    p.add_argument("--gpu-memory-utilization", type=float, default=0.8)
    p.add_argument("--max-new-tokens", type=int, default=32,
                   help="Max new tokens per call (streaming). Use larger value for non-streaming.")
    p.add_argument("--unfixed-chunk-num", type=int, default=4)
    p.add_argument("--unfixed-token-num", type=int, default=5)
    p.add_argument("--chunk-size-sec", type=float, default=1.0)
    return p.parse_args()
 if __name__ == "__main__":
    server_args = parse_args()
    uvicorn.run(app, host=server_args.host, port=server_args.port)
--- a/pyproject.toml
+++ b/pyproject.toml
@ -7,10 +7,9 @@ name = "qwen-asr"
 version = "0.0.6"
 description = "Qwen-ASR python package"
 readme = "README.md"
-requires-python = ">=3.9"
+requires-python = ">=3.10"
 classifiers = [
  "Programming Language :: Python :: 3",
  "Programming Language :: Python :: 3.9",
  "Programming Language :: Python :: 3.10",
  "Programming Language :: Python :: 3.11",
  "Programming Language :: Python :: 3.12",
--- a/test.py
+++ b/test.py
@ -0,0 +1,112 @@
 # coding=utf-8
 import argparse
 import asyncio
 import io
 import json
 import logging
 import urllib.request
 import numpy as np
 import soundfile as sf
 import websockets
 # Configure logging
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
 async def stream_audio_to_api(uri: str, audio_path: str, chunk_size_ms: int = 500):
    """
    Load audio and stream it in chunks to the ASR WebSocket API.
    """
    logger.info(f"Loading audio from {audio_path}...")
    # Load audio data
    if audio_path.startswith("http"):
        # Download from URL
        req = urllib.request.Request(audio_path, headers={"User-Agent": "Mozilla/5.0"})
        with urllib.request.urlopen(req, timeout=30) as resp:
            audio_bytes = resp.read()
        f = io.BytesIO(audio_bytes)
    else:
        # Load local file
        f = audio_path
    # Read audio as Float32
    wav, sr = sf.read(f, dtype="float32", always_2d=False)
    # Simple resample to 16k if needed (for better accuracy)
    if sr != 16000:
        logger.warning(f"Audio sample rate is {sr}, resampling to 16000...")
        dur = wav.shape[0] / float(sr)
        n16 = int(round(dur * 16000))
        x_old = np.linspace(0.0, dur, num=wav.shape[0], endpoint=False)
        x_new = np.linspace(0.0, dur, num=n16, endpoint=False)
        wav = np.interp(x_new, x_old, wav).astype(np.float32)
        sr = 16000
    # Calculate samples per chunk
    chunk_samples = int(sr * chunk_size_ms / 1000)
    logger.info(f"Connecting to WebSocket at {uri}...")
    try:
        async with websockets.connect(uri) as websocket:
            logger.info("Connected. Streaming audio...")
            pos = 0
            call_id = 0
            while pos < len(wav):
                chunk = wav[pos : pos + chunk_samples]
                pos += len(chunk)
                call_id += 1
                # Send binary Float32 data
                await websocket.send(chunk.tobytes())
                # Wait for immediate response (intermediate result)
                try:
                    response = await asyncio.wait_for(websocket.recv(), timeout=2.0)
                    result = json.loads(response)
                    if "error" in result:
                        logger.error(f"API Error: {result['error']}")
                        return
                    lang = result.get("language", "unknown")
                    text = result.get("text", "")
                    print(f"[Chunk {call_id:03d}] Lang: {lang:7s} | Text: {text}")
                except asyncio.TimeoutError:
                    logger.warning(f"Timeout waiting for response on chunk {call_id}")
                # Optional: simulate real-time performance
                # await asyncio.sleep(chunk_size_ms / 1000)
            # Send finish command
            logger.info("Finished streaming audio. Sending 'finish' command...")
            await websocket.send(json.dumps({"command": "finish"}))
            # Wait for final response
            try:
                final_response = await asyncio.wait_for(websocket.recv(), timeout=5.0)
                final_result = json.loads(final_response)
                print("\n" + "="*50)
                print("FINAL RESULT:")
                print(f"Language: {final_result.get('language')}")
                print(f"Text:     {final_result.get('text')}")
                print("="*50)
            except asyncio.TimeoutError:
                logger.error("Timeout waiting for final response")
    except Exception as e:
        logger.error(f"WebSocket Error: {e}")
 def main():
    parser = argparse.ArgumentParser(description="Qwen3-ASR Streaming API Client Test")
    parser.add_argument("--url", default="ws://localhost:8000/asr/stream", help="WebSocket API URI")
    parser.add_argument("--audio", default="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav", 
                        help="Path or URL to audio file")
    parser.add_argument("--chunk-ms", type=int, default=1000, help="Chunk size in milliseconds")
    args = parser.parse_args()
    asyncio.run(stream_audio_to_api(args.url, args.audio, args.chunk_ms))
 if __name__ == "__main__":
    main()
--- a/uv.lock
+++ b/uv.lock